黑龙江牡丹江网

首页 > 正文

Python Pandas模块数据预处理常用方法介绍

www.hechengpu.net2019-07-25

d006b96311b55d15851800f2915581c6.jpeg

数据预处理公共函数df.duplicated():判断每行是重复的,False是非重复的值。 Df.drop_duplicates():删除重复的行df.fillna(0):用实数0填充nadf.dropna():按行删除缺失的数据,使用参数axis=0;按列删除缺失值,使用参数axis=1,如何=''全部''全部是NA删除,''任何''删除del df ['col1']只要有NA:直接删除一列df.drop([]'col1',],axis=1):删除指定的列,或删除指定的行df.rename(index={'row1':'A'},列={'col1':'B'}):重命名索引名称和列名称df。 Replace():替换df值,前后值可以在字典表中使用,{'1':'A','2:'B'} hr_data ['col1']。map(function ):Series.map,用于指定列执行函数转换pd.merge(df1,df2,on='col1',how='inner',sort=True):合并两个dfs,使用common列作为内连接(交集),并且outerter是外连接(和Set),结果被排序。 Pd.concat([df1,df2]):多个系列堆叠成多行。 Df1.combine_first(df2):用df2的数据补充df1的缺失值NAN。

接下来,我们将看看每个函数的使用方法和示例演示代码。

数据集简介

使用以下数据集提供以下示例。

fdfc3d18c78ddee61b531d916b8c482f.jpeg

HR.csv

复制()

判断每行是重复,False是非重复值。

76b72db5faa260586429ec44f6b345e8.jpeg

Drop_duplicates()

删除重复的行

58eb90a4a0f363618d696a14b13797e4.jpeg

通过指定列

删除重复的行

ec3f980404466c8f9c0b7ea7e02e396a.jpeg

Fillna(值=0)

填写缺失值并用实数0填充na。

e3f1a7e52ec546be4bfe687e87647985.jpeg

Df.dropna()

通常,删除该行使用参数axis=0并使用axis=1删除该列。

01e527df781be51d89bcdbff045d1971.jpeg

使用参数axis=1按列删除缺失值。

dfddd98dd87736bedabeb2d4af35c341.jpeg

如何=''全部''全部被NA删除,''任何''被删除,只要有NA

a88364c18e67ce18fa77ff71f5a3654d.jpeg

Del df ['col1']

直接删除列。

c513bc00aa2127ebe2b59ee86d43fe17.jpeg

Df.drop()标签是列表给出的要删除的行和列的名称。 Axis=0删除该行,axis=1删除该列。索引直接指定要删除的行。列直接指定要删除的列。

bc39c3804fdfc45e689bd3a40e5afb58.jpeg

删除指定的行

5693a8b059ff41e35306cdbfe5e502a3.jpeg

Df.rename()

重命名索引名称和列名称。

10731ca83111dad70755724eb51f77fa.jpeg

Df.replace()

替换df值,前后值可以在字典表中使用,{'1':'A','2:'B'}。

ab62e7d762b7818c54b453850a95478c.jpeg

Hr_data [ 'COL1']。图(功能)

Series.map,它在指定的列上执行函数转换。

be6dc11382067c3957cc590b12de1887.jpeg

Pd.merge(DF1,DF2,上='COL1',如何='内',排序=真)

合并函数将数据集的行与一个或多个键连接在一起。此函数的主要应用场景是,对于同一主键,有两个表具有不同的特征,并且这两个表通过主键的连接进行合并。合并后,两个表中的行数不会增加,列数是两个表中列数减1的总和。

{! - PGC_COLUMN - } on=None指定连接的列名。如果需要连接的两列的列名不同,则可以通过left_on和right_on指定='inner'的方式。该参数指的是左表和右表。当主键的列中存在非重合行时,结果通过以下方式获得:内部用于交叉,外部用于并且左侧和右侧用于一条边。

e307c12666f938de2f577a7b6a61a357.jpeg

Pd.concat([DF1,DF2])

拼接两个数据集,可以在行或列上合并。

Axis=0是线拼接。拼接后,线数增加。列数也根据连接确定。当join='outer'时,列数是两个表的并集。同样,join='inner',列数是两个表的交集。

f95a243789dddc67624b0090937246fd.jpeg

Df1.combine_first(DF2)

合并重叠数据,并且df1的数据补充df1的缺失值NAN。

8138d55b70cf4a26af96088e7c48e565.jpeg

热门浏览
热门排行榜
热门标签
日期归档