这是我参与11月更文挑战的第20天,活动详情查看:2021最后一次更文挑战
数据分析-数据预处理
处理重复值
duplicated( )查找重复值
1 | css复制代码 import pandas as pd |
只判断全局不判断每个
any()
1 | css复制代码 import pandas as pd |
drop_duplicates( )删除重复值
参数inplace 是否在原数据上修改
1 | css复制代码 import pandas as pd |
处理缺失值
NaN表示缺失值
1 | python复制代码 import pandas as pd |
isnull( )判断所有位置元素是否缺失
1 | python复制代码 import pandas as pd |
any( )判断行列元素是否缺失
1 | python复制代码 import pandas as pd |
del( )dropna( )删除
1 | python复制代码 import pandas as pd |
1 | python复制代码 import pandas as pd |
del( )删除指定列,dropna( )删除含有缺失值的列(行)
fillna( )缺失值填补
1 | python复制代码import pandas as pd |
根据上(下)数据填充
pad / ffill: 按照上一行进行填充 backfill / bfill: 按照下一行进行填充
1 | python复制代码import pandas as pd |
数值型数据填充
平均值mean()
每列的平均值填充
1 | python复制代码import pandas as pd |
中位数median( )
1 | python复制代码import pandas as pd |
字符型数据填充
众数mode( )
1 | python复制代码import pandas as pd |
数据变换
map( )数据转换
1 | css复制代码import pandas as pd |
哑变量
1 | ini复制代码import pandas as pd |
\
本文转载自: 掘金