数据分析第二天

1.

info可以之间看出非空值的个数

通过 isnull() 判断各个单元格是否为空

可以指定空数据类型:

pd.read_csv('train.csv', na_values =  ["n/a", "na", "--"])

dropna()去除空值 fillna()填充空值

数值列读取数据后,空缺值的数据类型为float64所以用None一般索引不到,比较的时候最好用np.nan

2.

比较详细的分箱知识:https://blog.csdn.net/Orange_Spotty_Cat/article/details/116485079**
官方参考文档:

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’, ordered=True)[source]

bins: The criteria to bin by.分箱准则 如果是int,则表示均分x等份。

如果手动选择范围,对于数值型,将每个区间范围用列表表示即可[0,5,15,30,50,80]

百分比[0.1,0.4,0.9]时用qcut()函数

3.

从文本中提取数据 xx.str.extract([正则],expanding=真时会显示每一次结果)

浙ICP备19012682号