在进行数据分析和建模的过程中,大量的时间花在数据准备上:加载、清理、转换和重新排列。这样的工作占用了分析师 80% 以上的时间。
处理缺失值
Pandas 使用浮点值 NaN(Not a Number 来表示缺失值)。
Python 内建的 None 值在对象数组中也被当作NA处理。
dropna
fillna
isnull
notnull
fillna 的函数参数:
value
method
axis
inplace
limit
数据转换
duplicated
drop_duplicates
map
replace
rename
cut
qcut
sign
permutation
sample
get_dummies
字符串操作
findall
search
match
sub