Pandas 与 NumPy 最大的不同在于,它是用来处理表格型或异质型数据的,而 NumPy 则更适合处理同质型的数值类数组数据。
Series 和 DataFrame,两个常用的数据结构。
Series 是一种一维的数组型对象,它包含了一个值序列(与NumPy中的类型相似),并且包含了数据标签,称为索引(index)。
DataFrame 表示的是矩阵的数据表,它包含已排序的列集合,每一列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame 既有行索引也有列索引,它可以被视为一个共享相同索引的 Series 的字典。在 DataFrame中,数据被存储为一个以上的二维块,而不是列表、字典或其他一维数组的集合。
DataFrame 中的一列,可以按字典型标记或属性那样检索为 Series。
pd.read_csv('path_to_csv_file')
pd.read_csv('path_to_csv_file', sep='\t')
df.to_csv('path_to_csv_file')
reset_index(drop=True)
frame.sort_index()
frame.sort_values()
frame.describe()