Python数据分析学习第一天

Pandas 与 NumPy 最大的不同在于,它是用来处理表格型或异质型数据的,而 NumPy 则更适合处理同质型的数值类数组数据。

Series 和 DataFrame,两个常用的数据结构。

Series 是一种一维的数组型对象,它包含了一个值序列(与NumPy中的类型相似),并且包含了数据标签,称为索引(index)。

DataFrame 表示的是矩阵的数据表,它包含已排序的列集合,每一列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame 既有行索引也有列索引,它可以被视为一个共享相同索引的 Series 的字典。在 DataFrame中,数据被存储为一个以上的二维块,而不是列表、字典或其他一维数组的集合。

DataFrame 中的一列,可以按字典型标记或属性那样检索为 Series。

pd.read_csv('path_to_csv_file')

pd.read_csv('path_to_csv_file', sep='\t')

df.to_csv('path_to_csv_file')

reset_index(drop=True)

frame.sort_index()

frame.sort_values()

frame.describe()
浙ICP备19012682号