数据分析第一天

第一章

这次学习让我第一次接触到了jupyter notebook这个软件,用jupyter能够使写出来的代码即时运行,非常方便。

pandas中的两个数据类型,series类似于一维数组,如果不知道索引值的话,就是偏移值,从0开始,与R语言不同。但是,通过手动设定索引值,就类似于python中的字典了。通过Series()函数可以将一组数据格式化成series。

DataFrame则类似于二维数字,存在行和列。同样的,可以通过DataFrame()函数将数据转换过来,同样可以制定行和列的名称。

1.以下是几种索引方式:

1.1

index_col用来指定索引列,可以是行索引的列编号或者列名,如果给定一个序列,则有多个行索引。Pandas不会自动将第一列作为索引,不指定时会自动使用以0开始的自然索引。

此方法是可设置索引列。

1.2

csv[列名或行名]这样的方式就可以访问特点行或列

想要显示特点条件筛选之后的结果,只需像这样

df[df["Age"]<10].head(3)

在后方的[]中添加即可

2.

要注意的是, Pandas中用符号 & 表示逻辑与,连接两个逻辑语句,同时为真才为真。 Pandas中用符号 | 表示逻辑或,连接两个逻辑语句,只要其中一个为真就为真。 Pandas中用符号 ~ (键盘左上角)表示逻辑非,对逻辑语句取反。 pandas中的逻辑运算符与python不一样。

3.

索引loc()函数,参数可以为索引值(行数或列数),可以同时制定某一列或某一行,条件语句也可以包含在其中。 loc()与iloc()都具有索引功能,loc是根据value索引,而iloc则是根据位置(默认从0开始)索引。

frame.sort_values(by=['a', 'c'], ascending=False)

让任选两列数据同时排序,则会综合排序

4.

对于数据的进一步处理:

describe()函数可以有一个快速对数据的大概情况的了解

image
通过max,min 与各种条件的设置,可以从一堆庞大的数据中提取出有用的信息

浙ICP备19012682号