[学习心得]动手学数据分析—Task1

相关代码和课程答案已经很多了,主要分享学习过程中的一些心得。

1.试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?
pd.read_csv()和pd.read_table()都可以从文件、URL、文件对象中加载带分隔符的数据。pd.read_csv()的默认分隔符是逗号,pd.read_table()的默认分隔符是制表符。也可以指定分隔符,这样两个函数效果就一样了。
.tsv与.csv文件的区别是分隔符不同。这样可以用pd.read_table()和pd.read_csv()分别加载。

2.什么是逐块读取?为什么要逐块读取呢?
在处理很大的文件时,或找出大文件中的参数集以便于后续处理时,你可能只想读取文件的一小部分或逐块对文件进行迭代。当数据集太大时,通过逐块读取数据可以加快文件读取的速度。

3.第一章:第一节 任务四:将表头改成中文,索引改为乘客ID
此处使用pd.read_csv函数,在使用过程中要注意函数变量’name’和’header’的微妙关系。当names没被赋值时,header会变成0,即选取数据文件的第一行作为列名;当 names 被赋值,header 没被赋值时,那么header会变成None。如果都赋值,就会实现两个参数的组合功能。

4.教程第一章:第二节pandas基础 1.4.1任务一中:pandas中有两个数据类型DateFrame和Series。这里应为’DataFrame’可能是打错了。

5.教程第一章:第二节pandas基础1.4.5 任务五:加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除。
del函数和drop函数都可以做到删除多余列。

6.教程第一章:第二节pandas基础1.5.3 任务三:将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来。
此处需要使用reset_index先把原来的索引去掉,否则索引的行数还是原理数据集的行数,而非现在数据集的行数。

7.对比iloc和loc的异同
iloc 的使用与 loc 完全类似,只不过是针对位置进行筛选,在相应的 * 位置处一共也有五类合法对象,分别是:整数、整数列表、整数切片、布尔列表以及函数,函数的返回值必须是前面的四类合法对象中的一个,其输入同样也为 DataFrame 本身。

浙ICP备19012682号