数据分析task01

第一次用python进行数据导入时发现数据导入成功了但是数据显示的却看得很混乱。


后来改用pandas导入,用to_string()打印数据看得还是有点混乱。可能是数据太长了无法一次性展开。



还有个相对路劲和绝对路劲的,相对路劲个人理解即相对当前工作目录而言的,而绝对路劲便是不管当前工作目录是啥直接按完整的的路劲来输入即可。绝对路劲出错会较少点,相对路劲如果不在当前工作目录下,容易导入出错。而且路径windows路径标识可以用\杠或/杠,而linux好像是用\杠就可以了,linux具体没试过,但根据linux的路径标识应该是没错的。还有如果不知道当前工作目录是啥可以用os.getcwd()来获取当前工作目录。

还有数据分块可以用在导入文件时在括号内添加一个chunksize块标识,并制定块数据大小。个人理解分块逐块导入应该可以更快捷,提供效率,这只是个人理解,是否有错或者还有其他功能不太清楚。
还有一点将表头更换为中文数据,直接在导入时添加names信息,并制定索引即可,是否还有什么方式呢
经百度搜索还可以直接用columns或者rename函数进行更改,但是用columns函数需要一一列出,不能缺少否则会报错,而用rename函数明显好用很多,想改什么就改什么。当然还有其他方法,但我觉得这两个暂时就够用了,不够在百度。


如果是用train.head()输出就能输出类似表格的样式,但是这样只能输出最后一个,要这个输出就需要加print,如果没有print就只能单个cell输出。而加了print输出就只能单独输出文本,不够美观。
eg:


用info()函数可以显示文件信息概览,这个好像没啥好说的,我现在也不太清楚具体有啥地方需要用到这个。


isnull()函数则是判断数据是否为空,如果是空值则显示True,否则就是Flase。这个可以检测数据中的空值。

如果要显示列标题名称可以用columns,选择某一列的也可以直接用train[“x”]选中,类似列表数据选取。
删除数据可以用del函数,或者用drop函数选中隐藏指定列数据。

pandas可以直接按指定条件刷选数据。

另外reset_index函数为重置索引,理解的很前线,估计得遇到问题了才能印象深刻吧。


loc函数是利用行标签索引行数据,前闭后闭;iloc是利用行号获取行数据,好像只能用int数据,前闭后开;

接下来重点谈下sort_value函数,排序函数,这个函数肯定很常用。ascending参数指定排序方式,Flase为降序,True为升序,默认是升序。如果是sort_index,就是索引排序。如果指定两个列(行)排序,但两个列(行)部分内容排序出现矛盾,则优先按第一数据进行排序再按第二数据。


这里面还有个max函数,就如cell所说。
最后一个即使describe函数了,这个函数主要用途就是显示统计量、均值、标准差、最小大值、各分位数。函数运用也比较简单。

第一章内容基本就是这样了。

浙ICP备19012682号