其实,数据分析看着很高大上,也很实用,但是真的很枯燥啊。。。。但是它又不得不学,毕竟数据分析对很多工作是很有帮助的,比如爬虫,抓到的数据,不论是保存到文件还是数据库,都需要对数据进行清洗、去重等等操作 ,这些和数据分析就密不可分了!
概述
python的数据分析主要用到3个库:numpy、pandas、matplotlib,它们的差别简单的说就是,numpy主要操作数值,pandas操作数值和字符,matplotlib做可视化!
NUMPY(以下简称NP)是Python数据分析必不可少的第三方库,np的出现一定程度上解决了Python运算性能不佳的问题,同时提供了更加精确的数据类型。如今,np被Python其它科学计算包作为基础包,已成为Python 数据分析的基础,可以说,NP是SciPy、Pandas等数据处理或科学计算库最基本的函数功能库。因此,理解np的数据类型对python数据分析十分有帮助。
今天,给大家分享的就是NP的常用操作和基本数据类型
numpy基础操作
安装和导入:
pip install numpy 安装库
导入时直接import numpy,为了方便使用,基本默认用import numpy as np
说到numpy,就不得不说到数组,多维数组的操作,在numpy中是很常见的,而且也很简单(当然需要自身有一定的数学基础哦!)用代码来直接呈现吧
列表或者迭代器都可以直接用array方法传入列表,最终生成1行5列的数组(矩阵),它们都是numpy定义的数据类型
这是一行,也可以生成二维数组
先给lis列表添加2个列表进去,它的格式是【【lis1】,【lis2】】,然后传入a,打印出来就是一个2行5列的数组,当然数据类型是不变的。
既然是多行,那么就可以改变形状了,这里用到了shape(查看)和reshape(修改)数组形状的方法,注意这里的修改形状,不能将2行5列的数组修改为3行5列的数组,只能行和列互换,而且reshape有返回值,不影响原有数据的,看下图
在来一个错误示例
将多种情况都打印出来,就可以看的很明白了!
flatten方法,它可以将多维数组'摊平',这个方法相对重要!同样,它也不影响原有数组
numpy的简单计算及索引与取值
以上我们说到了一些numpy对数组的简单操作,计算部分,就单开一节了。先来几个简单的
数组+1,所有数加1,数组乘3,所有数乘3。而数组的索引与取值,可以对比列表的索引和取值,来进行学习,注意,它的下标依然是从0开始的
而取列就不一样了,比如:a[:,1]表示第二列,在中括号里面的冒号+逗号表示所有行,先看实例:
也可以取指定的行或者列,如下图:
取指定行的话,直接传含有指定行索引的列表进去,取列也一样,不过在前面记得加冒号+逗号。不止只有,还可以取指定行与列交叉部分:
b = a[1:3,2:4],注意,列表中前面的1:3代表行,后面的2:4代表列!取出的值依然是一个numpy的数据类型!
未完待续
以上介绍了一些numpy操作数组的,及它本身的一些基本操作方式,要知道numpy用法很广泛,一篇文章根本写不完,之后会慢慢的分享给大家!
再次重申,数据分析是一个非常枯燥的工作,它比web开发或者爬虫都要枯燥很多,如果您有这方面的学习欲望,且能坚持的话,可以来和我们一起学习哦!
我们要振作精神,下苦功学习。下苦功,三个字,一个叫下,一个叫苦,一个叫功,一定要振作精神,下苦功。
—— 毛泽东