如何使用Python中 pandas进行数据分析?
liuian 2025-01-10 15:15 56 浏览
毋庸置疑,pandas是Python数据分析最常用的包,其便捷的函数用法和高效的数据处理方法深受从事数据分析相关工作人员的喜爱,极大提高了数据处理的效率,作为京东的经营分析人员,也经常使用pandas进行数据分析。
下面我将带领大家速学pandas数据分析,内容包含安装pandas、数据导入、数据预览、数据排序、分组聚合、数据可视化、数据导出,使用案例教大家pandas如何实现数据分析,熟练掌握后可深入学习其他知识点,下面一起学习~
安装pandas
使用pandas的功能,需要下载pandas包,Anaconda中打开jupyterNotebook,在代码行中输入如下命令进行下载。
#下载包
!pip install pandas如网络慢,无法下载,可指定国内源快速下载安装,就是在下载包的命令后加-i,然后添加具体的镜像网址。
#添加镜像网址下载
!pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple安装pands包以后,引入pandas包,起一个别名叫pd,同时查看pandas包的版本,打印结果是1.1.5版本。
# 引入 Pandas库,按惯例起别名pd
import pandas as pd
#打印版本号
pd.__version__数据导入
如何使用Python导入.xlsx文件,导入.xlsx文件的参数如下所示,关于read_excel参数比较多,只需要掌握常用的几个参数即可。
pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,usecols=None,
squeeze=False,dtype=None,engine=None,converters=None,true_values=None,
false_values=None,skiprows=None,nrows=None,na_values=None,parse_dates=False,
date_parser=None,thousands=None, comment=None, skipfooter=0,
convert_float=True, **kwds)使用read_excel命令导入数据,写入路径即可导入数据,数据包含日期、订单号、区域、省份等数据字段。
import pandas as pd
df=pd.read_excel(r'D:\系统桌面(勿删)\Desktop\电商销售数据-23年8月.xlsx',parse_dates=['日期'])
df数据预览
拿到一组数据以后,我们首先对数据做个预览,看看数据的基本特征,df.head()可以预览前5行数据,df.tail()可以预览后5行数据。
#预览前五行数据
df.head()
#预览后五行数据
df.tail() 使用df.shape命令查看数据包含的行数和列数,打印结果为(7409, 13),表示数据有7409行,13列。
df.shape(7409, 13)
可以使用df.columns命令对数据字段进行预览
df.columns使用df.dtypes命令查看数据类型,其中,日期是日期型,区域为字符型,销售数为数值型。
df.dtypes
使用df.info()命令查看查看索引、数据类型和内存信息。
df.info()对数据做基本的描述统计可以有以下特征:
- 数据包含7409行数据,客户平均年龄为42岁,最小年龄22岁,最大年龄62岁;
- 平均进货价格12427元,平均销售数7单,平均销售额81022元,平均利润16857元;
- 销售数中位数为7单,销售额中位数为61850元,利润销售额为8560元。
df.describe().round(0)数据筛选
拿到一组数据,并不是所有的数据都能符合自己的数据分析需要,就要对数据做个筛选,比如筛选出客户年龄为22岁的包括“销售数”,“销售额”,“利润”三个字段数据,可以使用[ ]进行筛选。
df_age_22=df[df['客户年龄']==22][['客户年龄','销售数','销售额','利润']]
df_age_22如果要添加多条件进行筛选,可以使用&符号添加多个筛选条件,比如这里同时筛选客户年龄为22岁且利润大于10万的所有客户数据,就可以分别作为筛选条件,然后使用&符号连接起来。
df_age_22_sale=df[(df['客户年龄']==22)&(df['利润']>100000)]
df_age_22_sale数据排序
使用sort_values函数排序,by后面跟排序的字段,默认为升序排列,ascending=False可将字段设为降序排列,这里将利润按照从大到小降序排列
df.sort_values(by='利润',ascending=False)如果需要自定义排序,可以将多个字段传入列表[ ]中,ascending用来自定义字段是升序还是降序排列,比如这里分别对“省份”,“销售额”两个字段降序排列。
df.sort_values(['省份','销售额'],ascending=[False,False])分组聚合
分组聚合是数据处理中最常用的一个功能,使用groupby函数,括号内跟分组的对象,中括号中加运算对象,比如这里计算各个区域的订单数据,由数据可得华南区域的订单数最多,有2692单,西南区域的订单数最少,有232单。
df.groupby('区域')['订单号'].count().reset_index()如果要对同一个字段做不同的运算,可以使用.agg函数,中括号中可以添加具体需要运算的方法,比如这里分别对各个区域的利润求平均值、最大值和最小值,由数据可以看出,华北区域的平均利润是17928.7元,平均值最高,东北区域的极差最大,最大利润和最小利润都集中在东北区域。
df.groupby('区域')['利润'].agg(['mean','max','min']).round(1) .reset_index()除此之外使用describe()函数可以快速得出描述统计结果。
df.groupby('区域')['利润'].describe()数据可视化
使用图表可以更高效地传达数据信息,如下使用plot.bar() 函数做各个区域销售额的柱形图,由图可以看出华南区域的销售额最高,西南区域的销售额最低。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
df.groupby('区域')['销售额'].sum().plot.bar() # 柱状图同样,使用plot.barh()可以做出条形图。
df.groupby('区域')['销售额'].sum().sort_values().plot.barh() # 条形图使用plot.pie函数可以看各个区域的销售额占比,其中,autopct用来设置数据标签,figsize用来设置图图片的大小,由图可以看出华南区域的销售额占比最高,西南区域的销售额占比最低,仅占比3.1%。
import matplotlib.pyplot as plt
import matplotlib.style as psl
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
psl.use('ggplot')
#导入数据
df_sale=df.groupby('区域')['销售额'].sum().sort_values(ascending=False).reset_index()
labels = df_sale['区域'].tolist()
explode = [0.050,0.050,0,0,0,0] # 用于突出显示特定区域
#饼图
df_sale['销售额'].plot(kind='pie',figsize=(9,6),autopct='%.1f%%',#数据标签
labels=labels,
startangle=90, #初始角度
explode=explode, # 突出显示数据
pctdistance=0.87, # 设置百分比标签与圆心的距离
textprops = {'fontsize':12, 'color':'k'}, # 设置文本标签的属性值
counterclock = False, # 是否逆时针
)
plt.title("各区域销售额占比")数据导出
将数据分析的数据结果导出到Excel表中,可以使用to_excel函数,如果需要导出到不同的sheet中,需要提前声明一个writer对象,该对象内含导出的路径以及表格名称,将需要导出的数据赋值给变量后即可导出到本地。
如下我们将各个区域销售订单数和各个区域的销售额描述统计两个统计结果分别导出到两个sheet表中,index=False表明不显示行索引。
#声明一个对象
writer=pd.ExcelWriter(r'D:\系统桌面(勿删)\Desktop\电商销售数据分析结果.xlsx',engine='xlsxwriter')
#变量赋值
out_table1=df.groupby('区域')['订单号'].count().reset_index()
out_table2=df.groupby('区域')['销售额'].agg(['mean','max','min','sum']).reset_index()
#数据导出
out_table1.to_excel(writer,sheet_name='各区域销售订单数',index=False)
out_table2.to_excel(writer,sheet_name='各区域销售额描述统计',index=False)
#对象保存
writer.save()
#对象关闭
writer.close()相较于Excel的复杂操作,pandas仅需几行代码即可得到数据分析结果,近乎完美,限于篇幅原因,这里仅举例pandas数据分析的常规用法,如果想要加深学习数据分析知识,不妨关注我,持续创作数据分析知识,一定能让你有所收获~#图文作者打造计划#
相关推荐
- tplink登陆密码(tplink登录密码)
-
TP-LINK路由器默认的出厂登录用户名和密码均为小写字母“admin”。该密码是保护路由器免遭攻击的重要密码,忘记了登录的管理员密码,只能通过路由器的Reset复位键(部分路由器为Reset小孔)进...
- windows8中文版激活(windows8激活怎么操作)
-
要激活Windows8操作系统,可以按照以下步骤进行操作:1.打开“开始”菜单,点击桌面图标,进入桌面模式。2.从屏幕右侧滑动以打开“设置”栏,然后点击“更改PC设置”。3.在左侧导航栏中选择...
-
- 手机app怎么下载(手机app怎么下载安装)
-
每个手机上都有下载APP的应用商店,以下面为例演示,下载方法如下:1、首先在手机上找到并打开应用商店。2、接下来进入到应用商店之后,选择红色箭头所指处的搜索栏,搜索需要下载的应用。3、接下来会弹出搜索的应用,点击红色箭头所...
-
2026-01-13 23:37 liuian
- dell电脑蓝屏开不了机怎么办
-
电脑蓝屏的解决方法,先软件后硬件,一般软件问题比较多一点。1、最后一次正确的配置:在开机启动未进入到操作系统之前我们不停按下F8键,选择“最后一次正确的配置”然后回车即可。2、安全模式:如果“最后一次...
- 如何单独改c盘为mbr模式(如何c盘改为mbr分区 免格式化)
-
硬盘分为两种格式的分区,一种是GPT,一种是MBR,一般win7或者以下系统是安装在MBR分区中,而win8和win10一般是安装在gpt分区中的,这两个分区格...
- win7activation解压密码(windows7解压文件去哪里了)
-
若使用的是vivo手机,忘记vivo账号密码、锁屏密码,可携带手机、身份证、有效的购机凭证前往服务中心处理,进入浏览器搜索vivo官网--服务--服务中心--查看全部--选择省市查询当地的服务中心地址...
- 移动固态硬盘排行榜(移动固态硬盘排行榜前十名)
-
西部数据。西部数据MyPassport随行SSD版。西数最主打的移动固态硬盘,如果在大促期间可以在900元以下的价格买到,搭载了NVMe技术,最大读速1050M/S,这是主流大厂速度在1050M/S...
- windows资源管理器怎么关闭(windows资源管理器关闭后电脑黑屏)
-
1、鼠标放在桌面,右击选中启动任务管理器。2、进入任务管理器之后,点击上方的进程,然后找explorer。3、鼠标右击explorer,选中结束进程。4、接着弹出弹框,确认结束进程,这样Windows...
- win10正版系统官网原版纯净版gho
-
下载Ghost版本的Win10的iso文件然后把这个iso文件解压出来然后使用搜索的方式搜索出.GHO文件就是你需要的win10.gho安装,这是系统的ghost文件,你可以选择制作pe系统u盘...
- 戴尔官方网站查询真伪(戴尔官方正品查询)
-
找到笔记本背面或底部的服务标签或快速服务代码(也可以跳过这步)。打开dell支持网页http://www.dell.com/support/home/cn/zh/cnbsd1?c=cn&l=z...
- 手机无法连接无线网络(手机怎么连无线网络wifi)
-
导致无线网络连接受限的原因主要是由于DNS设置不当、热点本身无法正常访问网络以及防火墙阻止访问网络所造成的。首先需要关闭防护类软件,从而允许无线网络访问外网。在电脑右下角右键点击无线网图标,在弹出菜单...
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
