百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

如何使用Python中 pandas进行数据分析?

liuian 2025-01-10 15:15 47 浏览

毋庸置疑,pandas是Python数据分析最常用的包,其便捷的函数用法和高效的数据处理方法深受从事数据分析相关工作人员的喜爱,极大提高了数据处理的效率,作为京东的经营分析人员,也经常使用pandas进行数据分析。

下面我将带领大家速学pandas数据分析,内容包含安装pandas、数据导入、数据预览、数据排序、分组聚合、数据可视化、数据导出,使用案例教大家pandas如何实现数据分析,熟练掌握后可深入学习其他知识点,下面一起学习~

安装pandas

使用pandas的功能,需要下载pandas包,Anaconda中打开jupyterNotebook,在代码行中输入如下命令进行下载。

#下载包 
!pip install pandas

如网络慢,无法下载,可指定国内源快速下载安装,就是在下载包的命令后加-i,然后添加具体的镜像网址。

#添加镜像网址下载 
!pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

安装pands包以后,引入pandas包,起一个别名叫pd,同时查看pandas包的版本,打印结果是1.1.5版本。

# 引入 Pandas库,按惯例起别名pd 
import pandas as pd
 
#打印版本号
pd.__version__

数据导入

如何使用Python导入.xlsx文件,导入.xlsx文件的参数如下所示,关于read_excel参数比较多,只需要掌握常用的几个参数即可。

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,usecols=None, 
              squeeze=False,dtype=None,engine=None,converters=None,true_values=None,
              false_values=None,skiprows=None,nrows=None,na_values=None,parse_dates=False,
              date_parser=None,thousands=None, comment=None, skipfooter=0, 
              convert_float=True, **kwds)

使用read_excel命令导入数据,写入路径即可导入数据,数据包含日期、订单号、区域、省份等数据字段。

import pandas as pd

df=pd.read_excel(r'D:\系统桌面(勿删)\Desktop\电商销售数据-23年8月.xlsx',parse_dates=['日期'])
df

数据预览

拿到一组数据以后,我们首先对数据做个预览,看看数据的基本特征,df.head()可以预览前5行数据,df.tail()可以预览后5行数据。

#预览前五行数据
df.head()

#预览后五行数据
df.tail() 

使用df.shape命令查看数据包含的行数和列数,打印结果为(7409, 13),表示数据有7409行,13列。

df.shape

(7409, 13)

可以使用df.columns命令对数据字段进行预览

df.columns

使用df.dtypes命令查看数据类型,其中,日期是日期型,区域为字符型,销售数为数值型。

df.dtypes

使用df.info()命令查看查看索引、数据类型和内存信息。

df.info()

对数据做基本的描述统计可以有以下特征:

  • 数据包含7409行数据,客户平均年龄为42岁,最小年龄22岁,最大年龄62岁;
  • 平均进货价格12427元,平均销售数7单,平均销售额81022元,平均利润16857元;
  • 销售数中位数为7单,销售额中位数为61850元,利润销售额为8560元。
df.describe().round(0)

数据筛选

拿到一组数据,并不是所有的数据都能符合自己的数据分析需要,就要对数据做个筛选,比如筛选出客户年龄为22岁的包括“销售数”,“销售额”,“利润”三个字段数据,可以使用[ ]进行筛选。

df_age_22=df[df['客户年龄']==22][['客户年龄','销售数','销售额','利润']] 
df_age_22

如果要添加多条件进行筛选,可以使用&符号添加多个筛选条件,比如这里同时筛选客户年龄为22岁且利润大于10万的所有客户数据,就可以分别作为筛选条件,然后使用&符号连接起来。

df_age_22_sale=df[(df['客户年龄']==22)&(df['利润']>100000)] 
df_age_22_sale

数据排序

使用sort_values函数排序,by后面跟排序的字段,默认为升序排列,ascending=False可将字段设为降序排列,这里将利润按照从大到小降序排列

df.sort_values(by='利润',ascending=False)

如果需要自定义排序,可以将多个字段传入列表[ ]中,ascending用来自定义字段是升序还是降序排列,比如这里分别对“省份”,“销售额”两个字段降序排列。

df.sort_values(['省份','销售额'],ascending=[False,False])

分组聚合

分组聚合是数据处理中最常用的一个功能,使用groupby函数,括号内跟分组的对象,中括号中加运算对象,比如这里计算各个区域的订单数据,由数据可得华南区域的订单数最多,有2692单,西南区域的订单数最少,有232单。

df.groupby('区域')['订单号'].count().reset_index()

如果要对同一个字段做不同的运算,可以使用.agg函数,中括号中可以添加具体需要运算的方法,比如这里分别对各个区域的利润求平均值、最大值和最小值,由数据可以看出,华北区域的平均利润是17928.7元,平均值最高,东北区域的极差最大,最大利润和最小利润都集中在东北区域。

df.groupby('区域')['利润'].agg(['mean','max','min']).round(1) .reset_index()

除此之外使用describe()函数可以快速得出描述统计结果。

df.groupby('区域')['利润'].describe()

数据可视化

使用图表可以更高效地传达数据信息,如下使用plot.bar() 函数做各个区域销售额的柱形图,由图可以看出华南区域的销售额最高,西南区域的销售额最低。

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

df.groupby('区域')['销售额'].sum().plot.bar() # 柱状图

同样,使用plot.barh()可以做出条形图。

df.groupby('区域')['销售额'].sum().sort_values().plot.barh() # 条形图

使用plot.pie函数可以看各个区域的销售额占比,其中,autopct用来设置数据标签,figsize用来设置图图片的大小,由图可以看出华南区域的销售额占比最高,西南区域的销售额占比最低,仅占比3.1%。

import matplotlib.pyplot as plt 
import matplotlib.style as psl

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

psl.use('ggplot')

#导入数据
df_sale=df.groupby('区域')['销售额'].sum().sort_values(ascending=False).reset_index()
labels = df_sale['区域'].tolist()
explode = [0.050,0.050,0,0,0,0]  # 用于突出显示特定区域
#饼图
df_sale['销售额'].plot(kind='pie',figsize=(9,6),autopct='%.1f%%',#数据标签
                    labels=labels,
                    startangle=90, #初始角度
                    explode=explode, # 突出显示数据
                    pctdistance=0.87,  # 设置百分比标签与圆心的距离
                    textprops = {'fontsize':12, 'color':'k'}, # 设置文本标签的属性值
                    counterclock = False, # 是否逆时针
                   )

plt.title("各区域销售额占比")

数据导出

将数据分析的数据结果导出到Excel表中,可以使用to_excel函数,如果需要导出到不同的sheet中,需要提前声明一个writer对象,该对象内含导出的路径以及表格名称,将需要导出的数据赋值给变量后即可导出到本地。

如下我们将各个区域销售订单数和各个区域的销售额描述统计两个统计结果分别导出到两个sheet表中,index=False表明不显示行索引。

#声明一个对象 
writer=pd.ExcelWriter(r'D:\系统桌面(勿删)\Desktop\电商销售数据分析结果.xlsx',engine='xlsxwriter') 

#变量赋值 
out_table1=df.groupby('区域')['订单号'].count().reset_index() 
out_table2=df.groupby('区域')['销售额'].agg(['mean','max','min','sum']).reset_index() 

#数据导出 
out_table1.to_excel(writer,sheet_name='各区域销售订单数',index=False) 
out_table2.to_excel(writer,sheet_name='各区域销售额描述统计',index=False) 

#对象保存 
writer.save() 

#对象关闭 
writer.close()

相较于Excel的复杂操作,pandas仅需几行代码即可得到数据分析结果,近乎完美,限于篇幅原因,这里仅举例pandas数据分析的常规用法,如果想要加深学习数据分析知识,不妨关注我,持续创作数据分析知识,一定能让你有所收获~#图文作者打造计划#

相关推荐

ghost系统盘制作(制作ghost启动盘)

首先,需要准备东西如下:光驱起码要支持DVD刻录吧,您要是Combo刻CD还真不好意思和别人打招呼。。。DVD白盘若干,一张随便什么样的可引导系统盘(里面有ghost的那种),nero软件,Ultra...

cad2008序列号和激活码(cad2008序列号密钥)

2008cad注册码是666-98989898。双击“AutoCAD2008Chs_运行获取激活码.exe”,将注册界面上的申请号粘贴到“AutoCAD2008Chs_运行获取激活码.exe”申请号一...

电脑无线网连不上怎么办(电脑无线网连接不上怎么回事)
电脑无线网连不上怎么办(电脑无线网连接不上怎么回事)

1、打开“控制面板”,点击“网络和Internet”。2、点击“网络和共享中心”。3、点击“更改适配器设置”。4、鼠标右键单击需要连接的网络,在弹出的对话框中,点击“属性”。5、选中“Internet协议版本4(TCP/IPv4)”,...

2025-11-28 23:55 liuian

u盘如何恢复删除的文件(如何恢复u盘中被删除的文件)

如果您在使用WPS时误删了U盘文件,可以使用以下几种方法来恢复文件:1.检查回收站:首先检查一下您的回收站中是否有被误删的文件,如果有,可以将文件恢复回来。2.使用WPS数据恢...

推特官网入口(推特官网入口网页登录网址)

首先在浏览器中打开推特的官网,然后点击页面上的“注册”创建账号。Twitter可以让用户更新不超过140个字符的消息(除中文、日文和韩语外已提高上限至280个字符),这些消息也被称作“推文(Tweet...

windows7如何清理c盘(win7怎么清理c盘)

1.打开桌面计算机,右键点击“C盘”,并选取“属性”。2.待新窗口弹出后,依次点击“工具”、“立即进行碎片整理”。3.最后,选取C盘,在按下“磁盘碎片整理”按钮,系统就会对C盘进行分析,并进行整理。4...

win10自带分区工具(win10官方分区工具)

Win10自带的分区工具是磁盘管理器,可以用来创建、删除、格式化和调整磁盘分区。下面是使用磁盘管理器分区的步骤:1.打开磁盘管理器。您可以在Windows10搜索栏中输入“磁盘管理器”来快速打开。...

appstore正版下载软件(apple store下载正版)

不会,他是正版的,因为只有ios系统可以用,但他里面的好游戏都是要收费的,所以打架都要越狱,去其它地方下载,不去商店的在安卓上,GooglePlayStore是类似于苹果的AppStore一...

手机锁屏密码键盘没了(手机输入密码的键盘没了怎么办)

如果手机锁屏密码的键盘找不到,首先要确认是否是由于软件问题导致的。可以尝试重启手机或者清理手机缓存来解决。如果问题仍然存在,可以尝试更换输入法或者恢复手机出厂设置来解决。如果以上方法都没有效果,建议联...

移动硬盘跟固态硬盘的区别(移动硬盘跟固态硬盘的区别是什么)

一:移动硬盘移动硬盘是指以传统机械磁盘作为存储介质,用于计算机之间交换大容量数据,讲究移动便携性的存储产品。优点:具有容量大、价格便宜的特点,方便存储大量文件数据。(推荐学习:web前端视频教程)缺...

windows怎么截图快捷键(windows截图快捷键没反应)

1、按Prtsc键截图这样获取的是整个电脑屏幕的内容,按Prtsc键后,可以直接打开画图工具,接粘贴使用。也可以粘贴在QQ聊天框或者Word文档中,之后再选择保存即可。2、按Ctrl+Prtsc键截图...

显示器分辨率有哪几种(显示器屏幕分辨率都有哪些)

目前使用较多的显示器分辨率有640*480,800*600,1024*768,1280*1024四种。刷新率,这主要是指显示器显示画面每秒刷新的次数,现在的电脑显示屏刷新率一般为75Hz,如果刷新率在...

小马激活工具网址(小马激活工具是什么东西)
  • 小马激活工具网址(小马激活工具是什么东西)
  • 小马激活工具网址(小马激活工具是什么东西)
  • 小马激活工具网址(小马激活工具是什么东西)
  • 小马激活工具网址(小马激活工具是什么东西)
windows7激活工具 知乎(win7激活工具怎么使用教程)

Win7激活工具有很多,比如kms激活工具、小马激活工具、Windowsloader等。下面以这三款激活工具为例,做一个简单的比较。1、kms激活工具,相对比较稳定,通用性强,对各种gho、iso镜...

英伟达高端显卡排行(英伟达最高级显卡)

具体的排名如下:1、NVIDIAGeForceRTX30902、NVIDIAGeForceRTX3080Ti3、NVIDIAQuadroRTXA60004、NVIDIAGeFor...