百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

如何使用Python中 pandas进行数据分析?

liuian 2025-01-10 15:15 41 浏览

毋庸置疑,pandas是Python数据分析最常用的包,其便捷的函数用法和高效的数据处理方法深受从事数据分析相关工作人员的喜爱,极大提高了数据处理的效率,作为京东的经营分析人员,也经常使用pandas进行数据分析。

下面我将带领大家速学pandas数据分析,内容包含安装pandas、数据导入、数据预览、数据排序、分组聚合、数据可视化、数据导出,使用案例教大家pandas如何实现数据分析,熟练掌握后可深入学习其他知识点,下面一起学习~

安装pandas

使用pandas的功能,需要下载pandas包,Anaconda中打开jupyterNotebook,在代码行中输入如下命令进行下载。

#下载包 
!pip install pandas

如网络慢,无法下载,可指定国内源快速下载安装,就是在下载包的命令后加-i,然后添加具体的镜像网址。

#添加镜像网址下载 
!pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

安装pands包以后,引入pandas包,起一个别名叫pd,同时查看pandas包的版本,打印结果是1.1.5版本。

# 引入 Pandas库,按惯例起别名pd 
import pandas as pd
 
#打印版本号
pd.__version__

数据导入

如何使用Python导入.xlsx文件,导入.xlsx文件的参数如下所示,关于read_excel参数比较多,只需要掌握常用的几个参数即可。

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,usecols=None, 
              squeeze=False,dtype=None,engine=None,converters=None,true_values=None,
              false_values=None,skiprows=None,nrows=None,na_values=None,parse_dates=False,
              date_parser=None,thousands=None, comment=None, skipfooter=0, 
              convert_float=True, **kwds)

使用read_excel命令导入数据,写入路径即可导入数据,数据包含日期、订单号、区域、省份等数据字段。

import pandas as pd

df=pd.read_excel(r'D:\系统桌面(勿删)\Desktop\电商销售数据-23年8月.xlsx',parse_dates=['日期'])
df

数据预览

拿到一组数据以后,我们首先对数据做个预览,看看数据的基本特征,df.head()可以预览前5行数据,df.tail()可以预览后5行数据。

#预览前五行数据
df.head()

#预览后五行数据
df.tail() 

使用df.shape命令查看数据包含的行数和列数,打印结果为(7409, 13),表示数据有7409行,13列。

df.shape

(7409, 13)

可以使用df.columns命令对数据字段进行预览

df.columns

使用df.dtypes命令查看数据类型,其中,日期是日期型,区域为字符型,销售数为数值型。

df.dtypes

使用df.info()命令查看查看索引、数据类型和内存信息。

df.info()

对数据做基本的描述统计可以有以下特征:

  • 数据包含7409行数据,客户平均年龄为42岁,最小年龄22岁,最大年龄62岁;
  • 平均进货价格12427元,平均销售数7单,平均销售额81022元,平均利润16857元;
  • 销售数中位数为7单,销售额中位数为61850元,利润销售额为8560元。
df.describe().round(0)

数据筛选

拿到一组数据,并不是所有的数据都能符合自己的数据分析需要,就要对数据做个筛选,比如筛选出客户年龄为22岁的包括“销售数”,“销售额”,“利润”三个字段数据,可以使用[ ]进行筛选。

df_age_22=df[df['客户年龄']==22][['客户年龄','销售数','销售额','利润']] 
df_age_22

如果要添加多条件进行筛选,可以使用&符号添加多个筛选条件,比如这里同时筛选客户年龄为22岁且利润大于10万的所有客户数据,就可以分别作为筛选条件,然后使用&符号连接起来。

df_age_22_sale=df[(df['客户年龄']==22)&(df['利润']>100000)] 
df_age_22_sale

数据排序

使用sort_values函数排序,by后面跟排序的字段,默认为升序排列,ascending=False可将字段设为降序排列,这里将利润按照从大到小降序排列

df.sort_values(by='利润',ascending=False)

如果需要自定义排序,可以将多个字段传入列表[ ]中,ascending用来自定义字段是升序还是降序排列,比如这里分别对“省份”,“销售额”两个字段降序排列。

df.sort_values(['省份','销售额'],ascending=[False,False])

分组聚合

分组聚合是数据处理中最常用的一个功能,使用groupby函数,括号内跟分组的对象,中括号中加运算对象,比如这里计算各个区域的订单数据,由数据可得华南区域的订单数最多,有2692单,西南区域的订单数最少,有232单。

df.groupby('区域')['订单号'].count().reset_index()

如果要对同一个字段做不同的运算,可以使用.agg函数,中括号中可以添加具体需要运算的方法,比如这里分别对各个区域的利润求平均值、最大值和最小值,由数据可以看出,华北区域的平均利润是17928.7元,平均值最高,东北区域的极差最大,最大利润和最小利润都集中在东北区域。

df.groupby('区域')['利润'].agg(['mean','max','min']).round(1) .reset_index()

除此之外使用describe()函数可以快速得出描述统计结果。

df.groupby('区域')['利润'].describe()

数据可视化

使用图表可以更高效地传达数据信息,如下使用plot.bar() 函数做各个区域销售额的柱形图,由图可以看出华南区域的销售额最高,西南区域的销售额最低。

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

df.groupby('区域')['销售额'].sum().plot.bar() # 柱状图

同样,使用plot.barh()可以做出条形图。

df.groupby('区域')['销售额'].sum().sort_values().plot.barh() # 条形图

使用plot.pie函数可以看各个区域的销售额占比,其中,autopct用来设置数据标签,figsize用来设置图图片的大小,由图可以看出华南区域的销售额占比最高,西南区域的销售额占比最低,仅占比3.1%。

import matplotlib.pyplot as plt 
import matplotlib.style as psl

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

psl.use('ggplot')

#导入数据
df_sale=df.groupby('区域')['销售额'].sum().sort_values(ascending=False).reset_index()
labels = df_sale['区域'].tolist()
explode = [0.050,0.050,0,0,0,0]  # 用于突出显示特定区域
#饼图
df_sale['销售额'].plot(kind='pie',figsize=(9,6),autopct='%.1f%%',#数据标签
                    labels=labels,
                    startangle=90, #初始角度
                    explode=explode, # 突出显示数据
                    pctdistance=0.87,  # 设置百分比标签与圆心的距离
                    textprops = {'fontsize':12, 'color':'k'}, # 设置文本标签的属性值
                    counterclock = False, # 是否逆时针
                   )

plt.title("各区域销售额占比")

数据导出

将数据分析的数据结果导出到Excel表中,可以使用to_excel函数,如果需要导出到不同的sheet中,需要提前声明一个writer对象,该对象内含导出的路径以及表格名称,将需要导出的数据赋值给变量后即可导出到本地。

如下我们将各个区域销售订单数和各个区域的销售额描述统计两个统计结果分别导出到两个sheet表中,index=False表明不显示行索引。

#声明一个对象 
writer=pd.ExcelWriter(r'D:\系统桌面(勿删)\Desktop\电商销售数据分析结果.xlsx',engine='xlsxwriter') 

#变量赋值 
out_table1=df.groupby('区域')['订单号'].count().reset_index() 
out_table2=df.groupby('区域')['销售额'].agg(['mean','max','min','sum']).reset_index() 

#数据导出 
out_table1.to_excel(writer,sheet_name='各区域销售订单数',index=False) 
out_table2.to_excel(writer,sheet_name='各区域销售额描述统计',index=False) 

#对象保存 
writer.save() 

#对象关闭 
writer.close()

相较于Excel的复杂操作,pandas仅需几行代码即可得到数据分析结果,近乎完美,限于篇幅原因,这里仅举例pandas数据分析的常规用法,如果想要加深学习数据分析知识,不妨关注我,持续创作数据分析知识,一定能让你有所收获~#图文作者打造计划#

相关推荐

Python中的列表详解及示例_python列表讲解

艾瑞巴蒂干货来了,数据列表,骚话没有直接来吧列表(List)是Python中最基本、最常用的数据结构之一,它是一个有序的可变集合,可以包含任意类型的元素。列表的基本特性有序集合:元素按插入顺序存储可变...

PowerShell一次性替换多个文件的名称

告别繁琐的文件重命名,使用PowerShell语言批量修改文件夹中的文件名,让您轻松完成重命名任务在日常工作中,我们经常需要对大量文件进行重命名,以便更好地管理和组织。之前,我们曾介绍过使用Pytho...

小白必看!Python 六大数据类型增删改查秘籍,附超详细代码解析

在Python中,数据类型可分为可变类型(如列表、字典、集合)和不可变类型(如字符串、元组、数值)。下面针对不同数据类型详细讲解其增删改查操作,并给出代码示例、输出结果及分析总结。1.列表(Li...

python数据容器之列表、元组、字符串

数据容器分为5类,分别是:列表(list)、元组(tuple)、字符串(str)、集合(set)、字典(dict)list#字面量[元素1,元素2,元素3,……]#定义变量变量名称=[元素1,元素...

python列表(List)必会的13个核心技巧(附实用方法)

列表(List)是Python入门的关键步骤,因为它是编程中最常用的数据结构之一。以下是高效掌握列表的核心技巧和实用方法:一、理解列表的本质可变有序集合:可随时修改内容,保持元素顺序混合类型:一个列表...

如何利用python批量修改文件名_python如何对文件进行批量命名

很多语言都可以做到批量修改文件名,今天我就给大家接受一下Python的方法,首选上需求。图片中有10个txt文件,现在我需要在这些文件名的前面全部加一个“学生”,可以吗?见证奇迹的时刻到了。我是怎么做...

Python中使用re模块实现正则表达式的替换字符串操作

#编程语言#我是"学海无涯自学不惜!",关注我,一同学习简单易懂的Python编程。0基础学python(83)Python中,导入re模块后还可以进行字符串的替换操作,就是sub()...

python列表十大常见问题,你遇到第几个?

Python列表常见问题及解决方案1.修改列表时的常见陷阱问题:在遍历时修改列表#错误做法:在遍历时删除元素会导致意外结果numbers=[1,2,3,4,5,6]forn...

python入门007:编辑列表_python列表怎么写入文件

一、列表的编辑操作列表创建后,随着程序的运行,可以通过对列表元素的增删改操作来编辑列表。1、修改列表元素的值修改列表元素的操作方法与访问列表元素的方法类似。例如,要修改列表元素的值,先指定列表及元素...

Python教程:在python中修改元组详解

欢迎你来到站长在线的站长学堂学习Python知识,本文学习的是《在Python中修改元组详解》。本知识点主要内容有:在Python中直接使用赋值运算符“=”给元组重新赋值、在Python中使用加赋值运...

Python列表(List)一文全掌握:核心知识点+20实战练习题

Python列表(List)知识点教程一、列表的定义与特性定义:列表是可变的有序集合,用方括号[]定义,元素用逗号分隔。list1=[1,"apple",3.14]lis...

Python教程-列表复制_python对列表进行复制

作为软件开发者,我们总是努力编写干净、简洁、高效的代码。Python列表是一种多功能的数据结构,它允许你存储一个项目的集合。在Python中,列表是可变的,这意味着你可以在创建一个列表后改变它的...

Python入门学习教程:第 6 章 列表

6.1什么是列表?在Python中,列表(List)是一种用于存储多个元素的有序集合,它是最常用的数据结构之一。列表中的元素可以是不同的数据类型,如整数、字符串、浮点数,甚至可以是另一个列表。列...

Python列表、元组、字典和集合_python中的列表元组和字典

Python中的列表(List)、元组(Tuple)、字典(Dict)和集合(Set)是四种最常用的核心数据结构。掌握它们的基础操作只是第一步,真正发挥威力的是那些高级用法和技巧。首先我们先看一下这...

学习编程第167天 python编程 使用format方法灵活替换字符串

今天学习的是刘金玉老师零基础Python教程第51期,主要内容是python编程使用format方法灵活替换字符串。一、format方法(一)format方法是字符串自带的方法,使用的format方法...