一场pandas与SQL的巅峰大战(五)
liuian 2025-05-14 14:51 17 浏览
本文目录:
数据准备
MySQL 计算累计百分比
1.不分组情况
2.分组情况
Hive SQL计算累计百分比
1.不分组情况
2.分组情况
pandas计算累计百分比
1.不分组情况
cumsum函数
expanding函数
rolling函数
2.分组情况
cumsum函数
expanding函数
rolling函数
小结
在之前的四篇系列文章中,我们对比了pandas和SQL在数据方面的多项操作。
具体来讲,第一篇文章一场pandas与SQL的巅峰大战涉及到数据查看,去重计数,条件选择,合并连接,分组排序等操作。
第二篇文章一场pandas与SQL的巅峰大战(二)涉及字符串处理,窗口函数,行列转换,类型转换等操作。
第三篇文章一场pandas与SQL的巅峰大战(三)围绕日期操作展开,主要讨论了日期获取,日期转换,日期计算等内容。
第四篇文章一场pandas与SQL的巅峰大战(四)学习了在MySQL,Hive SQL和pandas中用多种方式计算日环比,周同比的方法。
本篇文章一起来探讨如何在SQL和pandas中计算累计百分比。仍然分别在MySQL,Hive SQL和pandas中用多种方案来实现。
◆ ◆ ◆ ◆ ◆
数据准备
我们仍然使用前一篇的orderamt数据,数据导入方式可以参考之前的内容。需要分别在MySQL,Hive,pandas中进行数据导入,在此不作赘述。在我的公众号后台回复“对比五”,可以获取本文全部代码和数据。数据的样例为:
我们的目标是,计算累计到当天的销售额占总销售额的比例。在实现时,首先分别计算出累计到当天的销售金额和总计的金额,然后就可以很方便的求出比例了。
MySQL计算累计百分比
1.不分组情况
最直观的思路是,对每一行的金额,都累加从第一行到当前行的金额。在MySQL中,可以考虑自连接的方式,但需要使用不等值连接。代码和结果如下:
select a.id, a.dt, a.orderamt, sum(b.orderamt) as cum--对b表的金额进行求和
from t_orderamt ajoin t_orderamt bon a.dt >= b.dt--使用不等值连接
group by a.id, a.dt, a.orderamt
图中的cum列即是我们想要求的累加值。而所有销售金额的总计值,我们可以直接使用sum求出。
select sum(orderamt) as total
from t_orderamt
结合上面的两段SQL,就可以求得累计的百分比,注意连接条件我们使用了1=1这种恒成立的方式。代码和结果如下:
select c.id, c.orderamt, c.cum, concat(round((c.cum / d.total) * 100, 2), '%') as cum_pct
from (select a.id, a.dt, a.orderamt, sum(b.orderamt) as cum
from t_orderamt ajoin t_orderamt bon a.dt >= b.dtgroup by a.id, a.dt, a.orderamt) c
left join
(select sum(orderamt) as totalfrom t_orderamt
) d on 1 = 1
2.分组情况
需要思考:我们的原始数据是两个月的数据,目前我们的算法是把两个月的销售额累计到一起算的。但在实际中可能更多会关心每天的累计销售额分别占当月的百分比。如何能按照月份分组求每组的累计百分比呢?
首先仍然是求累计金额,但要分月累计。在上面的基础上加上月份相等条件即可,从结果中可以看到,在11月和12月cum列是分别累计的。
select substr(a.dt, 1, 7) as mon, a.dt, a.orderamt, sum(b.orderamt) as cum
from t_orderamt a
join t_orderamt bon a.dt >= b.dt and substr(a.dt, 1, 7) = substr(b.dt, 1, 7)--增加了这个条件
group by substr(a.dt, 1, 7), a.dt, a.orderamt
求每月总计金额的代码比较简单:
select substr(a.dt, 1, 7) as mon, sum(orderamt) as totalfrom t_orderamt agroup by substr(a.dt, 1, 7)
同样的,我们把两段代码进行合并,就得到每月的累计百分比情况:
select c.mon, c.dt, c.orderamt, c.cum, d.total,concat(round((c.cum / d.total) * 100, 2), '%') as cum_pct
from(select substr(a.dt, 1, 7) as mon, a.dt, a.orderamt, sum(b.orderamt) as cum
from t_orderamt a
join t_orderamt b
on a.dt >= b.dt and substr(a.dt, 1, 7) = substr(b.dt, 1, 7)
group by substr(a.dt, 1, 7), a.dt, a.orderamt) c
left join(select substr(a.dt, 1, 7) as mon, sum(orderamt) as total
from t_orderamt a
group by substr(a.dt, 1, 7)) d on c.mon = d.mon
Hive 计算累计百分比
1.不分组情况
Hive SQL中我们可以沿用MySQL中的思路,但需要注意,Hive 不支持在on中写不等号的连接条件,虽然可以采用where的方式改造一下,代码如下所示。但这并不是最优的方案。我们可以使用Hive中的窗口函数,很方便的计算累计值。
--where方法
select a.id, a.dt, a.orderamt, sum(b.orderamt) as cum--对b表的金额进行求和
from t_orderamt ajoin t_orderamt bon 1=1where a.dt >= b.dt--使用不等值连接
group by a.id, a.dt, a.orderamt--窗口函数select *, sum(orderamt) over(order by dt) as cum
from t_orderamt;
两段代码的执行结果都如下图所示:
接下来我们重点看窗口函数的方式。在计算总计值的时候和前面MySQL的方式类似,累计百分比的计算也是需要把两部分代码结合在一起。
select c.id, c.dt, c.orderamt, c.cum, concat(round((c.cum / d.total) * 100, 2), '%') as cum_pcfrom(select *, sum(orderamt) over(order by dt) as cum from t_orderamt) cleft join(select sum(orderamt) as totalfrom t_orderamt) d on 1 = 1--在Hive中这个条件可以不写
2.分组情况
分组的情况,在窗口函数里是可以用partition by直接指定分组的,见如下代码
select id, substr(dt, 1, 7) as mon, dt, orderamt,
sum(orderamt) over(partition by substr(dt, 1, 7) order by dt) as cum
from t_orderamt;
可以看到,同前面的分组情况一样,在11月和12月cum列是分别累计的。
接下来也很容易就写出分组计算累计百分比的代码,结果和上面也是一致的。
select c.mon, c.dt, c.orderamt, c.cum, d.total,concat(round((c.cum / d.total) * 100, 2), '%') as cum_pct
from(select id, substr(dt, 1, 7) as mon, dt, orderamt, sum(orderamt) over(partition by substr(dt, 1, 7) order by dt) as cum
from t_orderamt) c
left join(select substr(dt, 1, 7) as mon, sum(orderamt) as total
from t_orderamt group by substr(dt, 1, 7)) d on c.mon = d.mon
pandas计算累计百分比
在pandas中,提供了专门的函数来计算累计值,分别是cumsum函数,expanding函数,rolling函数。我们一起来看一下使用三种函数计算分组和不分组累计百分比的方法。
1.不分组情况
cumsum函数
cumsum是pandas中专门用于计算累计和的函数。类似的函数还有cumprod计算累计积,cummax计算前n个值的最大值,cummin计算前n个值的最小值。
import pandas as pd
orderamt = pd.read_excel('orderamt.xlsx')
orderamt['cum_amt'] = orderamt['amt'].cumsum()
orderamt.head(15)
直接对amt列使用cumsum函数即可计算累计值,结果和用SQL计算得到的一致。
计算累计的百分比也很容易。
orderamt['cum_amt_pct'] = orderamt['cum_amt'] / orderamt['amt'].sum(orderamt.head(15)
关于结果如何显示成百分比的形式,可以参考上一篇文章,此处略 。
expanding函数
pandas中的expanding函数是窗口函数的一种,它不固定窗口的大小,而是进行累计的计算。类似于cumsum(),但更强大。
orderamt = pd.read_excel('orderamt.xlsx')
orderamt['mon'] = orderamt['dt'].dt.strftime('%Y-%m')#得到字符串形式的月份
orderamt['cum_expand'] = orderamt.expanding(min_periods=1)['amt'].sum()
orderamt.head(15)
参数min_periods表示最小的观测窗口,默认为1,可以设置为其他值,但如果窗口内记录数不足该值,则会显示NA。
有了累计值,计算累计的百分比,可以按照cumsum中的方法进行,此处省略。
rolling函数
rolling函数与expanding相比,主要是固定了窗口大小。当窗口超过dataframe的长度时,可以实现与expanding同样的效果。上面的代码使用rolling函数的方式可以改写如下,注意指定了window参数为len(orderamt):
orderamt = pd.read_excel('orderamt.xlsx')
orderamt['mon'] = orderamt['dt'].dt.strftime('%Y-%m')#得到字符串形式的月份
orderamt['cum_roll'] = orderamt.rolling(window=len(orderamt), min_periods=1)['amt'].sum()
orderamt.head(15)
此处同样省略计算累计百分比的代码。
2.分组情况
cumsum函数
#添加pandas显示设置,显示所有行
pd.set_option('display.max_rows', None)
orderamt = pd.read_excel('orderamt.xlsx')
orderamt['mon'] = orderamt['dt'].dt.strftime('%Y-%m')#分组后对amt求累计和
orderamt['cum_mon'] = orderamt.groupby('mon')['amt'].cumsum()
orderamt
接下来计算分组的总计值,这里用到了pandas中的transform函数,可以把分组后计算的总计值写入原dataframe。如果你不是很理解,可以参考下面这篇文章,讲的很清楚。
https://www.jianshu.com/p/509d7b97088c
orderamt['mon_total'] = orderamt.groupby('mon')["amt"].transform('sum'orderamt['grp_cum_pct'] = orderamt['cum_mon'] / orderamt['mon_total']orderamt
结果和前面SQL计算的是一致的。此处同样省略了转换百分比格式的代码,可参考前一篇文章。
expanding函数
分组情况下使用expanding函数需要和groupby结合,注意得到的结果是多重索引,需要取values才能赋值给原dataframe。
orderamt = pd.read_excel('orderamt.xlsx')
orderamt['mon'] = orderamt['dt'].dt.strftime('%Y-%m')
orderamt_mon_group = orderamt.groupby('mon').expanding(min_periods=1)['amt'].sum()
#这里的orderamt_mon_group索引会有两重,我们直接取values的值就可以和原dataframe拼接在一起
orderamt['orderamt_mon_group'] = orderamt_mon_group.values
orderamt
接下来就可以用前面同样的方法,计算分组的总计值,然后求得分组累计百分比了。
rolling函数
通过上文我们知道,rolling函数与expanding函数的代码几乎一样,需要加上window参数。如下所示:
orderamt = pd.read_excel('orderamt.xlsx')
orderamt['mon'] = orderamt['dt'].dt.strftime('%Y-%m')
orderamt_mon_group_roll = orderamt.groupby('mon').rolling(len(orderamt),min_periods=1)['amt'].sum()
#这里的orderamt_mon_group_roll索引会有两重,我们直接取values的值就可以和原dataframe拼接在一起
orderamt['orderamt_mon_group_roll'] = orderamt_mon_group_roll.values
orderamt
结果和上面的是一致的。
至此,我们用多种方法实现了对于累计百分比的计算。
小结
本篇我们计算了分组和不分组情况的累计百分比。在MySQL中用了不等值连接的方法,在Hive SQL中使用了sum窗口函数。在pandas中学习了cumsum,expanding,rolling函数,最终都需要将累加值除以总计值得出累计百分比。本文代码较多,您可以在公众号后台回复“对比五”可以获取本文pdf版本,代码,数据等进行实战,希望对你有所帮助。
◆ ◆ ◆ ◆ ◆
推荐阅读:
1.一场pandas与SQL的巅峰大战
2.一场pandas与SQL的巅峰大战(二)
3.一场pandas与SQL的巅峰大战(三)
4.一场pandas与SQL的巅峰大战(四)
5.常用Hive函数的学习和总结
相关推荐
- Springboot 整合 Websocket 轻松实现IM及时通讯
-
一、方案实践集成分为三步:添加依赖、增加配置类和消息核心类、前端集成。1.1、添加依赖<dependency><groupId>org.springframework...
- SpringBoot扩展——应用Web Socket!
-
应用WebSocket目前,网络上的即时通信App有很多,如QQ、微信和飞书等,按照以往的技术来说,即时功能通常会采用服务器轮询和Comet技术来解决。HTTP是非持久化、单向的网络协议,在建立连接...
- 【Spring Boot】WebSocket 的 6 种集成方式
-
介绍由于前段时间我实现了一个库【SpringCloud】一个配置注解实现WebSocket集群方案以至于我对WebSocket的各种集成方式做了一些研究目前我所了解到的就是下面这些了(就一个破w...
- SpringBoot生产级WebSocket集群实践,支持10万连接!
-
1、问题背景智慧门诊系统旨在从一定程度上解决患者面临的三长一短(挂号、看病、取药时间长,医生问诊时间短)的问题。实现“诊前、诊中、诊后”实时智能一体化,整合完善医院工作流程。围绕门诊看病的各个环节,让...
- Spring Boot3 中 WebSocket 实现数据实时通信全解析
-
各位互联网大厂的开发同仁们,在如今的互联网应用开发中,实时通信功能越来越重要。比如在线聊天、数据推送、实时通知等场景,都离不开高效的实时通信技术。而WebSocket作为一种高效的双向通信协议,在...
- Java WebSocket 示例(java nio websocket)
-
一、环境准备1.依赖配置(Maven)在pom.xml中添加WebSocket依赖:xml<!--SpringBootWebSocket--><dependen...
- Spring Boot整合WebSocket:开启实时通信之旅
-
SpringBoot整合WebSocket:开启实时通信之旅今天咱们来聊聊SpringBoot整合WebSocket这件大事儿。说到实时通信,你是不是第一时间想到QQ、微信这些聊天工具?没错,We...
- Spring Boot3 竟能如此轻松整合 WebSocket 技术,你还不知道?
-
在当今互联网大厂的软件开发领域,实时通信的需求愈发迫切。无论是在线聊天应用、实时数据更新,还是协同办公系统,都离不开高效的实时通信技术支持。而WebSocket作为一种能够实现浏览器与服务器之间持...
- Spring Boot集成WebSocket(springboot集成websocket)
-
一、基础配置依赖引入<dependency><groupId>org.springframework.boot</groupId><artifactId>...
- Springboot下的WebSocket开发(springboot websocket server)
-
今天遇到一个需求,需要对接第三方扫码跳转。一种方案是前端页面轮询后端服务,但是这种空轮询会虚耗资源,实时性比较差而且也不优雅。所以决定使用另一种方案,websocket。以前就知道websocket,...
- springboot websocket开发(java spring boot websocket)
-
maven依赖SpringBoot2.0对WebSocket的支持简直太棒了,直接就有包可以引入<dependency><groupId>org....
- Python界面(GUI)编程PyQt5窗体小部件
-
一、简介在Qt(和大多数用户界面)中,“小部件”是用户可以与之交互的UI组件的名称。用户界面由布置在窗口内的多个小部件组成。Qt带有大量可用的小部件,也允许您创建自己的自定义和自定义小部件。二、小部件...
- 实战PyQt5: 014-下拉列表框控件QComboBox
-
QComboBox简介QComboBox下拉列表框,是一个集按钮和下拉列表选项于一体的部件。QComboBox提供了一种向用户呈现选项列表的方式,其占用最小量的屏幕空间。QComboBox中的常用方法...
- Python小白逆袭!7天吃透PyQt6,独立开发超酷桌面应用
-
PythonGUI编程:PyQt6从入门到实战的全面指南在Python的庞大生态系统中,PyQt6作为一款强大的GUI(GraphicalUserInterface,图形用户界面)编程框架,为开...
- 如何用 PyQt6 打造一个功能完善的 SQLite 数据库管理工具
-
如何使用PyQt6和qt_material库,打造一个功能完善的SQLite数据库管理工具,轻松管理和查询SQLite数据库。一、目标数据库连接与表管理:支持连接SQLite数据库...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
python使用fitz模块提取pdf中的图片
-
- 最近发表
-
- Springboot 整合 Websocket 轻松实现IM及时通讯
- SpringBoot扩展——应用Web Socket!
- 【Spring Boot】WebSocket 的 6 种集成方式
- SpringBoot生产级WebSocket集群实践,支持10万连接!
- Spring Boot3 中 WebSocket 实现数据实时通信全解析
- Java WebSocket 示例(java nio websocket)
- Spring Boot整合WebSocket:开启实时通信之旅
- Spring Boot3 竟能如此轻松整合 WebSocket 技术,你还不知道?
- Spring Boot集成WebSocket(springboot集成websocket)
- Springboot下的WebSocket开发(springboot websocket server)
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)