使用python把csv汇总成excel(python怎么把csv转化为字典)
liuian 2025-05-02 11:48 34 浏览
最近领导安排让我每周定时把grafana导出的csv文件进行统计汇总工作,需要处理的csv文件还是蛮多的,况且还要每周重复汇总处理。干脆写个脚本,每周执行一遍脚本,既方便还不会出错。
一、需求分析
1. 原始文件分析
原始文件是多个csv表格,第一列为时间戳,每10分钟统计生成一行,其余列为ip地址在该时间段内的访问次数
2. 处理结果分析
根据要求,统计每个ip地址在当天访问次数求和,汇总生成新表格,结果如下,并将所有csv文件按照文件名,分别汇总到不同的sheet下
二、代码逻辑
1. 流程分析
- 首先遍历指定目录下的.csv文件,提取文件名生成数组
- 然后使用pandas库读取csv文件,提取日期和ip,然后统计每个ip当天访问次数,生成新的DataFrame
- 最后使用xlwings库将pandas处理后的DataFrame数据写入excel文件,指定文件名作为sheet名
2. 遍历指定目录下.csv文件
主要用到了os模块中的walk()函数,可以遍历文件夹下所有的文件名。
def find_csv(path):
"""
查找目录下csv文件
:param path: 查找csv的目录路径
:return: csv文件名list
"""
csv_file = []
for root, dirs, files in os.walk(path):
for file in files:
if os.path.splitext(file)[1] == '.csv':
csv_file.append(os.path.join(root, file))
return csv_file
3. pandas处理csv文件
pandas是python环境下最有名的数据统计包,对于数据挖掘和数据分析,以及数据清洗等工作,用pandas再合适不过了,官方地址:https://www.pypandas.cn/
def summary_data(file):
"""
grafana导出的csv文件处理汇总
:param file: csv文件路径
:return: 处理完成后的pandas对象
"""
# 读取整个csv文件
csv_data = pd.read_csv(file, ';')
# 提取日期
csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
date = csv_data["Time"].drop_duplicates()
# 提取IP
ip_list = csv_data.columns.values[1:]
# 生成新列表
result_data = []
for day in list(date):
ip_data = []
for ip in ip_list:
# 统计指定ip地址在指定日期的数据之和
ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
ip_data.append(ip_sum)
# print("日期:%s ip:%s 总计:%s" % (day, ip, ip_sum))
result_data.append(ip_data)
# 生成新的DataFrame
result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
# 添加行列统计
result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
print(file, "处理完毕!")
return result_df
4. excel数据写入
pandas的to_excel方法也可以写入到excel文件,但是如果需要写入到指定的sheet,就无法满足需求了,此时就需要用的xlwings或者openpyxl库,此处使用xlwings,参考文档:
https://www.xlwings.org/pro
def save_excel(data_df, file_name, excel_name):
"""
生成并写入新excel文件
:param data_df: pandas数据对象
:param file_name: 传入文件名,作为生成的sheet名称
:param excel_name: 生成excel文件名
:return: null
"""
sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
wb = xlwings.Book(excel_name)
sheet = wb.sheets.add(name=sheet_name)
sheet.range("A1").value = data_df
wb.save()
wb.close()
print(sheet_name, "Sheet写入完毕!")
5. 完整代码
import os
import pandas as pd
import xlwings
def find_csv(path):
"""
查找目录下csv文件
:param path: 查找csv的目录路径
:return: csv文件名list
"""
csv_file = []
for root, dirs, files in os.walk(path):
for file in files:
if os.path.splitext(file)[1] == '.csv':
csv_file.append(os.path.join(root, file))
return csv_file
def summary_data(file):
"""
grafana导出的csv文件处理汇总
:param file: csv文件路径
:return: 处理完成后的pandas对象
"""
# 读取整个csv文件
csv_data = pd.read_csv(file, ';')
# 提取日期
csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
date = csv_data["Time"].drop_duplicates()
# 提取IP
ip_list = csv_data.columns.values[1:]
# 生成新列表
result_data = []
for day in list(date):
ip_data = []
for ip in ip_list:
ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
ip_data.append(ip_sum)
# print("日期:%s ip:%s 总计:%s" % (day, ip, ip_sum))
result_data.append(ip_data)
result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
# 添加行列统计
result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
print(file, "处理完毕!")
return result_df
def save_excel(data_df, file_name, excel_name):
"""
生成并写入新excel文件
:param data_df: pandas数据对象
:param file_name: 传入文件名,作为生成的sheet名称
:param excel_name: 生成excel文件名
:return: null
"""
sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
wb = xlwings.Book(excel_name)
sheet = wb.sheets.add(name=sheet_name)
sheet.range("A1").value = data_df
wb.save()
wb.close()
print(sheet_name, "Sheet写入完毕!")
if __name__ == '__main__':
# 原始csv文件存放路径
path = './csv'
# 生成excel文件名
excel_name = 'cm.xlsx'
csv_file = find_csv(path)
# 创建excel文件
new_excel = pd.DataFrame()
new_excel.to_excel(excel_name)
# 处理并写入excel文件
for file in csv_file:
data_df = summary_data(file)
save_excel(data_df, file, excel_name)
# 删除默认Sheet1
wb = xlwings.Book(excel_name)
wb.sheets['Sheet1'].delete()
wb.save()
wb.close()
print("数据汇总完毕,生成文件路径 %s/%s" % (os.getcwd(), excel_name))
https://www.linuxprobe.com/python-csv-excel.html
相关推荐
- 使用Assembly打包和部署Spring Boot工程
-
SpringBoot项目的2种部署方式目前来说,SpringBoot项目有如下2种常见的部署方式一种是使用docker容器去部署。将SpringBoot的应用构建成一个docke...
- java高级用法之:调用本地方法的利器JNA
-
简介JAVA是可以调用本地方法的,官方提供的调用方式叫做JNI,全称叫做javanativeinterface。要想使用JNI,我们需要在JAVA代码中定义native方法,然后通过javah命令...
- Linux中如何通过Shell脚本来控制Spring Boot的Jar包启停服务?
-
SpringBoot项目在为开发者带来方便的同时,也带来了一个新的问题就是Jar包如何启动?在一般情况下我们都是采用了最为经典的java-jar命令来进行启动。然后通过ps命令找到对应的应用线程通...
- 牛逼!自己手写一个热加载(人民币手写符号一个横还是两个横)
-
热加载:在不停止程序运行的情况下,对类(对象)的动态替换JavaClassLoader简述Java中的类从被加载到内存中到卸载出内存为止,一共经历了七个阶段:加载、验证、准备、解析、初始化、使用、...
- java 错误: 找不到或无法加载主类?看看怎么解决吧!
-
问题扫述:项目名称调整,由原来的com.mp.qms.report.biz调整为com.mp.busicen.mec.qms.report.biz后。项目在IDEA直接运行,但打包部署到服务器...
- 如何将 Spring Boot 工程打包成独立的可执行 JAR 包
-
导语:通过将SpringBoot项目打包成独立的可执行JAR包,可以方便地在任何支持Java环境的机器上运行项目。本文将详细介绍如何通过Maven构建插件将SpringBoot...
- class 增量发包改造为 jar 包方式发布
-
大纲class增量发包介绍项目目录结构介绍jar包方式发布落地方案class增量发包介绍当前项目的迭代修复都是通过class增量包来发版本的将改动的代码class增量打包,如下图cla...
- Jar启动和IDE里启动Sprintboot的区别
-
想聊明白这个问题,需要补充一些前提条件,比如Fatjar、类加载机制等1、Fatjar我们在开发业务程序的时候,经常需要引用第三方的jar包,最终程序开发完成之后,通过打包程序,会把自己的代码和三...
- Java 20年,以后将往哪儿走?(java还能流行多久)
-
在今年的Java20周年的庆祝大会中,JavaOne2015的中心议题是“Java的20年”。甲骨文公司Java平台软件开发部的副总裁GeorgesSaab的主题演讲就将关注点放在了java...
- Spring Boot Jar 包秒变 Docker 镜像实现多环境部署
-
你是否在互联网大厂后端开发工作中,遇到过这样的困扰?当完成一个SpringBoot项目开发,准备将Jar包部署到不同环境时,却发现各个环境依赖不同、配置复杂,部署过程繁琐又容易出错,不仅耗费...
- 从0开始,让你的Spring Boot项目跑在Linux服务器
-
1搭建Linux服务器1.1购买阿里云服务器或安装虚拟机这里建议是CentOS7.X或CentOS8.X,当然其他的Linux如deepin、Ubuntu也可以,只是软件环境的安装包和安装方式...
- 【技术】Maven 上传第三方jar包到私服
-
通过nexus后台上传私服以NexusRepositoryManagerOSS2.14.5-02为例。登录nexus后台。定义Maven坐标Maven坐标有两种方式:1.自定义参数;2....
- JVM参数、main方法的args参数使用
-
一、前言我们知道JVM参数分为自定义参数、JVM系统参数,Javamain方法的参数。今天就谈谈怎么使用吧。二、查看jvm参数定义自定义参数我们打开cmd窗口,输入java,就能看到自定义参数的格式...
- Maven项目如何发布jar包到Nexus私服
-
Maven项目发布jar包到Nexus私服在编码过程中,有些通用的代码模块,有时候我们不想通过复制粘贴来粗暴地复用。因为这样不仅体现不了变化,也不利于统一管理。这里我们使用mavendeploy的方...
- 干货丨Hadoop安装步骤!详解各目录内容及作用
-
Hadoop是Apache基金会面向全球开源的产品之一,任何用户都可以从ApacheHadoop官网下载使用。今天,播妞将以编写时较为稳定的Hadoop2.7.4版本为例,详细讲解Hadoop的安...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
python使用fitz模块提取pdf中的图片
-
- 最近发表
-
- 使用Assembly打包和部署Spring Boot工程
- java高级用法之:调用本地方法的利器JNA
- Linux中如何通过Shell脚本来控制Spring Boot的Jar包启停服务?
- 牛逼!自己手写一个热加载(人民币手写符号一个横还是两个横)
- java 错误: 找不到或无法加载主类?看看怎么解决吧!
- 如何将 Spring Boot 工程打包成独立的可执行 JAR 包
- class 增量发包改造为 jar 包方式发布
- Jar启动和IDE里启动Sprintboot的区别
- Java 20年,以后将往哪儿走?(java还能流行多久)
- Spring Boot Jar 包秒变 Docker 镜像实现多环境部署
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)