使用python把csv汇总成excel(python怎么把csv转化为字典)
liuian 2025-05-02 11:48 11 浏览
最近领导安排让我每周定时把grafana导出的csv文件进行统计汇总工作,需要处理的csv文件还是蛮多的,况且还要每周重复汇总处理。干脆写个脚本,每周执行一遍脚本,既方便还不会出错。
一、需求分析
1. 原始文件分析
原始文件是多个csv表格,第一列为时间戳,每10分钟统计生成一行,其余列为ip地址在该时间段内的访问次数
2. 处理结果分析
根据要求,统计每个ip地址在当天访问次数求和,汇总生成新表格,结果如下,并将所有csv文件按照文件名,分别汇总到不同的sheet下
二、代码逻辑
1. 流程分析
- 首先遍历指定目录下的.csv文件,提取文件名生成数组
- 然后使用pandas库读取csv文件,提取日期和ip,然后统计每个ip当天访问次数,生成新的DataFrame
- 最后使用xlwings库将pandas处理后的DataFrame数据写入excel文件,指定文件名作为sheet名
2. 遍历指定目录下.csv文件
主要用到了os模块中的walk()函数,可以遍历文件夹下所有的文件名。
def find_csv(path):
"""
查找目录下csv文件
:param path: 查找csv的目录路径
:return: csv文件名list
"""
csv_file = []
for root, dirs, files in os.walk(path):
for file in files:
if os.path.splitext(file)[1] == '.csv':
csv_file.append(os.path.join(root, file))
return csv_file
3. pandas处理csv文件
pandas是python环境下最有名的数据统计包,对于数据挖掘和数据分析,以及数据清洗等工作,用pandas再合适不过了,官方地址:https://www.pypandas.cn/
def summary_data(file):
"""
grafana导出的csv文件处理汇总
:param file: csv文件路径
:return: 处理完成后的pandas对象
"""
# 读取整个csv文件
csv_data = pd.read_csv(file, ';')
# 提取日期
csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
date = csv_data["Time"].drop_duplicates()
# 提取IP
ip_list = csv_data.columns.values[1:]
# 生成新列表
result_data = []
for day in list(date):
ip_data = []
for ip in ip_list:
# 统计指定ip地址在指定日期的数据之和
ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
ip_data.append(ip_sum)
# print("日期:%s ip:%s 总计:%s" % (day, ip, ip_sum))
result_data.append(ip_data)
# 生成新的DataFrame
result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
# 添加行列统计
result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
print(file, "处理完毕!")
return result_df
4. excel数据写入
pandas的to_excel方法也可以写入到excel文件,但是如果需要写入到指定的sheet,就无法满足需求了,此时就需要用的xlwings或者openpyxl库,此处使用xlwings,参考文档:
https://www.xlwings.org/pro
def save_excel(data_df, file_name, excel_name):
"""
生成并写入新excel文件
:param data_df: pandas数据对象
:param file_name: 传入文件名,作为生成的sheet名称
:param excel_name: 生成excel文件名
:return: null
"""
sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
wb = xlwings.Book(excel_name)
sheet = wb.sheets.add(name=sheet_name)
sheet.range("A1").value = data_df
wb.save()
wb.close()
print(sheet_name, "Sheet写入完毕!")
5. 完整代码
import os
import pandas as pd
import xlwings
def find_csv(path):
"""
查找目录下csv文件
:param path: 查找csv的目录路径
:return: csv文件名list
"""
csv_file = []
for root, dirs, files in os.walk(path):
for file in files:
if os.path.splitext(file)[1] == '.csv':
csv_file.append(os.path.join(root, file))
return csv_file
def summary_data(file):
"""
grafana导出的csv文件处理汇总
:param file: csv文件路径
:return: 处理完成后的pandas对象
"""
# 读取整个csv文件
csv_data = pd.read_csv(file, ';')
# 提取日期
csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
date = csv_data["Time"].drop_duplicates()
# 提取IP
ip_list = csv_data.columns.values[1:]
# 生成新列表
result_data = []
for day in list(date):
ip_data = []
for ip in ip_list:
ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
ip_data.append(ip_sum)
# print("日期:%s ip:%s 总计:%s" % (day, ip, ip_sum))
result_data.append(ip_data)
result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
# 添加行列统计
result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
print(file, "处理完毕!")
return result_df
def save_excel(data_df, file_name, excel_name):
"""
生成并写入新excel文件
:param data_df: pandas数据对象
:param file_name: 传入文件名,作为生成的sheet名称
:param excel_name: 生成excel文件名
:return: null
"""
sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
wb = xlwings.Book(excel_name)
sheet = wb.sheets.add(name=sheet_name)
sheet.range("A1").value = data_df
wb.save()
wb.close()
print(sheet_name, "Sheet写入完毕!")
if __name__ == '__main__':
# 原始csv文件存放路径
path = './csv'
# 生成excel文件名
excel_name = 'cm.xlsx'
csv_file = find_csv(path)
# 创建excel文件
new_excel = pd.DataFrame()
new_excel.to_excel(excel_name)
# 处理并写入excel文件
for file in csv_file:
data_df = summary_data(file)
save_excel(data_df, file, excel_name)
# 删除默认Sheet1
wb = xlwings.Book(excel_name)
wb.sheets['Sheet1'].delete()
wb.save()
wb.close()
print("数据汇总完毕,生成文件路径 %s/%s" % (os.getcwd(), excel_name))
https://www.linuxprobe.com/python-csv-excel.html
相关推荐
- 打开新世界,教你用RooCode+Copliot+Mcp打造一个自己的Manus
-
本文耗时两天打造,想要一遍走通需要花点时间,建议找个专注的时间开搞!这不仅是个免费使用claude3.5的方案,也是一个超级智能体方案,绝对值得一试!最近Manus真是赚足了眼球,然而我还是没有邀请码...
- Git仓库(git仓库有哪些)
-
#Git仓库使用方法流程详解##一、环境搭建与基础配置###1.1安装与初始化-**安装Git**:官网下载安装包,默认配置安装-**配置全局信息**:```bashgitconfig...
- idea版的cursor:Windsurf Wave 7(ideawalk)
-
在企业环境中,VisualStudioCode和JetBrains系列是最常用的开发工具,覆盖了全球绝大多数开发者。这两类IDE各有优势,但JetBrains系列凭借其针对特定语言和企业场景的深度...
- Ai 编辑器 Cursor 零基础教程:推箱子小游戏实战演练
-
最近Ai火的同时,Ai编辑器Cursor同样火了一把。今天我们就白漂一下Cursor,使用免费版本搞一个零基础教程,并实战演练一个“网页版的推箱子小游戏”。通过这篇文章,让你真正了解cursor是什么...
- ChatGPT深度集成于苹果Mac软件 编码能力得到提升
-
【CNMO科技消息】近日,OpenAI发布了针对MacOS的桌面应用程序,并宣布了一系列与各类应用程序的互操作性功能,标志着ChatGPT正在从聊天机器人向AI智能体工具进化。此次发布的MacOS桌面...
- 日常开发中常用的git操作命令和使用技巧
-
日常开发中常用的git操作命令,从配置、初始化本地仓库到提交代码的常用git操作命令使用git前的配置刚使用git,先要在电脑上安装好git,接着我们需要配置一下帐户信息:用户名和邮箱。#设置用户名...
- Trae IDE 如何与 GitHub 无缝对接?
-
TraeIDE内置了GitHub集成功能,让开发者可以直接在IDE里管理代码仓库和版本控制。1.直接从GitHub克隆项目如果你想把GitHub上的代码拉到本地,Trae提供了...
- China's diplomacy to further provide strong support for country's modernization: FM
-
BEIJING,March7(Xinhua)--ChineseForeignMinisterWangYisaidFridaythatChina'sdiplomacywil...
- 三十分钟入门基础Go(Java小子版)(java入门级教程)
-
前言Go语言定义Go(又称Golang)是Google的RobertGriesemer,RobPike及KenThompson开发的一种静态、强类型、编译型语言。Go语言语法与...
- China will definitely take countermeasures in response to arbitrary pressure: FM
-
BEIJING,March7(Xinhua)--Chinawilldefinitelytakecountermeasuresinresponsetoarbitrarypre...
- Go操作etcd(go操作docker实现沙箱)
-
Go语言操作etcd,这里推荐官方包etcd/clientv3。文档:https://pkg.go.dev/go.etcd.io/etcd/clientv3etcdv3使用gRPC进行远程过程调...
- 腾讯 Go 性能优化实战(腾讯游戏优化软件)
-
作者:trumanyan,腾讯CSIG后台开发工程师项目背景网关服务作为统一接入服务,是大部分服务的统一入口。为了避免成功瓶颈,需要对其进行尽可能地优化。因此,特别总结一下golang后台服务...
- golang 之JWT实现(golang gin jwt)
-
什么是JSONWebToken?JSONWebToken(JWT)是一个开放标准(RFC7519),它定义了一种紧凑且自包含的方式,用于在各方之间以JSON方式安全地传输信息。由于此信息是经...
- 一文看懂 session 和 cookie(session cookie的区别)
-
-----------cookie大家应该都熟悉,比如说登录某些网站一段时间后,就要求你重新登录;再比如有的同学很喜欢玩爬虫技术,有时候网站就是可以拦截住你的爬虫,这些都和cookie有关。如果...
- 有望取代 java?GO 语言项目了解一下
-
GO语言在编程界一直让人又爱又恨,有人说“GO将统治下一个十年”,“几乎所有新的、有趣的东西都是用Go写的”;也有人说它过于死板,使用感太差。国外有Google、AWS、Cloudflar...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
python使用fitz模块提取pdf中的图片
-
《人人译客》如何规划你的移动电商网站(2)
-
Jupyterhub安装教程 jupyter怎么安装包
-
- 最近发表
-
- 打开新世界,教你用RooCode+Copliot+Mcp打造一个自己的Manus
- Git仓库(git仓库有哪些)
- idea版的cursor:Windsurf Wave 7(ideawalk)
- Ai 编辑器 Cursor 零基础教程:推箱子小游戏实战演练
- ChatGPT深度集成于苹果Mac软件 编码能力得到提升
- 日常开发中常用的git操作命令和使用技巧
- Trae IDE 如何与 GitHub 无缝对接?
- China's diplomacy to further provide strong support for country's modernization: FM
- 三十分钟入门基础Go(Java小子版)(java入门级教程)
- China will definitely take countermeasures in response to arbitrary pressure: FM
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- uniapp textarea (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- react-admin (33)
- vscode切换git分支 (35)
- vscode美化代码 (33)
- python bytes转16进制 (35)