七爪源码:在 Python 中创建数据集的自动化(使用 Pandas)
liuian 2025-05-02 11:47 21 浏览
在日常操作中,数据专业人员会遇到检索、清理和合并数据的不同方式。 在这篇文章中,我们将了解如何从文件夹中的 JSON 文件自动化和创建数据集。
JSON 文件:这是一个常见的用例,其中一个文件夹可能包含具有相似结构的 json 文件,我们将它们组合起来得到一个数据集。 因此,假设文件具有相同的结构。
文件夹:我们创建一个包含几个 json 文件和文本文件的测试文件夹。 这用作源文件夹。
JSON 中的数据:Json 的结构类似。 这是文件 1
[{"customer":"John",
"age":"25",
"sex":"male",
"amount":"32000"},
{"customer":"Ron",
"age":"20",
"sex":"male",
"amount":"12000"}]
这是文件 2
[{"customer":"Daisy",
"age":"22",
"sex":"female",
"amount":"20000"},
{"customer":"Anna",
"age":"26",
"sex":"female",
"amount":"24000"}]
算法:
- 我们的文件夹由异构文件(Json 和文本文件)组成。 使用 os 函数 listdir() 将所有文件名添加到列表中。
- 为 Json 文件创建一个列表,然后遍历文件名列表并将每个带有“.json”的名称添加到列表中。
- 启动数据框变量。
- 创建一个数据框列表以添加从 json 文件创建的各个数据框。
- 循环遍历 json 列表并将 json 文件读取到数据帧。 将数据框添加到数据框列表中。
- 将所有数据帧添加到最终数据帧
- 打印以检查数据框的形状
- 通过创建数据集,将最终数据帧以 csv 格式写入指定文件夹。
代码:
#os library helps with operating system dependent functionality
import os
# pandas library for creating data frames
import pandas as pd
# give the file path of the folder
file_path=r'folderpath\Test_Folder'
# get the list of files in the folder
List_of_files=os.listdir(file_path)
print(List_of_files)# a list to collect the json files
json_list = []
df=pd.DataFrame()
# looping through the files
for i in List_of_files:
if i.endswith('.json'):
json_list.append(i)
else:
pass
print(json_list)# create a list
dataframes=list()# creating data frames
for item in json_list:
path=(os.path.join(file_path,item))
dataframes.append(pd.read_json(path))
# final data frame
final_df=pd.concat(dataframes,ignore_index=True)# final df shape
print(final_df.shape)
print(final_df) final_df.to_csv('destination_path/name_of_the_file.csv')
代码输出:
['1.json', '2.json', 'test1.txt', 'test2.txt']['1.json', '2.json'](4, 4) customer age sex amount
0 John 25 male 32000
1 Ron 20 male 12000
2 Daisy 22 female 20000
3 Anna 26 female 24000
我们只是自动化了读取文件和合并它们的过程。 因此,我们可以自动化创建数据集的流程。 这为公司增加了很多价值并节省了时间,尤其是在为数据分析设计数据集时。 我希望本指南可以帮助您创建和合并数据集。
谢谢你。
关注七爪网,获取更多APP/小程序/网站源码资源!
相关推荐
- 使用Assembly打包和部署Spring Boot工程
-
SpringBoot项目的2种部署方式目前来说,SpringBoot项目有如下2种常见的部署方式一种是使用docker容器去部署。将SpringBoot的应用构建成一个docke...
- java高级用法之:调用本地方法的利器JNA
-
简介JAVA是可以调用本地方法的,官方提供的调用方式叫做JNI,全称叫做javanativeinterface。要想使用JNI,我们需要在JAVA代码中定义native方法,然后通过javah命令...
- Linux中如何通过Shell脚本来控制Spring Boot的Jar包启停服务?
-
SpringBoot项目在为开发者带来方便的同时,也带来了一个新的问题就是Jar包如何启动?在一般情况下我们都是采用了最为经典的java-jar命令来进行启动。然后通过ps命令找到对应的应用线程通...
- 牛逼!自己手写一个热加载(人民币手写符号一个横还是两个横)
-
热加载:在不停止程序运行的情况下,对类(对象)的动态替换JavaClassLoader简述Java中的类从被加载到内存中到卸载出内存为止,一共经历了七个阶段:加载、验证、准备、解析、初始化、使用、...
- java 错误: 找不到或无法加载主类?看看怎么解决吧!
-
问题扫述:项目名称调整,由原来的com.mp.qms.report.biz调整为com.mp.busicen.mec.qms.report.biz后。项目在IDEA直接运行,但打包部署到服务器...
- 如何将 Spring Boot 工程打包成独立的可执行 JAR 包
-
导语:通过将SpringBoot项目打包成独立的可执行JAR包,可以方便地在任何支持Java环境的机器上运行项目。本文将详细介绍如何通过Maven构建插件将SpringBoot...
- class 增量发包改造为 jar 包方式发布
-
大纲class增量发包介绍项目目录结构介绍jar包方式发布落地方案class增量发包介绍当前项目的迭代修复都是通过class增量包来发版本的将改动的代码class增量打包,如下图cla...
- Jar启动和IDE里启动Sprintboot的区别
-
想聊明白这个问题,需要补充一些前提条件,比如Fatjar、类加载机制等1、Fatjar我们在开发业务程序的时候,经常需要引用第三方的jar包,最终程序开发完成之后,通过打包程序,会把自己的代码和三...
- Java 20年,以后将往哪儿走?(java还能流行多久)
-
在今年的Java20周年的庆祝大会中,JavaOne2015的中心议题是“Java的20年”。甲骨文公司Java平台软件开发部的副总裁GeorgesSaab的主题演讲就将关注点放在了java...
- Spring Boot Jar 包秒变 Docker 镜像实现多环境部署
-
你是否在互联网大厂后端开发工作中,遇到过这样的困扰?当完成一个SpringBoot项目开发,准备将Jar包部署到不同环境时,却发现各个环境依赖不同、配置复杂,部署过程繁琐又容易出错,不仅耗费...
- 从0开始,让你的Spring Boot项目跑在Linux服务器
-
1搭建Linux服务器1.1购买阿里云服务器或安装虚拟机这里建议是CentOS7.X或CentOS8.X,当然其他的Linux如deepin、Ubuntu也可以,只是软件环境的安装包和安装方式...
- 【技术】Maven 上传第三方jar包到私服
-
通过nexus后台上传私服以NexusRepositoryManagerOSS2.14.5-02为例。登录nexus后台。定义Maven坐标Maven坐标有两种方式:1.自定义参数;2....
- JVM参数、main方法的args参数使用
-
一、前言我们知道JVM参数分为自定义参数、JVM系统参数,Javamain方法的参数。今天就谈谈怎么使用吧。二、查看jvm参数定义自定义参数我们打开cmd窗口,输入java,就能看到自定义参数的格式...
- Maven项目如何发布jar包到Nexus私服
-
Maven项目发布jar包到Nexus私服在编码过程中,有些通用的代码模块,有时候我们不想通过复制粘贴来粗暴地复用。因为这样不仅体现不了变化,也不利于统一管理。这里我们使用mavendeploy的方...
- 干货丨Hadoop安装步骤!详解各目录内容及作用
-
Hadoop是Apache基金会面向全球开源的产品之一,任何用户都可以从ApacheHadoop官网下载使用。今天,播妞将以编写时较为稳定的Hadoop2.7.4版本为例,详细讲解Hadoop的安...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
python使用fitz模块提取pdf中的图片
-
- 最近发表
-
- 使用Assembly打包和部署Spring Boot工程
- java高级用法之:调用本地方法的利器JNA
- Linux中如何通过Shell脚本来控制Spring Boot的Jar包启停服务?
- 牛逼!自己手写一个热加载(人民币手写符号一个横还是两个横)
- java 错误: 找不到或无法加载主类?看看怎么解决吧!
- 如何将 Spring Boot 工程打包成独立的可执行 JAR 包
- class 增量发包改造为 jar 包方式发布
- Jar启动和IDE里启动Sprintboot的区别
- Java 20年,以后将往哪儿走?(java还能流行多久)
- Spring Boot Jar 包秒变 Docker 镜像实现多环境部署
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)