Python 数据转换实用技巧:3 分钟搞定杂乱数据,新手也能学会
liuian 2025-07-27 22:00 36 浏览
你是不是也遇到过这种情况:好不容易收集到数据,却因为格式乱七八糟没法分析 —— 日期格式五花八门,金额里混着各种符号,想算个平均值都难。其实,用对 Python 数据转换技巧,这些问题都能轻松解决。今天就分享几个超实用的方法,新手也能直接套用。
一、数据类型转换:别让类型错误拖后腿
拿到数据先检查类型,这是最基础也最关键的一步。很多分析出错,都是因为类型不对。
3 种最常用的转换方法
import pandas as pd
# 原始数据
data = {
'订单日期': ['2023-10-05', '2023/10/06', '2023年10月07日'],
'金额': ['399', '129.9', '599'],
'用户ID': ['1001', '1002', '1003'],
'产品类别': ['口红', '粉底', '口红']
}
df = pd.DataFrame(data)
# 1. 字符串转日期
df['订单日期'] = pd.to_datetime(df['订单日期'], errors='coerce')
# 2. 文本金额转数字
df['金额'] = pd.to_numeric(df['金额'], errors='coerce')
# 3. 字符串用户ID转整数
df['用户ID'] = pd.to_numeric(df['用户ID'], downcast='integer')
# 4. 产品类别转分类类型(省内存)
df['产品类别'] = df['产品类别'].astype('category')
转换时的 3 个避坑点
- 转换失败不报错:加上errors='coerce',失败的会变成NaN,程序继续运行
- 日期格式乱不怕:pd.to_datetime能自动识别大部分格式,省心
- 大整数别用 int64:downcast='integer'会自动选合适类型,节省内存
检查转换效果:
# 看每列有多少转换失败的
print(df.isnull().sum())
二、格式转换:让数据 “说同一种话”
不同来源的数据格式往往不一样,必须统一才能分析。
日期格式统一
def 统一日期格式(日期列, 目标格式='%Y-%m-%d'):
# 先转成datetime类型
日期时间列 = pd.to_datetime(日期列, errors='coerce')
# 再转成目标字符串格式
统一格式列 = 日期时间列.dt.strftime(目标格式)
# 转换失败的保留原始值
转换失败 = 日期时间列.isna()
统一格式列[转换失败] = 日期列[转换失败].astype(str)
return 统一格式列
# 用法
df['订单日期_统一'] = 统一日期格式(df['订单日期'], '%Y年%m月%d日')
金额里的符号怎么处理?
# 处理带货币符号的金额,如"yen399" "$129.9"
df['金额_清洗'] = df['金额字符串'].astype(str).str.extract(r'(\d+\.?\d*)').astype(float)
# 处理欧洲格式数字,如"1.234,56"(逗号是小数点)
def 欧洲数字转正常(数字列):
清洗列 = 数字列.str.replace('.', '', regex=False)
清洗列 = 清洗列.str.replace(',', '.', regex=False)
return 清洗列.astype(float)
三、结构转换:长表宽表按需转
数据结构不对,分析起来很费劲,长表宽表转换是常用技巧。
长表转宽表(适合汇总)
# 长表数据
长表 = pd.DataFrame({
'用户ID': [1001, 1001, 1002, 1002],
'月份': ['1月', '2月', '1月', '2月'],
'消费金额': [399, 599, 299, 499]
})
# 转宽表:一行一个用户,一列一个月份
宽表 = 长表.pivot(
index='用户ID',
columns='月份',
values='消费金额'
).reset_index()
宽表转长表(适合趋势分析)
# 把宽表转回去
长表2 = pd.melt(
宽表,
id_vars=['用户ID'], # 保持不变的列
value_vars=['1月', '2月'], # 要转换的列
var_name='月份', # 新列名(原列名)
value_name='消费金额' # 新列名(原数值)
)
四、嵌套数据转换:JSON 信息轻松拆
很多数据存在 JSON 格式的字段里,比如用户信息是{"姓名":"张三","年龄":30},这样拆出来:
import json
def 拆JSON列(数据框, 列名):
def 解析JSON(x):
try:
return json.loads(x) if pd.notna(x) else {}
except:
return {} # 解析失败返回空字典
解析结果 = 数据框[列名].apply(解析JSON)
拆出来的列 = pd.json_normalize(解析结果)
拆出来的列.columns = [f'{列名}_{子列}' for 子列 in 拆出来的列.columns]
return pd.concat([数据框.drop(列名, axis=1), 拆出来的列], axis=1)
# 用法
# df = 拆JSON列(df, 'user_info')
# 会多出user_info_姓名、user_info_年龄等列
五、实战案例:电商订单数据转换全流程
处理有这些问题的订单数据:
- 订单日期格式混乱
- 金额带货币符号
- 用户信息是 JSON 格式
- 评论有乱码
def 处理订单数据(原始数据):
df = 原始数据.copy()
# 1. 类型转换
df['订单日期'] = pd.to_datetime(df['订单日期'], errors='coerce')
df['金额'] = df['金额'].astype(str).str.extract(r'(\d+\.?\d*)').astype(float)
# 2. 格式统一
df['订单日期_标准'] = 统一日期格式(df['订单日期'])
df['订单月份'] = df['订单日期'].dt.month # 提取月份
# 3. 拆JSON列
df = 拆JSON列(df, '用户信息')
# 4. 处理评论乱码
df['评论_清洗'] = df['评论'].str.encode('latin-1').str.decode('utf-8', errors='ignore')
return df
3 个实用小技巧
- 转换前备份:df_copy = df.copy(),转错了还能重来
- 大文件分块处理:pd.read_csv(chunksize=10000),省内存
- 检查内存占用:df.memory_usage(deep=True).sum()/1024/1024,太大就优化类型
掌握这些数据转换技巧,再乱的数据也能变得整整齐齐,分析起来事半功倍。赶紧试试,有问题评论区留言。觉得有用,点赞收藏吧!
相关推荐
- 赶紧收藏!编程python基础知识,本文给你全部整理好了
-
想一起学习编程Python的同学,趁我粉丝少,可以留言、私信领编程资料~Python基础入门既然学习Python,那么至少得了解下这门编程语言,知道Python代码执行过程吧。Python的历...
- 创建绩效改进计划 (PIP) 的6个步骤
-
每个经理都必须与未能达到期望的员工抗衡,也许他们的表现下降了,他们被分配了新的任务并且无法处理它们,或者他们处理了自己的任务,但他们的行为对他人造成了破坏。许多公司转向警告系统,然后在这些情况下终止。...
- PI3K/AKT信号通路全解析:核心分子、上游激活与下游效应分子
-
PI3K/AKT/mTOR(PAM)信号通路是真核细胞中高度保守的信号转导网络,作用于促进细胞存活、生长和细胞周期进程。PAM轴上生长因子向转录因子的信号传导受到与其他多条信号通路的多重交叉相互作用的...
- 互联网公司要求签PIP,裁员连N+1都没了?
-
2021年刚画上句号,令无数互联网公司从业者闻风丧胆的绩效公布时间就到了,脉脉上已然炸了锅。阿里3.25、腾讯二星、百度四挡、美团绩效C,虽然名称五花八门,实际上都代表了差绩效。拿到差绩效,非但不能晋...
- Python自动化办公应用学习笔记3—— pip工具安装
-
3.1pip工具安装最常用且最高效的Python第三方库安装方式是采用pip工具安装。pip是Python包管理工具,提供了对Python包的查找、下载、安装、卸载的功能。pip是Python官方提...
- 单片机都是相通的_单片机是串行还是并行
-
作为一个七年的从业者,单片机对于我个人而言它是一种可编程的器件,现在长见到的电子产品中几乎都有单片机的身影,它们是以单片机为核心,根据不同的功能需求,搭建不同的电路,从8位的单片机到32位的单片机,甚...
- STM32F0单片机快速入门八 聊聊 Coolie DMA
-
1.苦力DMA世上本没有路,走的人多了,便成了路。世上本没有DMA,需要搬运的数据多了,便有了DMA。大多数同学应该没有在项目中用过这个东西,因为一般情况下也真不需要这个东西。在早期的单片机中...
- 放弃51单片机,直接学习STM32开发可能会面临的问题
-
学习51单片机并非仅仅是为了学习51本身,而是通过它学习一种方法,即如何仅仅依靠Datasheet和例程来学习一种新的芯片。51单片机相对较简单,是这个过程中最容易上手的选择,而AVR单片机则更为复杂...
- STM32串口通信基本原理_stm32串口原理图
-
通信接口背景知识设备之间通信的方式一般情况下,设备之间的通信方式可以分成并行通信和串行通信两种。并行与串行通信的区别如下表所示。串行通信的分类1、按照数据传送方向,分为:单工:数据传输只支持数据在一个...
- 单片机的程序有多大?_单片机的程序有多大内存
-
之前一直很奇怪一个问题,每次写好单片机程序之后,用烧录软件进行烧录时,能看到烧录文件也就是hex的文件大小:我用的单片机芯片是STM32F103C8T6,程序储存器(flash)只有64K。从...
- 解析STM32单片机定时器编码器模式及其应用场景
-
本文将对STM32单片机定时器编码器模式进行详细解析,包括介绍不同的编码器模式、各自的优缺点以及相同点和不同点的应用场景。通过阅读本文,读者将对STM32单片机定时器编码器模式有全面的了解。一、引言...
- 两STM32单片机串口通讯实验_两个32单片机间串口通信
-
一、实验思路连接两个STM32单片机的串口引脚,单片机A进行发送,单片机B进行接收。单片机B根据接收到单片机A的指令来点亮或熄灭板载LED灯,通过实验现象来验证是否通讯成功。二、实验器材两套STM32...
- 基于单片机的智能考勤机设计_基于51单片机的指纹考勤机
-
一、设计背景随着科技水平的不断发展,在这么一个信息化的时代,智能化信息处理已是提高效率、规范管理和客观审查的最有效途径。近几年来,国内很多公司都在加强对企业人员的管理,考勤作为企业的基础管理,是公司...
- STM32单片机详细教学(二):STM32系列单片机的介绍
-
大家好,今天给大家介绍STM32系列单片机,文章末尾附有本毕业设计的论文和源码的获取方式,可进群免费领取。前言STM32系列芯片是为要求高性能、低成本、低功耗的嵌入式应用设计的ARMCortexM...
- STM32单片机的 Hard-Fault 硬件错误问题追踪与分析
-
有过单片机开发经验的人应该都会遇到过硬件错误(Hard-Fault)的问题,对于这样的问题,有些问题比较容易查找,有些就查找起来很麻烦,甚至可能很久都找不到问题到底是出在哪里。特别是有时候出现一次,后...
- 一周热门
-
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
飞牛OS入门安装遇到问题,如何解决?
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)