百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

别说你会用Pandas

liuian 2025-02-15 16:31 9 浏览

说到Python处理大数据集,可能会第一时间想到Numpy或者Pandas。

这两个库使用场景有些不同,Numpy擅长于数值计算,因为它基于数组来运算的,数组在内存中的布局非常紧凑,所以计算能力强。但Numpy不适合做数据处理和探索,缺少一些现成的数据处理函数。

而Pandas的特点就是很适合做数据处理,比如读写、转换、连接、去重、分组聚合、时间序列、可视化等等,但Pandas的特点是效率略低,不擅长数值计算。

你可以同时使用Pandas和Numpy分工协作,做数据处理时用Pandas,涉及到运算时用Numpy,它们的数据格式互转也很方便。

目前前言,最多人使用的Python数据处理库仍然是pandas,这里重点说说它读取大数据的一般方式。

Pandas读取大数据集可以采用chunking分块读取的方式,用多少读取多少,不会太占用内存。

import pandas as pd  
  
# 设置分块大小,例如每次读取 10000 行  
chunksize = 10000  
  
# 使用 chunksize 参数分块读取 CSV 文件  
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):  
    # 在这里处理每个 chunk,例如打印每行的信息  
    print(chunk.head())  # 或者其他你需要的操作  
  
    # 如果你需要保存或进一步处理每个 chunk 的数据,可以在这里进行  
    # 例如,你可以将每个 chunk 写入不同的文件,或者对 chunk 进行某种计算并保存结果  

但使用分块读取时也要注意,不要在循环内部进行大量计算或内存密集型的操作,否则可能会消耗过多的内存或降低性能。

其次你可以考虑使用用Pandas读取数据库(如PostgreSQL、SQLite等)或外部存储(如HDFS、Parquet等),这会大大降低内存的压力。

尽管如此,Pandas读取大数据集能力也是有限的,取决于硬件的性能和内存大小,你可以尝试使用PySpark,它是Spark的python api接口。

PySpark提供了类似Pandas DataFrame的数据格式,你可以使用toPandas() 的方法,将 PySpark DataFrame 转换为 pandas DataFrame,但需要注意的是,这可能会将所有数据加载到单个节点的内存中,因此对于非常大的数据集可能不可行)。

相反,你也可以使用 createDataFrame() 方法从 pandas DataFrame 创建一个 PySpark DataFrame。

PySpark处理大数据的好处是它是一个分布式计算机系统,可以将数据和计算分布到多个节点上,能突破你的单机内存限制。

其次,PySpark采用懒执行方式,需要结果时才执行计算,其他时候不执行,这样会大大提升大数据处理的效率。

from pyspark.sql import SparkSession  
  
# 创建一个 SparkSession 对象  
spark = SparkSession.builder \  
    .appName("Big Data Processing with PySpark") \  
    .getOrCreate()  
  
# 读取 CSV 文件  
# 假设 CSV 文件名为 data.csv,并且有一个名为 'header' 的表头  
# 你需要根据你的 CSV 文件的实际情况修改这些参数  
df = spark.read.csv("path_to_your_csv_file/data.csv", header=True, inferSchema=True)  
  
# 显示数据集的前几行  
df.show(5)  
  
# 对数据进行一些转换  
# 例如,我们可以选择某些列,并对它们应用一些函数  
# 假设我们有一个名为 'salary' 的列,并且我们想要增加它的值(仅作为示例)  
df_transformed = df.withColumn("salary_increased", df["salary"] * 1.1)  
  
# 显示转换后的数据集的前几行  
df_transformed.show(5)  
  
# 将结果保存到新的 CSV 文件中  
# 注意:Spark 默认不会保存表头到 CSV,你可能需要手动处理这个问题  
df_transformed.write.csv("path_to_save_transformed_csv/transformed_data", header=True)  
  
# 停止 SparkSession  
spark.stop()

如果你不会使用PySpark,可以考虑Pandas的拓展库,比如modin、dask、polars等,它们提供了类似pandas的数据类型和函数接口,但使用多进程、分布式等方式来处理大数据集。

modin库

import modin.pandas as pd  
  
# 读取 CSV 文件  
df = pd.read_csv('path_to_your_csv_file.csv')  
  
# 显示前几行  
print(df.head())

Dask库

import dask.dataframe as dd  
  
# 读取 CSV 文件  
df = dd.read_csv('path_to_your_csv_file.csv')  
  
# 触发计算并显示前几行(注意这里使用的是 compute 方法)  
print(df.head().compute())

Polars库

import polars as pl
  
# 读取 CSV 文件  
df = pl.read_csv('path_to_your_csv_file.csv')  
  
# 显示前几行
print(df.head())

这几个库的好处是,使用成本很低,基本和pandas操作方式一样,但又能很好的处理大数据。

所以说Pandas是完全能胜任处理大数据集的,它目前的周边生态库非常丰富。

相关推荐

x-cmd install | jellex - 用 Python 语法在终端里玩转 JSON 数据!

还在为命令行下处理JSON数据烦恼吗?jellex来了!它是一款基于终端的交互式JSON和JSONLines数据处理工具,让你用熟悉的Python语法,轻松过滤、转换和探索JSO...

一篇长文带你在Python里玩转Json数据

Json简介Json(JavaScriptObjectNotation)很多网站都会用到Json格式来进行数据的传输和交换,就像上篇我提到的网易云音乐接口,它们返回的数据都是Json格式的。这因为...

Python JSON 魔法手册:数据转换的终极艺术

对话实录小白:(崩溃)我从API拿到了JSON数据,怎么变成Python对象?专家:(掏出魔法书)用json模块,轻松实现数据转换!JSON基础三连击1.字符串Python对...

Python JSON 详解教程(python json())

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式(lightweightdatainterchangeformat)常用于Web应用、配置文件(co...

Python 数据的 JSON 格式序列化及反序列化

在Python中,将数据转换为JSON格式非常简单,可以使用内置的json模块。json模块提供了json.dumps()和json.dump()方法,用于将Python对象...

如何使Python类可JSON序列化(python json 类)

技术背景在Python开发中,JSON(JavaScriptObjectNotation)是一种常用的数据交换格式。然而,Python的json模块默认只能序列化一些基本数据类型,如字典、列表、字...

详细介绍一下Python如何对JSON格式数据进行处理?

在Python中对于JSON数据的处理是在日常开发中的常见需求之一。通常情况下,对JSON数据的处理主要涉及到如下的的几个步骤对于JSON数据的解析操作对于JSON数据的处理操作对于JSON数据的格式...

Python 字典l转换成 JSON(python转化字典)

本文需要5分钟。如果对您有用可以点赞评论关注.Python字典到JSONJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,它基于ECMAScrip...

打造熟悉的VS界面风格(vs界面设计美化)

用惯了老机子的VS界面,换新机子时,各种不适应。现在重新打造老款样式:1)下载VisualStudio2013ColorThemeEditorhttps://marketplace.vis...

办公小技巧:全部亮相 让Excel单元格完全显示文本

平时我们在使用Excel制作表格的时候,经常会遇到由于文本内容较多,导致这些内容无法在一个单元格中完全显示。常规的方法是将单元格设置为“自动换行”,但是这样会影响整个文件的美观。下例是某小区的入住登记...

WinForms 中的 CheckBox 控件使用指南

在WinForms中,CheckBox控件是一个允许用户选择或取消选择的单选按钮。它通常用于表示布尔值(真/假)或允许多选的情况。以下是如何使用CheckBox控件的一些基本信息和示例代码。创建...

图片转文字--四种OCR工具的安装和使用

本文仅测试简单的安装和使用,下一步应该是测试不同数据集下的检测准确率和检测效率,敬请期待。作者的系统环境是:笔记本:ThindPadP520OS:win11显卡:QuadroP520一、EasyO...

C# 给Word每一页设置不同图片水印

Word中设置水印时,可加载图片设置为水印效果,但通常添加水印效果时,会对所有页面都设置成统一效果,如果需要对每一页或者某个页面设置不同的水印效果,则可以参考本文中的方法。下面,将以C#代码为例,对W...

集成的面向对象控件Xtreme Controls正式发布v17.0.0

CodejockXtremeControls为Windows图形用户软件工程师提供众多的有关MFC的控件产品,该产品是通过完全测试并专门为图形用户设计的一款专业控件。它是一款集成了面向对象的控件被...

Win10 Build 10061老问题修复新问题来

|责编:刘菲菲【中关村在线软件资讯】4月23日消息:微软今天正式推送了Windows10Build10061预览版这个版本除了正常的功能更新和调整外,还修复了多个bug。其中一部分对于开发者开...