别说你会用Pandas

说到Python处理大数据集，可能会第一时间想到Numpy或者Pandas。

这两个库使用场景有些不同，Numpy擅长于数值计算，因为它基于数组来运算的，数组在内存中的布局非常紧凑，所以计算能力强。但Numpy不适合做数据处理和探索，缺少一些现成的数据处理函数。

而Pandas的特点就是很适合做数据处理，比如读写、转换、连接、去重、分组聚合、时间序列、可视化等等，但Pandas的特点是效率略低，不擅长数值计算。

你可以同时使用Pandas和Numpy分工协作，做数据处理时用Pandas，涉及到运算时用Numpy，它们的数据格式互转也很方便。

目前前言，最多人使用的Python数据处理库仍然是pandas，这里重点说说它读取大数据的一般方式。

Pandas读取大数据集可以采用chunking分块读取的方式，用多少读取多少，不会太占用内存。

import pandas as pd  
  
# 设置分块大小，例如每次读取 10000 行  
chunksize = 10000  
  
# 使用 chunksize 参数分块读取 CSV 文件  
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):  
    # 在这里处理每个 chunk，例如打印每行的信息  
    print(chunk.head())  # 或者其他你需要的操作  
  
    # 如果你需要保存或进一步处理每个 chunk 的数据，可以在这里进行  
    # 例如，你可以将每个 chunk 写入不同的文件，或者对 chunk 进行某种计算并保存结果

但使用分块读取时也要注意，不要在循环内部进行大量计算或内存密集型的操作，否则可能会消耗过多的内存或降低性能。

其次你可以考虑使用用Pandas读取数据库（如PostgreSQL、SQLite等）或外部存储（如HDFS、Parquet等），这会大大降低内存的压力。

尽管如此，Pandas读取大数据集能力也是有限的，取决于硬件的性能和内存大小，你可以尝试使用PySpark，它是Spark的python api接口。

PySpark提供了类似Pandas DataFrame的数据格式，你可以使用toPandas() 的方法，将 PySpark DataFrame 转换为 pandas DataFrame，但需要注意的是，这可能会将所有数据加载到单个节点的内存中，因此对于非常大的数据集可能不可行）。

相反，你也可以使用 createDataFrame() 方法从 pandas DataFrame 创建一个 PySpark DataFrame。

PySpark处理大数据的好处是它是一个分布式计算机系统，可以将数据和计算分布到多个节点上，能突破你的单机内存限制。

其次，PySpark采用懒执行方式，需要结果时才执行计算，其他时候不执行，这样会大大提升大数据处理的效率。

from pyspark.sql import SparkSession  
  
# 创建一个 SparkSession 对象  
spark = SparkSession.builder \  
    .appName("Big Data Processing with PySpark") \  
    .getOrCreate()  
  
# 读取 CSV 文件  
# 假设 CSV 文件名为 data.csv，并且有一个名为 'header' 的表头  
# 你需要根据你的 CSV 文件的实际情况修改这些参数  
df = spark.read.csv("path_to_your_csv_file/data.csv", header=True, inferSchema=True)  
  
# 显示数据集的前几行  
df.show(5)  
  
# 对数据进行一些转换  
# 例如，我们可以选择某些列，并对它们应用一些函数  
# 假设我们有一个名为 'salary' 的列，并且我们想要增加它的值（仅作为示例）  
df_transformed = df.withColumn("salary_increased", df["salary"] * 1.1)  
  
# 显示转换后的数据集的前几行  
df_transformed.show(5)  
  
# 将结果保存到新的 CSV 文件中  
# 注意：Spark 默认不会保存表头到 CSV，你可能需要手动处理这个问题  
df_transformed.write.csv("path_to_save_transformed_csv/transformed_data", header=True)  
  
# 停止 SparkSession  
spark.stop()

如果你不会使用PySpark，可以考虑Pandas的拓展库，比如modin、dask、polars等，它们提供了类似pandas的数据类型和函数接口，但使用多进程、分布式等方式来处理大数据集。

modin库

import modin.pandas as pd  
  
# 读取 CSV 文件  
df = pd.read_csv('path_to_your_csv_file.csv')  
  
# 显示前几行  
print(df.head())

Dask库

import dask.dataframe as dd  
  
# 读取 CSV 文件  
df = dd.read_csv('path_to_your_csv_file.csv')  
  
# 触发计算并显示前几行（注意这里使用的是 compute 方法）  
print(df.head().compute())

Polars库

import polars as pl
  
# 读取 CSV 文件  
df = pl.read_csv('path_to_your_csv_file.csv')  
  
# 显示前几行
print(df.head())

这几个库的好处是，使用成本很低，基本和pandas操作方式一样，但又能很好的处理大数据。

所以说Pandas是完全能胜任处理大数据集的，它目前的周边生态库非常丰富。

相关推荐

驱动网卡（怎么从新驱动网卡）: 网卡一般是指为电脑主机提供有线无线网络功能的适配器。而网卡驱动指的就是电脑连接识别这些网卡型号的桥梁。网卡只有打上了网卡驱动才能正常使用。并不是说所有的网卡一插到电脑上面就能进行数据传输了，他都需要里面芯片组的驱动文件才能支持他进行数据传输...; 2026-01-30 00:37 liuian

win10更新助手装系统（微软win10更新助手）: 1、点击首页“系统升级”的按钮，给出弹框，告诉用户需要上传IMEI码才能使用升级服务。同时给出同意和取消按钮。华为手机助手2、点击同意，则进入到“系统升级”功能华为手机助手华为手机助手3、在检测界面，...

windows11专业版密钥最新（windows11专业版激活码永久）: Windows11专业版的正版密钥，我们是对windows的激活所必备的工具。该密钥我们可以通过微软商城或者通过计算机的硬件供应商去购买获得。获得了windows11专业版的正版密钥后，我...

手机删过的软件恢复（手机删除过的软件怎么恢复）: 操作步骤：1、首先，我们需要先打开手机。然后在许多图标中找到带有[文件管理]文本的图标，然后单击“文件管理”进入页面。2、进入页面后，我们将在顶部看到一行文本：手机，最新信息，文档，视频，图片，音乐，收藏，最后是我们正在寻找的[更多]，单击...; 2026-01-29 23:55 liuian

一键ghost手动备份系统步骤（一键ghost 备份）: 　　步骤1、首先把装有一键GHOST装系统的U盘插在电脑上，然后打开电脑马上按F2或DEL键入BIOS界面，然后就选择BOOT打USDHDD模式选择好，然后按F10键保存，电脑就会马上重启。　　步骤...

怎么创建局域网（怎么创建局域网打游戏）: 　　1、购买路由器一台。进入路由器把dhcp功能打开　　2、购买一台交换机。从路由器lan端口拉出一条网线查到交换机的任意一个端口上。　　3、两台以上电脑。从交换机任意端口拉出网线插到电脑上（电脑设置...

精灵驱动器官方下载（精灵驱动手机版下载）: 是的。驱动精灵是一款集驱动管理和硬件检测于一体的、专业级的驱动管理和维护工具。驱动精灵为用户提供驱动备份、恢复、安装、删除、在线更新等实用功能。1、全新驱动精灵2012引擎，大幅提升硬件和驱动辨识能力...

一键还原系统步骤（一键还原系统有哪些）: 1、首先需要下载安装一下Windows一键还原程序，在安装程序窗口中，点击“下一步”，弹出“用户许可协议”窗口，选择“我同意该许可协议的条款”，并点击“下一步”。　　2、在弹出的“准备安装”窗口中，可...

电脑加速器哪个好（电脑加速器哪款好）: 我认为pp加速器最好用，飞速土豆太懒，急速酷六根本不工作。pp加速器什么网页都加速，太任劳任怨了！以上是个人观点，具体性能请自己试。ps：我家电脑性能很好。迅游加速盒子是可以加速电脑的。因为有过之...

任何u盘都可以做启动盘吗（u盘必须做成启动盘才能装系统吗）: 是的，需要注意，U盘的大小要在4G以上，最好是8G以上，因为启动盘里面需要装系统，内存小的话，不能用来安装系统。内存卡或者U盘或者移动硬盘都可以用来做启动盘安装系统。普通的U盘就可以，不过最好U盘...

u盘怎么恢复文件（u盘文件恢复的方法）: 开360安全卫士，点击上面的“功能大全”。点击文件恢复然后点击“数据”下的“文件恢复”功能。选择驱动接着选择需要恢复的驱动，选择接入的U盘。点击开始扫描选好就点击中间的“开始扫描”，开始扫描U盘数据。...

系统虚拟内存太低怎么办（系统虚拟内存占用过高什么原因）: 1.检查系统虚拟内存使用情况，如果发现有大量的空闲内存，可以尝试释放一些不必要的进程，以释放内存空间。2.如果系统虚拟内存使用率较高，可以尝试增加系统虚拟内存的大小，以便更多的应用程序可以使用更多...

剪贴板权限设置方法（剪贴板访问权限）: 1、首先打开iphone手机，触碰并按住单词或图像直到显示选择选项。2、其次，然后选取“拷贝”或“剪贴板”。3、勾选需要的“权限”，最后选择开启，即可完成苹果剪贴板权限设置。仅参考1.打开苹果手机设置按钮,点击【通用】。2.点击【键盘】,再...; 2026-01-29 21:37 liuian

平板系统重装大师（平板重装win系统）: 如果你的平板开不了机，但可以连接上电脑，那就能好办，楼主下载安装个平板刷机王到你的个人电脑上，然后连接你的平板，平板刷机王会自动识别你的平板，平板刷机王上有你平板的我刷机包，楼主点击下载一个，下载完成...

联想官网售后服务网点（联想官网售后服务热线）: 联想3c服务中心是联想旗下的官方售后，是基于互联网O2O模式开发的全新服务平台。可以为终端用户提供多品牌手机、电脑以及其他3C类产品的维修、保养和保险服务。根据客户需求层次，联想服务针对个人及家庭客户...

相关推荐

飞牛OS入门安装遇到问题，如何解决?

Boost高性能并发无锁队列指南:boost::lockfree::queue

大模型手册: 保姆级用CherryStudio知识库

用什么工具在Win中查看8G大的log文件?

如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM

Trae IDE 如何与 GitHub 无缝对接?

如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法

Win11和Win10专业版永久激活密钥详细步骤?

5步搞定动态考勤表!标记节假日、调休日?Excel自动变色!

Vue独立组件——11个最佳Vue.js日期选择器组件