百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

【Go】用 Go 语言并发处理 CSV 文件到数据库

liuian 2025-03-04 13:04 24 浏览

通过并发处理,我们能够大大提升 CSV 文件迁移到数据库的速度。Go 的 goroutines 和通道非常适合这种类型的任务,可以高效地处理 I/O 密集型的操作。

问题背景

假设你拥有一个包含大量联系人信息的 CSV 文件,需要将这些信息迁移到数据库中。这些联系人信息可能包含姓名、电话号码、邮箱地址等。如果使用传统的单线程方式,逐条处理数据,迁移过程可能会非常缓慢,尤其是在数据量很大时。

在处理大量的 CSV 文件数据并迁移到数据库时,使用并发可以显著提升处理效率。Go 语言的 goroutine 和通道(channel)非常适合用来并发地处理数据。

下面我将给出一个示例,展示如何使用 Go 语言并发地处理 CSV 文件,并将数据插入到数据库中。

主要思路

  1. 读取 CSV 文件:使用 encoding/csv 包来解析 CSV 文件。
  2. 并发处理数据:将 CSV 文件的数据分批次发送到多个 goroutine 中进行并发处理。
  3. 数据库插入:每个 goroutine 从通道中接收数据并将其插入到数据库中。
  4. 同步控制:使用 sync.WaitGroup 来等待所有 goroutine 完成任务。

假设我们的数据库是 MySQL,使用 github.com/jinzhu/gorm 作为 ORM 库来处理数据库插入。我们会定义一个 Contact 结构体来映射数据库中的表,并用并发的方式将每一行 CSV 数据插入到数据库。

示例代码

1. 安装必要的依赖

首先,你需要安装 gorm 和 csv 相关的包:

go get github.com/jinzhu/gorm
go get github.com/jinzhu/gorm/dialects/mysql
go get encoding/csv1.2.3.

2. 数据库模型定义

我们先定义一个 Contact 结构体,它会对应数据库中的联系人表。

package main

import (
	"github.com/jinzhu/gorm"
	_ "github.com/jinzhu/gorm/dialects/mysql"
	"fmt"
)

// Contact 是数据库中表的模型
type Contact struct {
	ID        uint   `gorm:"primary_key"`
	Name      string `gorm:"size:255"`
	Phone     string `gorm:"size:255"`
	Email     string `gorm:"size:255"`
}

func initDB() (*gorm.DB, error) {
	// 使用 MySQL 数据库
	db, err := gorm.Open("mysql", "user:password@/dbname?charset=utf8&parseTime=True&loc=Local")
	if err != nil {
		return nil, err
	}

	// 自动迁移表结构
	db.AutoMigrate(&Contact{})
	return db, nil
}

3. 读取 CSV 文件并处理

接下来,我们需要读取 CSV 文件并将每一行数据并发地插入到数据库中。

package main

import (
	"encoding/csv"
	"fmt"
	"os"
	"strings"
	"sync"
)

// 处理 CSV 文件并将数据插入数据库
func processCSV(filePath string, db *gorm.DB) error {
	// 打开 CSV 文件
	file, err := os.Open(filePath)
	if err != nil {
		return err
	}
	defer file.Close()

	// 创建 CSV 阅读器
	reader := csv.NewReader(file)

	// 读取所有行
	records, err := reader.ReadAll()
	if err != nil {
		return err
	}

	// 使用 WaitGroup 来同步所有的 goroutine
	var wg sync.WaitGroup

	// 通道用于发送每行数据
	ch := make(chan Contact, len(records))

	// 启动多个 goroutine 来并发处理 CSV 数据
	for i := 1; i < len(records); i++ { // 从 1 开始,跳过标题行
		wg.Add(1)
		go func(record []string) {
			defer wg.Done()
			// 将 CSV 行转换为 Contact 实例
			contact := Contact{
				Name:  record[0],
				Phone: record[1],
				Email: record[2],
			}
			ch <- contact // 发送数据到通道
		}(records[i])
	}

	// 启动一个 goroutine 来将通道中的数据插入到数据库
	go func() {
		for contact := range ch {
			if err := db.Create(&contact).Error; err != nil {
				fmt.Println("Error inserting record:", err)
			}
		}
	}()

	// 等待所有 goroutine 完成
	wg.Wait()

	// 关闭通道
	close(ch)

	return nil
}

func main() {
	// 初始化数据库
	db, err := initDB()
	if err != nil {
		fmt.Println("Failed to connect to database:", err)
		return
	}
	defer db.Close()

	// 处理 CSV 文件并将数据迁移到数据库
	err = processCSV("contacts.csv", db)
	if err != nil {
		fmt.Println("Error processing CSV file:", err)
		return
	}

	fmt.Println("CSV data successfully migrated to the database.")
}

4. 代码说明

①.初始化数据库:

  • initDB 函数用于初始化 MySQL 数据库连接并进行自动迁移。
  • 我们使用 gorm 来处理数据库操作,模型 Contact 映射到数据库中的 contacts 表。

②.读取 CSV 文件:

  • processCSV 函数打开并读取 CSV 文件。然后,它读取所有的记录,并将每条记录通过 goroutine 异步发送到通道中。
  • 每个 goroutine 都会将一条记录从 CSV 转换为 Contact 对象,并将其发送到通道。

③.并发处理数据:

  • sync.WaitGroup 被用来确保所有的 goroutine 完成任务。wg.Add(1) 在启动每个 goroutine 时调用,wg.Done() 在每个 goroutine 完成时调用。
  • 使用 chan Contact 通道来将数据从多个 goroutine 传递到数据库插入部分。一个单独的 goroutine 从通道中接收数据并将其插入到数据库。

④.并发插入数据库:

  • 每个 goroutine 向通道发送数据,然后另一个 goroutine 从通道中读取数据并将其插入数据库。通过这种方式,多个数据库插入操作是并发进行的。

⑤.关闭通道与等待:

  • 在所有数据都发送到通道后,使用 wg.Wait() 等待所有 goroutine 完成处理。
  • 关闭通道以确保数据库插入操作可以顺利结束。

5. 性能优化

在这个例子中,我们并发地读取 CSV 文件并将数据插入数据库,显著提高了处理速度。但是,对于大型数据集,还可以做更多的性能优化:

  • 批量插入:可以将多个数据条目批量插入数据库,而不是每次插入一条记录。批量插入可以显著减少数据库的 I/O 操作,提升性能。
  • 控制并发数:通过 semacphore 或者限制通道缓冲区大小,可以控制并发数,避免数据库被过多并发请求压垮。
  • 数据库连接池:确保数据库连接池的配置合理,避免过多的并发连接造成数据库连接耗尽。

总结

通过并发处理,我们能够大大提升 CSV 文件迁移到数据库的速度。Go 的 goroutines 和通道非常适合这种类型的任务,可以高效地处理 I/O 密集型的操作。

在处理大型 CSV 文件时,使用并发处理可以显著提升性能,减少总体处理时间。


相关推荐

搭建一个20人的办公网络(适用于20多人的小型办公网络环境)

楼主有5台机上网,则需要一个8口路由器,组网方法如下:设备:1、8口路由器一台,其中8口为LAN(局域网)端口,一个WAN(广域网)端口,价格100--400元2、网线N米,这个你自己会看了:)...

笔记本电脑各种参数介绍(笔记本电脑各项参数新手普及知识)

1、CPU:这个主要取决于频率和二级缓存,频率越高、二级缓存越大,速度越快,现在的CPU有三级缓存、四级缓存等,都影响相应速度。2、内存:内存的存取速度取决于接口、颗粒数量多少与储存大小,一般来说,内...

汉字上面带拼音输入法下载(字上面带拼音的输入法是哪个)

使用手机上的拼音输入法打成汉字的方法如下:1.打开手机上的拼音输入法,在输入框中输入汉字的拼音,例如“nihao”。2.根据输入法提示的候选词,选择正确的汉字。例如,如果输入“nihao”,输...

xpsp3安装版系统下载(windowsxpsp3安装教程)

xpsp3纯净版在采用微软封装部署技术的基础上,结合作者的实际工作经验,融合了许多实用的功能。它通过一键分区、一键装系统、自动装驱动、一键设定分辨率,一键填IP,一键Ghost备份(恢复)等一系列...

没有备份的手机数据怎么恢复

手机没有备份恢复数据方法如下1、使用数据线将手机与电脑连接好,在“我的电脑”中可以看到手机的盘符。  2、将手机开启USB调试模式。在手机设置中找到开发者选项,然后点击“开启USB调试模式”。  3、...

电脑怎么激活windows11专业版

win11专业版激活方法有多种,以下提供两种常用的激活方式:方法一:使用激活密钥激活。在win11桌面上右键点击“此电脑”,选择“属性”选项。进入属性页面后,点击“更改产品密钥或升级windows”。...

华为手机助手下载官网(华为手机助手app下载专区)

华为手机助手策略调整,已不支持从应用市场下载手机助手,目前华为手机助手是需要在电脑上下载或更新手机助手到最新版本,https://consumer.huawei.com/cn/support/his...

光纤线断了怎么接(宽带光纤线断了怎么接)

宽带光纤线断了可以重接,具体操作方法如下:1、光纤连接的时候要根据束管内,同色相连,同芯相连,按顺序进行连接,由大到小。一般有三种连接方法,分别是熔接、活动连接和机械连接。2、连接的时候要开剥光缆,抛...

深度操作系统安装教程(深度操作系统安装教程图解)
  • 深度操作系统安装教程(深度操作系统安装教程图解)
  • 深度操作系统安装教程(深度操作系统安装教程图解)
  • 深度操作系统安装教程(深度操作系统安装教程图解)
  • 深度操作系统安装教程(深度操作系统安装教程图解)
win7旗舰版和专业版区别(win7旗舰版跟专业版)

1、功能区别:Win7旗舰版比专业版多了三个功能,分别是Bitlocker、BitlockerToGo和多语言界面; 2、用途区别:旗舰版的功能是所有版本中最全最强大的,占用的系统资源,...

万能连接钥匙(万能wifi连接钥匙下载)

1、首先打开wifi万能钥匙软件,若手机没有开启WLAN,就根据软件提示打开WLAN开关;2、打开WLAN开关后,会显示附近的WiFi,如果知道密码,可点击相应WiFi后点击‘输入密码’连接;3、若不...

雨林木风音乐叫什么(雨林木风是啥)

雨林木风的创始人是陈年鑫先生。陈年鑫先生于1999年创立了雨林木风公司,其初衷是为满足中国市场对高品质、高性能电脑的需求。在陈年鑫先生的领导下,雨林木风以技术创新、产品质量和客户服务为核心价值,不断推...

aics6序列号永久序列号(aics6破解序列号)

关于AICS6这个版本,虽然是比较久远的版本,但是在功能上也是十分全面和强大的,作为一名平面设计师的话,AICS6的现有的功能已经能够应付几乎所有的设计工作了……到底AICC2019的功能是不是...

win7正在启动windows 卡住(win7正在启动windows卡住了 进入安全模式)
  • win7正在启动windows 卡住(win7正在启动windows卡住了 进入安全模式)
  • win7正在启动windows 卡住(win7正在启动windows卡住了 进入安全模式)
  • win7正在启动windows 卡住(win7正在启动windows卡住了 进入安全模式)
  • win7正在启动windows 卡住(win7正在启动windows卡住了 进入安全模式)
手机可以装电脑系统吗(手机可以装电脑系统吗怎么装)

答题公式1:手机可以通过数据线或无线连接的方式给电脑装系统。手机安装系统需要一定的技巧和软件支持,一般需要通过数据线或无线连接的方式与电脑连接,并下载相应的软件和系统文件进行安装。对于大部分手机用户来...