爬虫python链接mysql数据库使用to_sql写入数据老报错的问题
liuian 2024-12-27 15:15 26 浏览
网上有很多使用爬虫技术抓取数据并写入cvs的教学案例
抓下来也没大的问题,但是如果自己本地建立了mysql数据库,使用很多公开的教程,反倒实现不了功能,经常报这样那样的错误,比如常见的UserWarning: pandas only support SQLAlchemy connectable(engine/connection)错误!
经过不少时间的折腾终于找到了解决问题的办法,是因为to_sql办法网上大多数教程都是老版本的链接数据库的办法,新的版本的pandas只支持SQLAlchemy的办法链接
老的链接数据库的办法一般是这样的
import pandas as pd
import pymysql
# 创建数据库连接
conn = pymysql.connect(host='localhost', port=3306, user='root', password='password', db='database_name')
# 创建游标对象 cursor = conn.cursor()
# 创建一个DataFrame示例
data = {'Name': ['John', 'Mike', 'Bob'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
# 将DataFrame插入MySQL表
# 如果该表不存在,可以使用CREATE TABLE语句来创建它
df.to_sql(name='table_name', con=conn, if_exists='replace', index=False)
# 关闭游标和连接
cursor.close()
conn.close()
这样的话直接报错!
那么就需要用新的办法链接
from sqlalchemy import create_engine
MYSQL_HOST = 'localhost'
MYSQL_PORT = '3306'
MYSQL_USER = 'root'
MYSQL_PASSWORD = '12345678'
MYSQL_DB = 'stocks'
### 使用pandas to_sql写入数据
engine = create_engine('mysql+pymysql://%s:%s@%s:%s/%s?charset=utf8'% (MYSQL_USER, MYSQL_PASSWORD, MYSQL_HOST, MYSQL_PORT, MYSQL_DB))
#engine = create_engine(conn)
df = pd.DataFrame(all_products,columns=keys)
#replce 清除并重写,append 叠加数据
df.to_sql('test_ifeng',engine, if_exists='replace', index=False)
#raise SystemExit
OK,这样我们就能看到mysql数据库存入了相关的数据
这是昨天爬虫入库的完整代码,有三种写入数据库的办法
import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd
from sqlalchemy import create_engine
url = 'http://www.ifeng.com'
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
# 设置headers
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",
}
# 设置cookies
cookies = {}
cookies['mall'] = '1638237165.7.1148.523814'
cookies['JSESSIONID'] = '7D7F08E6CAC6989FDE82EBDEBBF9CB21'
# 发起请求
res = requests.get(url, cookies=cookies, headers=headers, timeout=5)
#res = requests.get(url)
#title = soup.title.text
all_products = []
#print(soup)
products = soup.select('p.index_news_list_p_5zOEF')
#raise SystemExit
for product in products:
title = product.select('a')[0].text
url = product.select('a')[0].attrs['href']
all_products.append({
"biaoti":title,
"link": url
})
#csv写入办法
keys = all_products[0].keys()
with open('ifeng新闻.csv', 'w', newline='', encoding='utf-8-sig') as output_file:
dict_writer = csv.DictWriter(output_file, keys)
dict_writer.writeheader()
dict_writer.writerows(all_products)
MYSQL_HOST = 'localhost'
MYSQL_PORT = '3306'
MYSQL_USER = 'root'
MYSQL_PASSWORD = '12345678'
MYSQL_DB = 'stocks'
### 使用pandas to_sql写入数据
engine = create_engine('mysql+pymysql://%s:%s@%s:%s/%s?charset=utf8'% (MYSQL_USER, MYSQL_PASSWORD, MYSQL_HOST, MYSQL_PORT, MYSQL_DB))
#engine = create_engine(conn)
df = pd.DataFrame(all_products,columns=keys)
#replce 清除并重写,append 叠加数据
df.to_sql('test_ifeng',engine, if_exists='replace', index=False)
#raise SystemExit
### 使用pandas to_csv写入数据
pd.DataFrame(all_products,columns=keys).to_csv('ifeng新闻1.csv', encoding='utf-8-sig')
相关推荐
- Javascript中的字符串拼接(js字符串拼接效率)
-
字符串拼接是所有程序设计语言都需要的操作。当拼接结果较长时,如何保证效率就成为一个很重要的问题。本文介绍的是Javascript中的字符串拼接,希望对你有帮助,一起来看。consticon=...
- C#-字符串常用方法(2) 104(c#字符串处理函数)
-
IndexOf()查找某字符或字符串在要查找字符串中第一次出现的下标,与数组相同从零开始,如果没有找到对应的数据,则返回-1LastIndexOf()查找某字符或字符串在要查找字符串中最后一次出现...
- C#拼接字符串及简单性能比较(c# 如何高效拼接字符串)
-
在C#编程中拼接字符串应该是最常见的场景之一,假如现在有几个变量需要转换成字符串并按格式拼接,常用的几种方法:inta=1;charb='c';doublec=1...
- C# 字符串连接方式有哪些?各自有什么特点?
-
在C#中,有几种方式可以连接字符串,每种方式都有其特点和适用场景。以下是常见的几种方式:使用连接符"+":使用加号"+"可以简单地将两个字符串连接起来。这种方式简...
- 字符串也可以比较大小?C语言的strcmp函数
-
在C语言中,因为字符串没有被封装成对象,所以直接用==、!=比较。C语言提供了一个用于字符串比较的函数类型strcmp。注意,字符串和字符完全不同,因为不同的编译器实现问题,返回值的情况也有所变化...
- JavaScript 常用功能总结(javascript的功能)
-
编吐血整理加上翻译,太辛苦了~求赞!本文主要总结了JavaScript常用功能总结,如一些常用的额JS对象,基本数据结构,功能函数等,还有一些常用的设计模式。目录:众所周知,JavaScript是...
- C++20 新特性(16):三路比较运算符()一统浆糊
-
C++语言的比较操作符有很多,包括:==、!=、>、>=、<、<=等,如果要实现对象的大小比较功能,需要实现这些函数,比较繁琐,而且如果实现不好,这些...
- C++中重载运算符的使用(c++重载操作符)
-
C++中重载运算符的使用:用户定义的类型,如:字符串,日期,复数,联合体以及文件常常重载二元+操作符以实现对象的连接,附加或合并机制。但是要正确实现+操作符会给设计,实现和性能带来一定的挑战。...
- 《学习C++》基本概念之标识符(c++标识符的定义)
-
标识符(identifier)是C++基本词法单元(即令牌token)之一,由字母(letter)、数字(digit)、下划线(underscore)组成,但是首字符必须为字母或下换线。标识符的用途主...
- Java判断Integer相等-应该这么这样用
-
先看下这段代码,然后猜下结果:Integeri1=50;Integeri2=50;Integeri3=128;Integeri4=128;System.out.prin...
- C语言模拟实现字符串操作函数(c语言模拟实现字符串操作函数是什么)
-
1.strlenstrlen是用来求字符串长度的函数,字符串长度就是字符串中包含的字符的个数,但是不包含字符串结尾的‘\0’实现strlen有三种方法:(1)定义一个计数器size_t ...
- C++ 知识小结(c++知识总结)
-
C语言typedef与#define比较https://www.runoob.com/note/24230野指针和悬空指针区别?野指针:指的是没有被初始化过的指针。解决方法:指针变量未及时...
- Python字符串比较的隐藏法则:Unicode对决、内存地址暗战!
-
字符串比较的底层规则核心原理:字符逐个对比,基于Unicode值一决胜负!#规则演示:从首字符开始逐位比较print("apple">"app")...
- 在C++中,如何避免出现Bug?(c++防止闪退)
-
C++中的主要问题之一是存在大量行为未定义或对程序员来说意外的构造。我们在使用静态分析器检查各种项目时经常会遇到这些问题。但正如我们所知,最佳做法是在编译阶段尽早检测错误。让我们来看看现代C++中的一...
- harmony-utils之StrUtil,字符串工具类
-
harmony-utils简介与说明harmony-utils一款功能丰富且极易上手的HarmonyOS工具库,借助众多实用工具类,致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
飞牛OS入门安装遇到问题,如何解决?
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)