爬虫python链接mysql数据库使用to_sql写入数据老报错的问题
liuian 2024-12-27 15:15 36 浏览
网上有很多使用爬虫技术抓取数据并写入cvs的教学案例
抓下来也没大的问题,但是如果自己本地建立了mysql数据库,使用很多公开的教程,反倒实现不了功能,经常报这样那样的错误,比如常见的UserWarning: pandas only support SQLAlchemy connectable(engine/connection)错误!
经过不少时间的折腾终于找到了解决问题的办法,是因为to_sql办法网上大多数教程都是老版本的链接数据库的办法,新的版本的pandas只支持SQLAlchemy的办法链接
老的链接数据库的办法一般是这样的
import pandas as pd
import pymysql
# 创建数据库连接
conn = pymysql.connect(host='localhost', port=3306, user='root', password='password', db='database_name')
# 创建游标对象 cursor = conn.cursor()
# 创建一个DataFrame示例
data = {'Name': ['John', 'Mike', 'Bob'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
# 将DataFrame插入MySQL表
# 如果该表不存在,可以使用CREATE TABLE语句来创建它
df.to_sql(name='table_name', con=conn, if_exists='replace', index=False)
# 关闭游标和连接
cursor.close()
conn.close()
这样的话直接报错!
那么就需要用新的办法链接
from sqlalchemy import create_engine
MYSQL_HOST = 'localhost'
MYSQL_PORT = '3306'
MYSQL_USER = 'root'
MYSQL_PASSWORD = '12345678'
MYSQL_DB = 'stocks'
### 使用pandas to_sql写入数据
engine = create_engine('mysql+pymysql://%s:%s@%s:%s/%s?charset=utf8'% (MYSQL_USER, MYSQL_PASSWORD, MYSQL_HOST, MYSQL_PORT, MYSQL_DB))
#engine = create_engine(conn)
df = pd.DataFrame(all_products,columns=keys)
#replce 清除并重写,append 叠加数据
df.to_sql('test_ifeng',engine, if_exists='replace', index=False)
#raise SystemExit
OK,这样我们就能看到mysql数据库存入了相关的数据
这是昨天爬虫入库的完整代码,有三种写入数据库的办法
import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd
from sqlalchemy import create_engine
url = 'http://www.ifeng.com'
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
# 设置headers
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",
}
# 设置cookies
cookies = {}
cookies['mall'] = '1638237165.7.1148.523814'
cookies['JSESSIONID'] = '7D7F08E6CAC6989FDE82EBDEBBF9CB21'
# 发起请求
res = requests.get(url, cookies=cookies, headers=headers, timeout=5)
#res = requests.get(url)
#title = soup.title.text
all_products = []
#print(soup)
products = soup.select('p.index_news_list_p_5zOEF')
#raise SystemExit
for product in products:
title = product.select('a')[0].text
url = product.select('a')[0].attrs['href']
all_products.append({
"biaoti":title,
"link": url
})
#csv写入办法
keys = all_products[0].keys()
with open('ifeng新闻.csv', 'w', newline='', encoding='utf-8-sig') as output_file:
dict_writer = csv.DictWriter(output_file, keys)
dict_writer.writeheader()
dict_writer.writerows(all_products)
MYSQL_HOST = 'localhost'
MYSQL_PORT = '3306'
MYSQL_USER = 'root'
MYSQL_PASSWORD = '12345678'
MYSQL_DB = 'stocks'
### 使用pandas to_sql写入数据
engine = create_engine('mysql+pymysql://%s:%s@%s:%s/%s?charset=utf8'% (MYSQL_USER, MYSQL_PASSWORD, MYSQL_HOST, MYSQL_PORT, MYSQL_DB))
#engine = create_engine(conn)
df = pd.DataFrame(all_products,columns=keys)
#replce 清除并重写,append 叠加数据
df.to_sql('test_ifeng',engine, if_exists='replace', index=False)
#raise SystemExit
### 使用pandas to_csv写入数据
pd.DataFrame(all_products,columns=keys).to_csv('ifeng新闻1.csv', encoding='utf-8-sig')
相关推荐
- git的撤销、删除和版本回退_git撤销删除的文件
-
备注:本文参考于廖雪峰的博客Git教程。依照其博客进行学习和记录,感谢其无私分享,也欢迎各位查看原文。知识点:1、gitstatus,查看git仓库的状态2、gitdiff查看git修改了的内容...
- 程序员开发必会之git常用命令,git配置、拉取、提交、分支管理
-
整理日常开发过程中经常使用的git命令!git配置SSH刚进入项目开发中,我们首先需要配置git的config、配置SSH方式拉取代码,以后就免输入账号密码了!#按顺序执行gitconfig-...
- Git使用指南 | 教你轻松学会Git_git用法详解
-
4000字,教大家学会Git使用。一、Git基础1、Git介绍Git是目前世界上最先进的分布式版本控制系统。版本控制系统:设计师在设计的时候做了很多版本经过了数天去问设计师每个版本都改了些啥,设计师此...
- 深入浅出 Git_深入浅出 gRPC
-
git初体验使用git前需设置用户名和Email,这些信息会出现在提交记录中以标识作者。gitconfig--globaluser.name"YeHanlin"gitc...
- Git不提交指定文件的方法_git不提交指定文件的方法有哪些
-
大家在开发项目的时候都很喜欢使用git作为代码管理工具,但是在开发项目的时候我们的本地配置文件不应该覆盖服务器中的配置文件,我们使用命令gitstatus查看待提交文件的时候需要注意不要把本地的配...
- 相见恨晚的 Git 命令动画演示,一看就懂
-
虽然Git是一个强大的工具,但是我觉得大部分人都会同意我说的:它也可以是一个……噩梦!我一直觉得,使用Git的时候把操作过程在脑海里视觉化会非常有用:当我执行某个命令的时候,分支之间是如何交互...
- GitCode的一些命令_git命令大全
-
GitCode的一些命令配置工具对所有本地仓库的用户信息进行配置$gitconfig--globaluser.name"[name]"对你的commit操作设置关联的用户名$...
- 【git】 如何删除所有 tag(本地和远程)
-
要删除所有本地和远程的Git标签,可以按照以下步骤进行:删除本地标签首先,删除本地标签。你可以使用以下命令删除本地的所有标签:gittag-d$(gittag-l)这将列出并删除所有本地...
- 互联网大漏洞:每600个网站就有1个暴露了.git文件夹
-
对于Web开发人员来说,向外界暴露你的.git文件夹绝对是一个菜鸟级错误。因为这样会允许任何人下载你的整个源代码存储库,包括数据库密码、加密盐、Hash和第三方接口密钥API,还有你的用户名和密码。多...
- git常用命令整理_git 常用
-
一、Git仓库完整迁移完整迁移,就是指,不仅将所有代码移植到新的仓库,而且要保留所有的commit记录1.随便找个文件夹,从原地址克隆一份裸版本库gitclone--bare旧的git地址...
- 项目常用GIT操作命令_git常用操作命令 简书
-
Git仓库更新依赖的命令:gradle--refresh-dependenciesgradleaR完全编译;./gradlewecomm:packages:telephony:larges...
- 【超详细】Git 所有常用命令 + 提交规范全指南(建议收藏!)
-
Git命令大全初始化类命令作用gitinit初始化一个本地Git仓库(当前目录会出现.git文件夹)gitclone<仓库地址>克隆远程仓库到本地,一般用来拉项目提交代...
- Git 常用的alias命令大全_git -a
-
Git的alias(别名)功能可以将常用的复杂命令简化,大幅提升操作效率。以下是一些实用的Gitalias配置和常用示例:一、配置alias的方法通过gitconfig命令设置,分...
- Git使用教程:最详细、最傻瓜、最浅显、真正手把手教
-
导读:因为教程详细,所以行文有些长,新手边看边操作效果出乎你的预料。GitHub虽然有些许改版,但并无大碍。一、Git是什么?Git是目前世界上最先进的分布式版本控制系统。工作原理/流程:Work...
- 实用干货分享(3)- Git常用操作干货分享
-
官方学习地址https://git-scm.com/book/zh/v2简单的代码提交流程1.gitstatus查看工作区代码相对于暂存区的差别;2.gitadd.将当前目录下修改的所有...
- 一周热门
-
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
飞牛OS入门安装遇到问题,如何解决?
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)