百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

Python 爬虫之Scrapy《下》

liuian 2024-12-07 14:59 17 浏览

今天这篇文章主要是分享两个技术点。
第一翻页数据如何处理;
第二构建一个db pipeline来获取数据并入库。


第一部分:翻页处理

在前面的文章中已经能够正常地提取我们想要的页面数据了,但是这只是一个页面想要的数据,如果是有很多页面的数据要处理,我们如何来爬取了。

page=1
start_urls=[] #这个是scrapy框架中定义好的,不可以修改
while (page < 7): #根据自身爬取的页面来定义
    print("the page is:", page)
    url = 'http://lab.scrapyd.cn/page/' + str(page) #对翻页的链接进行拼接
    start_urls.append(url) #追加到上面定义好的列表中去
    page += 1 #好让循环可以退出


def parse(self, response):
    items=LabItem()
    for sel in response.xpath('//div[@class="col-mb-12 col-8"]'):
        print(sel)
        for i in range(len(sel.xpath('//div[@class="quote post"]//span[@class="text"]/text()'))):
            title = sel.xpath('//div[@class="quote post"]//span[@class="text"]/text()')[i].get()
            author = sel.xpath('//div[@class="quote post"]//small[@class="author"]/text()')[i].get()
            items["title"]=title
            items["author"] = author
            yield items

源码中会不断的遍历start_urls这个列表里面的链接地址,并向这个列表里面的链接地址发出request请求,拿到response后再来解析页面数据,源码如下图所示:



第二部分:db pipeline 数据处理

Step1: 创建数据库与表,如下图所示


Step2: 创建sqlitePipeline类并配置setting.py文件

sqlitePipeline类代码如下:
class sqlitePipeline(object):


    def __init__(self):
        print("当爬虫执行开始的时候回调:open_spider")
        self.conn = sqlite3.connect("test.db")
        self.cur = self.conn.cursor()
        self.table='''
        create TABLE IF NOT EXISTS scrapy0725( 
         id  INTEGER   PRIMARY KEY AUTOINCREMENT,
            `author` varchar(255) DEFAULT NULL,
            `title` varchar(2000) DEFAULT NULL
         );
        '''
        self.cur.execute(self.table)




    def process_item(self, item, spider):
        print("开始处理每一条提取出来的数据==============")
        # content = json.dumps(dict(item),ensure_ascii=False)+"\n"
        content = dict(item)
        print("*" * 100)
        insert_sql="INSERT INTO scrapy0725 (author,title) VALUES ('"+str(content['author']).replace("'","")+"','"+str(content['title']).replace("'","")+"')"
        print(insert_sql)
        print("*"*100)
        self.cur.execute(insert_sql)
        self.conn.commit()
        print("*"*100)
        return item


    def close_spider(self, spider):
        sql = "select * from scrapy0725"
        result=self.cur.execute(sql)
        for res in result:
            print(res)
        self.cur.close()
        self.conn.close()
        print("当爬虫执行结束的时候回调:close_spider")


setting.py 配置如下:
ITEM_PIPELINES = {
   'lab.pipelines.sqlitePipeline':500,
   # 'lab.pipelines.FilePipeline': 300,
}


Step3: 执行此命令 scrapy crawl labs

Step4: 查询数据库是否insert成功,如下图所示:

总结:

Python + Scrapy爬虫的文章暂时就分享到这里,Scrapy的爬虫效率还是不错的,大家动手开始实践吧。

相关推荐

GCI: Another key public good for international community

MembersofadelegationofhighschoolstudentsfromtheU.S.stateofWashingtonposeforaphotoa...

kube on kube 实现思路分享(kube-scheduler)

这里的kubeonkube,是指建立K8s元集群,纳管其他业务K8s集群,通过声明式API管理集群的创建、增删节点等。参考https://github.com/kubean-i...

China and India hold the key to a more inclusive global future

ByMayaMajueranLead:AsChinaandIndiamark75yearsofdiplomaticties,theircooperationcouldse...

日本真子公主的婚礼又要提上日程了吗?未婚夫:债务问题已解决

日本明仁天皇将于今年3月31日退位,德仁皇太子即将成为新一任的天皇。在平成时代最后的倒计时中,明仁天皇的孙女真子公主的婚事却又一次进入了人们的视野。(viaTheTelegraph)关注日本皇室的...

kratos源码分析系列(1)(kvm源码解析与应用 pdf)

https://github.com/go-kratos/kratos是b站开源的一个微服务框架,整体来看它结合grpc生态中的grpc-gateway,以及wire依赖注入和众多常用的trace,m...

【2.C#基础】6.循环语句(c#循环语句例子)

6.循环语句当需要多次执行同一个处理时,就需要用到循环语句。一般情况下,循环的流程图如下:6.1while循环C#中的while循环语句在给定的条件为真的情况下会重复执行目标语句。格式如下:...

使用 Google Wire 在 Go 中进行依赖注入

关注点分离、松耦合系统和依赖反转原则等概念在软件工程中是众所周知的,并且在创建良好的计算机程序过程中至关重要。在本文中,我们将讨论一个同时应用了这三个原则的技术,称为依赖注入。我们将尽可能地实践,更加...

用 Golang封装你的API(golang封装dll)
用 Golang封装你的API(golang封装dll)

每日分享最新,最流行的软件开发知识与最新行业趋势,希望大家能够一键三连,多多支持,跪求关注,点赞,留言。@头条创作挑战赛本文探讨了在用Golang封装你的API的过程以及几个不同的编程步骤。我做了一个非常有限的时间来证明如何为客户正在开...

2025-05-09 20:03 liuian

Terraform 实战 | 万字长文(terrify是什么意思中文)

Terraform是什么Terraform(https://www.terraform.io/)是HashiCorp旗下的一款开源(Go语言开发)的DevOps基础架构资源管理运维工具,可...

Go 语言入门:环境安装(go语言安装 window)

一、前言这里不同于其他人的Go语言入门,环境安装我向来注重配置,比如依赖包、缓存的默认目录。因为前期不弄好,后面要整理又影响这影响那的,所以就干脆写成文章,方便后期捡起。二、安装1.安装包htt...

Go语言进阶之Go语言高性能Web框架Iris项目实战-项目结构优化EP05

前文再续,上一回我们完成了用户管理模块的CURD(增删改查)功能,功能层面,无甚大观,但有一个结构性的缺陷显而易见,那就是项目结构过度耦合,项目的耦合性(Coupling),也叫耦合度,进而言之,模块...

如何将Go项目与Docker结合实现高效部署

在现代软件开发中,使用Docker部署应用程序已经成为一种标准实践。本文将深入探讨如何将Go项目与Docker结合,实现高效、可靠的部署过程。通过详细的步骤和丰富的示例,你将能够迅速掌握这一流程。准备...

五分钟轻松熟悉一个k8s Operator应用制作

简介:operator是一种kubernetes的扩展形式,可以帮助用户以Kubernetes的声明式API风格自定义来管理应用及服务,operator已经成为分布式应用在k8s集群部...

程序员的副业秘籍!一款可以快速搭建各类系统的后台管理系统

系统简介这是一个基于Gin+Vue+ElementUI(或ArcoDesign、AntDesign)的系统快速开发平台,采用了前后端分离,旨在帮助用户快速完成各类系统的基础功能搭建。平...

使用 Go 语言开发区块链钱包的项目目录结构设计

在开发区块链钱包时,项目的目录结构应该清晰、模块化,确保代码的可维护性和扩展性。基于Go的惯例,结合区块链钱包的功能需求,以下是一个较为合理的目录结构示例:1.目录结构blockchain-wa...