百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

「低代码爬虫系列二」Automa实现一个自动展开微博的爬虫

liuian 2024-12-13 14:53 65 浏览

Automa是一款开源的图形化&低代码爬虫工具,让用户在不懂代码的情况下,通过拖拽方式做一些实用的爬虫。例如爬取微博信息、批量搜索百度、解除某些网站不可复制限制、下载抖音视频、免费看VIP视频等等。

本系列教程将先介绍它的基本使用,然后基于它做一些有趣的项目实践(包括但不限于上述所举的例子)。本文是该系列的第二篇文章,实现一个自动展开微博的爬虫。

第一篇文章参见「低代码爬虫系列一」Automa实现一个天气预报爬虫

一、自动展开微博的爬虫背景

当我们在pc上刷微博时,微博页面会自动对长内容进行折叠。如果想要查看去全文,需要我们一一点击“展开”按钮来查看全文。那能不能实现一个爬虫,打开想要查看的微博页面,自动点击“展开”按钮呢?


二、实现方案

了解了上述背景后,我们使用Automa来实现对应效果。

先给出整个项目的工作流,如下所示,然后我们再一一介绍对应的组件及其参数。



1、触发器

整个工作流的开始节点。每条工作流都有这个触发器组件,默认是手动触发模式。

2、新建标签页

该组件是用于在浏览器中打开一个新的页面,双击该组件,在左侧参数栏填入对应博主的微博页面地址。

3、点击元素

模拟点击页面对应元素。这里我们需要点击每条博文中的“展开”按钮。Automa支持通过css选择器或者xpath来定位元素,通过开发者模式,不难得到“展开”按钮的css选择器为span.expand。在参数设置中勾选多选、等待选择器。


4、滚动元素

模拟页面左右滚动或者上下滚动的效果。由于微博是采用下拉异步加载的方式来实现之前的博文的,所以如果想要看之前的博文,就需要模拟下拉的功能,设置垂直滚动为10000即可。

5、延时

由于页面需要一定的加载时间,这里我们加入一个延时操作。即每次滚动下滑后,等待1000ms;

6、再次点击元素

和步骤3完全相同,对新加载的微博,再次点击“展开”按钮。

7、循环

类似程序设计中的循环功能。这个组件接口略微有点复杂,我们介绍下它的连线接口:

  • 左边接口,连接每次循环的最后一个组件;
  • 右边第一个接口,连接整个循环执行结束后的下一个组件;
  • 右边第二个接口,连接每次循环开始的第一个组件;

还需要设置对应的循环次数,这里我们设为3,表示将第4、5、6的步骤重复三次;


8、回到页面最上方

使用滚动组件,将垂直滚动参数设为-10000,如图所示:



到此,自动展开微博内容的爬虫就已经实现了。我们点击右上角的运行按钮来看下效果。

有朋友可能不仅想要自动展开内容,而且要自动抓取对应微博到excel,这应该如何实现呢?欲知后事如何,请听下回分解~

(如果需要完整例子项目文件、或者对步骤还存在疑问的朋友,可以在评论区留言或者私信)

后面文章会做一些更复杂、更有趣的例子,敬请期待~

如果你有什么想做的爬虫,也可以在评论区留言哦~

相关推荐

C# - StreamWriter与StreamReader 读写文件 101

读写文本文件的方式:1)File静态类的File.ReadAllLines();与File.WriteAllLines();方法进行读写2)FileStream实例类的对象fs.Read();与fs....

第5天:文件操作——与真实世界连接

程序,不只是屏幕上跑,真正有用的程序,能处理文件。今天学习最基础的文件读写:#写入文件withopen('hello.txt','w',encoding=&#...

C语言数据输出和输入介绍

在C语言中,数据的输出和输入是程序与用户或外部环境进行交互的重要方式之一。通过数据的输出,程序可以向用户展示信息或结果;通过数据的输入,程序可以获取用户提供的数据或参数。本文将深入介绍C语言中数据输出...

Python 中Print() 函数的秘密!你知道吗

print()函数通常是初学者遇到的第一个Python函数。它是一个基本工具,是进入编程世界的初始门户。它允许开发人员在程序执行期间展示信息、变量和消息。然而,尽管print()函数无处不...

解决U盘exe病毒,exe病毒查杀

U盘exe病毒难以清除,即使被杀毒软件删除也会复活,相当顽固。我曾深受其害,经过多次尝试,终于找到解决办法。若此方法对您有用,请记得点个赞支持。1、U盘中毒后,根目录下的文件夹会变成隐藏状态,无法直...

利用python数据分析,获取双色球历史中奖信息!(内含详细代码)

前言:毫无例外,基本上是所有人都有一颗中奖的心,不管是有钱的,还是没钱的!你们说对吗?对于技术人员来说,通过技术分析,可以增加中奖几率,现使用python语言收集历史双色球中奖信息,之后进行预测分析。...

C语言实战之文件复制

在C语言中,复制文件可以通过读取源文件的内容并将其写入目标文件来实现。以下是一个简单的示例程序,演示如何复制文件。示例代码#include<stdio.h>#include<s...

用Python一分钟搞定了本要一晚才能做完的800张奖状海报

随着互联网公司的兴起,编程技术越来越吃香,尤其是Python。其实不用说,你也应该发现了,现在稍微有些粉丝的公众号,都接有Python的广告。这说明了什么?说明真的火!但是我今天不是来推Python的...

手把手教你玩转Copy命令

一.简介COPY命令是Windows操作系统中一个广泛使用的命令行工具,它用于复制文件和目录。与在资源管理器中进行操作不同,COPY命令可以通过指定源文件和目标位置来进行复制,使得它可以自动...

学习VB编程第20天,文件读取写入

今天学习了刘金玉老师VB编程教程的第28期,学习的主要内容是文件读取写入。1.dountil......loop循环语句①语法结构dountil条件表达式的值类型符合条件的要执行的代码.........

新手学Python避坑,学习效率狂飙! 二十一、print()函数

感谢大家对《新手学Python避坑,学习效率狂飙!》系列的点赞、关注和收藏,今天这编是这个系列的第二十一个分享,前面还有二十个,大家可以关注下之前发布的文章。下面是我们今天第三个的分享:在Pytho...

如何用python的requests来下载网页内容保存到txt

如何用python的requests来下载网页内容保存到txtimportrequests#定义目标网页和保存路径url="http://www.5a8.com"fil...

Windows下如何将WSL安装到非C盘?三种实用方法分享!

Windows下如何将WSL安装到非C盘?三种实用方法分享!前言随着微软对Linux支持的不断加强,WSL(WindowsSubsystemforLinux)已成为众多开发者的得力工具。然而,很...

C#程序注册成服务

某些时候我们需要一个程序在电脑开机后就自动启动,无界面运行在后台。比如数据上传功能,我们需要在电脑开机后程序就自动启动,上传我们需要的数据,而不是每次开机都要手动去运行程序。1、新建一个项目,该项目实...

怎么在Python中读取和写入文件?

Python是一种高级编程语言,它提供了许多内置函数和模块,可用于读取和写入文件。读取和写入文件是Python编程中非常基本和必要的操作,因为很多应用程序需要从外部文件中读取数据,或将数据写入外部文件...