C#基于浏览器内核的高级爬虫(c#爬取网页内容)
liuian 2025-05-05 17:01 54 浏览
基于C#.NET+PhantomJS+Sellenium的高级网络爬虫程序。可执行Javascript代码、触发各类事件、操纵页面Dom结构、甚至可以移除不喜欢的CSS样式。
很多网站都用Ajax动态加载、翻页,比如携程网的评论数据。如果是用之前那个简单的爬虫,是很难直接抓取到所有评论数据的,我们需要去分析那漫天的Javascript代码寻找API数据接口,还要时刻提防对方增加数据陷阱或修改API接口地。
如果通过高级爬虫,就可以完全无视这些问题,无论他们如何加密Javascript代码来隐藏API接口,最终的数据都必要呈现在网站页面上的Dom结构中,不然普通用户也就没法看到了。所以我们可以完全不分析API数据接口,直接从Dom中提取数据,甚至都不需要写那复杂的正则表达式。
主要特性
- 支持Ajax请求事件的触发及捕获;
- 支持异步并发抓取;
- 支持自动事件通知;
- 支持代理切换;
- 支持操作Cookies;
运行截图
- 抓取酒店数据
- 抓取评论数据
示例代码
/// <summary>
/// 抓取酒店评论
/// </summary>
static void Main(string[] args)
{
var hotelUrl = "http://hotels.ctrip.com/hotel/434938.html";
var hotelCrawler = new StrongCrawler();
hotelCrawler.OnStart += (s, e) =>
{
Console.WriteLine("爬虫开始抓取地址:" + e.Uri.ToString());
};
hotelCrawler.OnError += (s, e) =>
{
Console.WriteLine("爬虫抓取出现错误:" + e.Uri.ToString() + ",异常消息:" + e.Exception.ToString());
};
hotelCrawler.OnCompleted += (s, e) =>
{
HotelCrawler(e);
};
var operation = new Operation
{
Action = (x) => {
//通过Selenium驱动点击页面的“酒店评论”
x.FindElement(By.XPath("//*[@id='commentTab']")).Click();
},
Condition = (x) => {
//判断Ajax评论内容是否已经加载成功
return x.FindElement(By.XPath("//*[@id='commentList']")).Displayed && x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Displayed && !x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Text.Contains("点评载入中");
},
Timeout = 5000
};
hotelCrawler.Start(new Uri(hotelUrl), null, operation);//不操作JS先将参数设置为NULL
Console.ReadKey();
}
github:https://github.com/microfisher/Strong-Web-Crawler相关推荐
- win10官网下载教程(windows官网下载win10)
-
步骤1首先打开360安全浏览器步骤2在搜索框中输入“微软官网”,点击“搜索”按钮步骤3点击进入微软官网步骤4下滑界面,在下方可以看到可以下载的系统,此处以windows10企业版下载为例,点击这个版本...
- 恢复帝app下载(恢复帝app官方)
-
微信删除好友一般是不能恢复的,有时候在网上会看到一些关于微信删除好友可以帮助恢复的黑客,大多数都是骗人的,因此,再着急恢复好友也需要理智、谨防上当受骗。1.电源:首先确认摄像头通电是否正常状态,指示灯...
- 系统之家下载安装(系统之家安装版)
-
是靠谱的。系统之家(HomeSystem)广义上包含了电脑系统安装和手机系统安装,在之前手机软件还不是很普及的时候一般特指电脑系统安装,可如今手机用户大量的出现,安卓系统可以说超过Windows系统...
- win10正版系统官网原版纯净版老电脑
-
一,纯净版Win10系统是根据正版系统制作的,没有夹杂其它软件和驱动,和正版系统一样安装完后需要打各种驱动和根据安装常用软件。二,本质上纯净版Win10也是盗版系统,这是和正版系统最大的区别,而且可能...
- 十大最好用的浏览器(市面上最好用的浏览器)
-
1、谷歌chrone 谷歌美国Google公司开发的一款浏览器,谷歌浏览器的特点就是界面简洁,速度快不卡顿,内容全面,你想要找到内容上面都有,就是在安装插件的方面会比较麻烦,不过看在它那么好用的份...
- ipad充不上电了怎么办(ipad充不上电怎么办但显示在充电)
-
原因和解决办法: 1、ipad充不进去电很可能是充电线的原因,假如大家在给ipad充电的时候以前经常有过接触不良的情况,那么,你就需要考虑更换充电线了。 2、第二,就是接口问题了,或者说是充电...
- 怎样取消开机启动项目(如何取消开机启动程序)
-
在Windows操作系统中,有一些程序或服务可能会在计算机启动时自动运行,这些程序或服务也被称为开机启动项。如果您希望在启动Windows时减少计算机运行的程序或服务数量,您可以关闭一些开机启...
- 纯净版win7完整版ghost下载(纯净版的win7)
-
1、去微软官方网站下载。2、去系统之家下载,我自己的win10就是从哪里下载安装的,你可以试试哈。ghost镜像的使用一、备份主分区--C盘:假设你的操作系统安装在主分区--C盘,当系统重装不久,或...
- 联想台式机重装系统按哪个键
-
联想电脑第一部,如果像进入装系统的界面,必须按f8,if8进入装系统的界面,这时候把下载好的U盘系统安装包直接插在主机上,直接就可以安装系统了,大概20分钟后就可以安装系统,安装系统就可以正常使用了...
- 360无法卸载怎么办(360卸载不了最简单三个步骤)
-
开启了自我保护,关闭即可。解决方法如下:准备材料:360安全卫士、电脑1、在电脑上打开安全卫士,进去之后,点击右上方的列表图标,选择设置,2、进去安全卫士设置界面之后,点击安全防护中心,3、进去安全防...
- 戴尔笔记本电脑没有声音怎么解决
-
右击“我的电脑”----“属性”---“硬件”----“设备管理器”,打开“声音、视频和游戏控制器”有无问题,即看前面有没有出现黄色的小图标,如有,重新安装这个设备的驱动程序进行解决。加强麦克风:右...
- 如何给无线路由器设置密码(如何给无线路由器设置密码教程)
-
1、使用路由器的管理界面,找到密码设置选项,输入想要设置的新密码。 2、再次输入新密码,以便确认输入的密码正确无误。 3、保...
- windows7旗舰版激活序列号(win7旗舰 激活码)
-
一、Windows7旗舰版激活密钥零售版:Windows7UltimateRetail永久序列号【尝试联网激活,如果不能激活,可电话激活】[Key]:RHTBY-VWY6D-QJRJ9-JGQ...
- 联想电脑如何重置系统(联想电脑 重置系统)
-
联想进入bios界面重置系统方法:1、将电脑关机,按下一键恢复按钮(需确保笔记本屏盖在打开状态),不同的联想笔记本机型按钮位置不同,操作也不一样1)如果是此按钮,按住5秒钟等待出现还原界面2)针孔式按...
- 电脑加密文件夹怎么弄(电脑加密文件夹怎么弄出来)
-
要在电脑中加密文件夹,可以使用加密软件或操作系统提供的加密功能。使用加密软件,你可以选择文件夹并设置密码来保护其内容。这样,只有输入正确密码的人才能访问文件夹中的文件。另外,某些操作系统也提供了加密文...
- 一周热门
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
