百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

C#基于浏览器内核的高级爬虫(c#爬取网页内容)

liuian 2025-05-05 17:01 54 浏览

基于C#.NET+PhantomJS+Sellenium的高级网络爬虫程序。可执行Javascript代码、触发各类事件、操纵页面Dom结构、甚至可以移除不喜欢的CSS样式。

很多网站都用Ajax动态加载、翻页,比如携程网的评论数据。如果是用之前那个简单的爬虫,是很难直接抓取到所有评论数据的,我们需要去分析那漫天的Javascript代码寻找API数据接口,还要时刻提防对方增加数据陷阱或修改API接口地。

如果通过高级爬虫,就可以完全无视这些问题,无论他们如何加密Javascript代码来隐藏API接口,最终的数据都必要呈现在网站页面上的Dom结构中,不然普通用户也就没法看到了。所以我们可以完全不分析API数据接口,直接从Dom中提取数据,甚至都不需要写那复杂的正则表达式。


主要特性

  • 支持Ajax请求事件的触发及捕获;
  • 支持异步并发抓取;
  • 支持自动事件通知;
  • 支持代理切换;
  • 支持操作Cookies;


运行截图

  • 抓取酒店数据


  • 抓取评论数据


示例代码

 /// <summary>
    /// 抓取酒店评论
    /// </summary>
	static void Main(string[] args)
    {
        var hotelUrl = "http://hotels.ctrip.com/hotel/434938.html";
        var hotelCrawler = new StrongCrawler();
        hotelCrawler.OnStart += (s, e) =>
        {
            Console.WriteLine("爬虫开始抓取地址:" + e.Uri.ToString());
        };
        hotelCrawler.OnError += (s, e) =>
        {
            Console.WriteLine("爬虫抓取出现错误:" + e.Uri.ToString() + ",异常消息:" + e.Exception.ToString());
        };
        hotelCrawler.OnCompleted += (s, e) =>
        {
            HotelCrawler(e);
        };
        var operation = new Operation
        {
            Action = (x) => {
                //通过Selenium驱动点击页面的“酒店评论”
                x.FindElement(By.XPath("//*[@id='commentTab']")).Click();
            },
            Condition = (x) => {
                //判断Ajax评论内容是否已经加载成功
                return x.FindElement(By.XPath("//*[@id='commentList']")).Displayed && x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Displayed && !x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Text.Contains("点评载入中");
            },
            Timeout = 5000
        };

        hotelCrawler.Start(new Uri(hotelUrl), null, operation);//不操作JS先将参数设置为NULL

        Console.ReadKey();
    }

github:https://github.com/microfisher/Strong-Web-Crawler

相关推荐

win10官网下载教程(windows官网下载win10)

步骤1首先打开360安全浏览器步骤2在搜索框中输入“微软官网”,点击“搜索”按钮步骤3点击进入微软官网步骤4下滑界面,在下方可以看到可以下载的系统,此处以windows10企业版下载为例,点击这个版本...

恢复帝app下载(恢复帝app官方)

微信删除好友一般是不能恢复的,有时候在网上会看到一些关于微信删除好友可以帮助恢复的黑客,大多数都是骗人的,因此,再着急恢复好友也需要理智、谨防上当受骗。1.电源:首先确认摄像头通电是否正常状态,指示灯...

系统之家下载安装(系统之家安装版)

是靠谱的。系统之家(HomeSystem)广义上包含了电脑系统安装和手机系统安装,在之前手机软件还不是很普及的时候一般特指电脑系统安装,可如今手机用户大量的出现,安卓系统可以说超过Windows系统...

win10正版系统官网原版纯净版老电脑

一,纯净版Win10系统是根据正版系统制作的,没有夹杂其它软件和驱动,和正版系统一样安装完后需要打各种驱动和根据安装常用软件。二,本质上纯净版Win10也是盗版系统,这是和正版系统最大的区别,而且可能...

十大最好用的浏览器(市面上最好用的浏览器)

1、谷歌chrone  谷歌美国Google公司开发的一款浏览器,谷歌浏览器的特点就是界面简洁,速度快不卡顿,内容全面,你想要找到内容上面都有,就是在安装插件的方面会比较麻烦,不过看在它那么好用的份...

ipad充不上电了怎么办(ipad充不上电怎么办但显示在充电)

 原因和解决办法: 1、ipad充不进去电很可能是充电线的原因,假如大家在给ipad充电的时候以前经常有过接触不良的情况,那么,你就需要考虑更换充电线了。  2、第二,就是接口问题了,或者说是充电...

怎样取消开机启动项目(如何取消开机启动程序)

在Windows操作系统中,有一些程序或服务可能会在计算机启动时自动运行,这些程序或服务也被称为开机启动项。如果您希望在启动Windows时减少计算机运行的程序或服务数量,您可以关闭一些开机启...

纯净版win7完整版ghost下载(纯净版的win7)

1、去微软官方网站下载。2、去系统之家下载,我自己的win10就是从哪里下载安装的,你可以试试哈。ghost镜像的使用一、备份主分区--C盘:假设你的操作系统安装在主分区--C盘,当系统重装不久,或...

联想台式机重装系统按哪个键

联想电脑第一部,如果像进入装系统的界面,必须按f8,if8进入装系统的界面,这时候把下载好的U盘系统安装包直接插在主机上,直接就可以安装系统了,大概20分钟后就可以安装系统,安装系统就可以正常使用了...

360无法卸载怎么办(360卸载不了最简单三个步骤)

开启了自我保护,关闭即可。解决方法如下:准备材料:360安全卫士、电脑1、在电脑上打开安全卫士,进去之后,点击右上方的列表图标,选择设置,2、进去安全卫士设置界面之后,点击安全防护中心,3、进去安全防...

戴尔笔记本电脑没有声音怎么解决

右击“我的电脑”----“属性”---“硬件”----“设备管理器”,打开“声音、视频和游戏控制器”有无问题,即看前面有没有出现黄色的小图标,如有,重新安装这个设备的驱动程序进行解决。加强麦克风:右...

如何给无线路由器设置密码(如何给无线路由器设置密码教程)

1、使用路由器的管理界面,找到密码设置选项,输入想要设置的新密码。   2、再次输入新密码,以便确认输入的密码正确无误。   3、保...

windows7旗舰版激活序列号(win7旗舰 激活码)

一、Windows7旗舰版激活密钥零售版:Windows7UltimateRetail永久序列号【尝试联网激活,如果不能激活,可电话激活】[Key]:RHTBY-VWY6D-QJRJ9-JGQ...

联想电脑如何重置系统(联想电脑 重置系统)

联想进入bios界面重置系统方法:1、将电脑关机,按下一键恢复按钮(需确保笔记本屏盖在打开状态),不同的联想笔记本机型按钮位置不同,操作也不一样1)如果是此按钮,按住5秒钟等待出现还原界面2)针孔式按...

电脑加密文件夹怎么弄(电脑加密文件夹怎么弄出来)

要在电脑中加密文件夹,可以使用加密软件或操作系统提供的加密功能。使用加密软件,你可以选择文件夹并设置密码来保护其内容。这样,只有输入正确密码的人才能访问文件夹中的文件。另外,某些操作系统也提供了加密文...