百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

C#基于浏览器内核的高级爬虫(c#爬取网页内容)

liuian 2025-05-05 17:01 42 浏览

基于C#.NET+PhantomJS+Sellenium的高级网络爬虫程序。可执行Javascript代码、触发各类事件、操纵页面Dom结构、甚至可以移除不喜欢的CSS样式。

很多网站都用Ajax动态加载、翻页,比如携程网的评论数据。如果是用之前那个简单的爬虫,是很难直接抓取到所有评论数据的,我们需要去分析那漫天的Javascript代码寻找API数据接口,还要时刻提防对方增加数据陷阱或修改API接口地。

如果通过高级爬虫,就可以完全无视这些问题,无论他们如何加密Javascript代码来隐藏API接口,最终的数据都必要呈现在网站页面上的Dom结构中,不然普通用户也就没法看到了。所以我们可以完全不分析API数据接口,直接从Dom中提取数据,甚至都不需要写那复杂的正则表达式。


主要特性

  • 支持Ajax请求事件的触发及捕获;
  • 支持异步并发抓取;
  • 支持自动事件通知;
  • 支持代理切换;
  • 支持操作Cookies;


运行截图

  • 抓取酒店数据


  • 抓取评论数据


示例代码

 /// <summary>
    /// 抓取酒店评论
    /// </summary>
	static void Main(string[] args)
    {
        var hotelUrl = "http://hotels.ctrip.com/hotel/434938.html";
        var hotelCrawler = new StrongCrawler();
        hotelCrawler.OnStart += (s, e) =>
        {
            Console.WriteLine("爬虫开始抓取地址:" + e.Uri.ToString());
        };
        hotelCrawler.OnError += (s, e) =>
        {
            Console.WriteLine("爬虫抓取出现错误:" + e.Uri.ToString() + ",异常消息:" + e.Exception.ToString());
        };
        hotelCrawler.OnCompleted += (s, e) =>
        {
            HotelCrawler(e);
        };
        var operation = new Operation
        {
            Action = (x) => {
                //通过Selenium驱动点击页面的“酒店评论”
                x.FindElement(By.XPath("//*[@id='commentTab']")).Click();
            },
            Condition = (x) => {
                //判断Ajax评论内容是否已经加载成功
                return x.FindElement(By.XPath("//*[@id='commentList']")).Displayed && x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Displayed && !x.FindElement(By.XPath("//*[@id='hotel_info_comment']/div[@id='commentList']")).Text.Contains("点评载入中");
            },
            Timeout = 5000
        };

        hotelCrawler.Start(new Uri(hotelUrl), null, operation);//不操作JS先将参数设置为NULL

        Console.ReadKey();
    }

github:https://github.com/microfisher/Strong-Web-Crawler

相关推荐

PHPMAILER实现PHP发邮件功能php实例

这篇文章主要为大家详细介绍了PHPMAILER实现PHP发邮件功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下本文实例为大家分享了PHPMAILER实现PHP发邮件功能的具体代码,供大家参考,具...

Cacti监控服务器配置教程(基于CentOS+Nginx+MySQL+PHP环境搭建)

具体案例:局域网内有两台主机,一台Linux、一台Windows,现在需要配置一台Cacti监控服务器对这两台主机进行监控环境说明:1、Linux主机操作系统:CentOS6.2IP地址:192.1...

如何在webmin中配置多个PHP版本_怎么配置php

请关注本头条号,每天坚持更新原创干货技术文章。如需学习视频,请在微信搜索公众号“智传网优”直接开始自助视频学习1.前言如何在webmin中配置多个PHP版本?本教程将会给您一些启示和操作案例。Web...

详解Drupal安装步骤_drools安装

DrupalDrupal是一个基于PHP语言编写的开源的内容管理系统(CMS:ContentManagementSystem),和Wordpress等CMS一样提供主题。在这里详细介绍一下安装Dr...

nternet 信息服务(IIS) 升级为IIS 6.0

 WindowsServer2003中Internet信息服务(IIS)升级为IIS6.0,其安全性更高。默认情况下,WindowsServer2003没有安装IIS6.0,要通过...

Php JIT 使用详解_php的!

简介PHP8引入的JIT(Just-In-Time编译器)是该版本的一个重要性能特性,首次让PHP有了运行时即时编译的能力,从解释型语言迈向了“编译执行”的方向。什么是JIT?JIT...

php 常见配置详解_php cgi配置

以下是PHP常见的配置项及其含义:error_reporting:设置错误报告级别,可以控制PHP显示哪些错误。例如,设置为E_ALL将显示所有错误,而设置为0将禁止显示任何错误。displa...

技巧:PHP版本怎样隐藏在Linux服务器

通常情况下,大多数安装web服务器软件的默认设置存在信息泄露,这些软件其中之一就是PHP。PHP是如今最流行的服务端html嵌入式语言之一。而在如今这个充满挑战的时代,有许多黑客会尝试发现你服务端的漏...

PHP八大安全函数解析_php安全设置

在现代互联网中,我们经常要从世界各地的用户中获得输入数据。但是,我们都知道“永远不能相信那些用户输入的数据”。所以在各种的Web开发语言中,都会提供保证用户输入数据安全的函数。在PHP中,有些非常有...

win7下apache+mysql+php安装配置_win7 mysql安装配置教程

一.首先下载好要用的apache版本:http://httpd.apache.org/download.cgimysql版本:http://dev.mysql.com/downloads/mys...

phpmyadmin取消最大文件限制的更改解决方法

用phpmyadmin导入大数据库的时候出现:Nodatawasreceivedtoimport.Eithernofilenamewassubmitted,orthefi...

成功安装 Magento2.4.3最新版教程「技术干货」

外贸独立站设计公司xingbell.com经过多次的反复实验,最新版的magento2.4.3在oneinstack的环境下的详细安装教程如下:一.vps系统:LinuxCentOS7.7.19...

CentOS、Nginx、PHP、MySQL的安装和配置记录

安装LNMP安装wget工具(可选) yuminstall-ywget下载Nginx wgethttp://www.atomicorp.com/installers/ato...

PHP扩展开发之路(二)_php扩展直接执行php代码

昨日,Jamlee发布了PHP扩展开发之路(一),今日再来续集,哈哈,会不会更有趣呢!不说多的,直接来!##0x2helloworld!,你的第一个php扩展##阅读前必看小贴士:如果你不想在本...

比较常见类型漏洞讲解(一)_常见漏洞的特点及危害

这里介绍一些手动挖掘漏洞时比较容易找到的漏洞,根据不同类型的漏洞来介绍。演示准备目标主机:Metasploitable2攻击目标:目标主机的dvwa系统攻击机:KaliSessionId盗用不知道你们...