百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

C#实现网页爬虫获取数据(c#爬虫全站链接)

liuian 2025-02-04 15:05 59 浏览

1、需求

想要获取网站上所有的气象信息,网站如下所示:

目前总共有67页,随便点开一个如下所示:

需要获取所有天气数据,如果靠一个个点开再一个个复制粘贴那么也不知道什么时候才能完成,这个时候就可以使用C#来实现网页爬虫获取这些数据。

2、效果

先来看下实现的效果,所有数据都已存入数据库中,如下所示:

总共有4万多条数据。

3、具体实现

构建每一页的URL

第一页的网址如下所示:

最后一页的网址如下所示:

可以发现是有规律的,那么就可以先尝试构建出每个页面的URL

// 发送 GET 请求
    string url = "https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/";
    HttpResponseMessage response = await httpClient.GetAsync(url);
    // 处理响应
    if (response.IsSuccessStatusCode)
    {
        string responseBody = await response.Content.ReadAsStringAsync();
        doc.LoadHtml(responseBody);
        //获取需要的数据所在的节点
        var node = doc.DocumentNode.SelectSingleNode("//div[@class=\"page\"]/script");
        string rawText = node.InnerText.Trim();
        // 使用正则表达式来匹配页数数据
        Regex regex = new Regex(@"\b(\d+)\b");
        Match match = regex.Match(rawText);
        if (match.Success)
        {
            string pageNumber = match.Groups[1].Value;
            Urls = GetUrls(Convert.ToInt32(pageNumber));
            MessageBox.Show(#34;获取每个页面的URL成功,总页面数为:{Urls.Length}");
        }
    }
 //构造每一页的URL
 public string[] GetUrls(int pageNumber)
 {
     string[] urls = new string[pageNumber];
     for (int i = 0; i < urls.Length; i++)
     {
         if (i == 0)
         {
             urls[i] = "https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/index.shtml";
         }
         else
         {
             urls[i] = #34;https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/index_{i}.shtml";
         }
     }
     return urls;
 }


这里使用了HtmlAgilityPack

HtmlAgilityPack(HAP)是一个用于处理HTML文档的.NET库。它允许你方便地从HTML文档中提取信息,修改HTML结构,并执行其他HTML文档相关的操作。HtmlAgilityPack 提供了一种灵活而强大的方式来解析和处理HTML,使得在.NET应用程序中进行网页数据提取和处理变得更加容易。

// 使用HtmlAgilityPack解析网页内容
 var doc = new HtmlAgilityPack.HtmlDocument();
 doc.LoadHtml("需要解析的Html");
 //获取需要的数据所在的节点
var node = doc.DocumentNode.SelectSingleNode("XPath");


那么XPath是什么呢?

XPath(XML Path Language)是一种用于在XML文档中定位和选择节点的语言。它是W3C(World Wide Web Consortium)的标准,通常用于在XML文档中执行查询操作。XPath提供了一种简洁而强大的方式来导航和操作XML文档的内容。

构建每一天的URL

获取到了每一页的URL之后,我们发现在每一页的URL都可以获取关于每一天的URL信息,如下所示:

可以进一步构建每一天的URL,同时可以根据a的文本获取时间,当然也可以通过其他方式获取时间,但是这种可以获取到11点或者17点。

代码如下所示:

for (int i = 0; i < Urls.Length; i++)
    {
        // 发送 GET 请求
        string url2 = Urls[i];
        HttpResponseMessage response2 = await httpClient.GetAsync(url2);
        // 处理响应
        if (response2.IsSuccessStatusCode)
        {
            string responseBody2 = await response2.Content.ReadAsStringAsync();
            doc.LoadHtml(responseBody2);
            var nodes = doc.DocumentNode.SelectNodes("//div[@class=\"lie\"]/ul/li");
            for (int j = 0; j < nodes.Count; j++)
            {
                var name = nodes[j].ChildNodes[3].InnerText;
                //只有name符合下面的格式才能成功转换为时间,所以这里需要有一个判断
                if (name != "" && name.Contains("气象预告"))
                {
                    var dayUrl = new DayUrl();
                    //string format;
                    //DateTime date;
                    // 定义日期时间格式
                    string format = "yyyy年M月d日H点气象预告";
                    // 解析字符串为DateTime
                    DateTime date = DateTime.ParseExact(name, format, null);
                    var a = nodes[j].ChildNodes[3];
                    string urlText = a.GetAttributeValue("href", "");
                    string newValue = "https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/";
                    string realUrl = "";
                    realUrl = newValue + urlText.Substring(1);
                    dayUrl.Date = date;
                    dayUrl.Url = realUrl;
                    dayUrlList.Add(dayUrl);
                }
                else
                {
                    Debug.WriteLine(#34;在{name}处,判断不符合要求");
                }
            }
        }
    }
    // 将数据存入SQLite数据库
    db.Insertable(dayUrlList.OrderBy(x => x.Date).ToList()).ExecuteCommand();
    MessageBox.Show(#34;获取每天的URL成功,共有{dayUrlList.Count}条");
}


在这一步骤需要注意的是XPath的书写,以及每一天URL的构建,以及时间的获取。

XPath的书写:

var nodes = doc.DocumentNode.SelectNodes("//div[@class=\"lie\"]/ul/li");


表示一个类名为"lie"的div下的ul标签下的所有li标签,如下所示:

构建每一天的URL:

var a = nodes[j].ChildNodes[3];
 string urlText = a.GetAttributeValue("href", "");
 string newValue = "https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/";
 string realUrl = "";
 realUrl = newValue + urlText.Substring(1);


这里获取li标签下的a标签,如下所示:

string urlText = a.GetAttributeValue("href", "");


这段代码获取a标签中href属性的值,这里是./202311/t20231127_3103490.shtml。

string urlText = a.GetAttributeValue("href", "");
 string newValue = "https://cj.msa.gov.cn/xxgk/xxgkml/aqxx/qxyg/";
 string realUrl =  newValue + urlText.Substring(1);


这里是在拼接每一天的URL。

var name = nodes[j].ChildNodes[3].InnerText;
 // 定义日期时间格式
string format = "yyyy年M月d日H点气象预告";
 // 解析字符串为DateTime
DateTime date = DateTime.ParseExact(name, format, null);
这里是从文本中获取时间,比如文本的值也就是name的值为:“2023年7月15日17点气象预告”,name获得的date就是2023-7-15 17:00。
    // 将数据存入SQLite数据库
    db.Insertable(dayUrlList.OrderBy(x => x.Date).ToList()).ExecuteCommand();
    MessageBox.Show(#34;获取每天的URL成功,共有{dayUrlList.Count}条");


这里是将数据存入数据库中,ORM使用的是SQLSugar,类DayUrl如下:

internal class DayUrl
{
    [SugarColumn(IsPrimaryKey = true, IsIdentity = true)]
    public int Id { get; set; }
    public DateTime Date { get; set; }
    public string Url { get; set; }
}


最后获取每一天URL的效果如下所示:

获取温度数据

需要获取的内容如下:

设计对应的类如下:

internal class WeatherData
{
    [SugarColumn(IsPrimaryKey = true, IsIdentity = true)]
    public int Id { get; set; }
    public string? StationName { get; set; }
    public string? Weather {  get; set; }
    public string? Tem_Low {  get; set; }
    public string? Tem_High { get; set; }
    public string? Wind {  get; set; }
    public string? Visibility_Low { get; set; }
    public string? Visibility_High { get; set; }
    public string? Fog { get; set; }
    public string? Haze { get; set; }
    public DateTime Date { get; set; }
}


增加了一个时间,方便以后根据时间获取。

获取温度数据的代码如下:

var list = db.Queryable<DayUrl>().ToList();
    for (int i = 0; i < list.Count; i++)
    {
        HttpResponseMessage response = await httpClient.GetAsync(list[i].Url);
        // 处理响应
        if (response.IsSuccessStatusCode)
        {
            string responseBody2 = await response.Content.ReadAsStringAsync();
            doc.LoadHtml(responseBody2);
            var nodes = doc.DocumentNode.SelectNodes("//table");
            if (nodes != null)
            {
                var table = nodes[5];
                var trs = table.SelectNodes("tbody/tr");
                for (int j = 1; j < trs.Count; j++)
                {
                    var tds = trs[j].SelectNodes("td");
                    switch (tds.Count)
                    {
                        case 8:
                            var wd8 = new WeatherData();
                    wd8.StationName = tds[0].InnerText.Trim().Replace(" ", "");
                            wd8.Weather = tds[1].InnerText.Trim().Replace(" ", "");
                            wd8.Tem_Low = tds[2].InnerText.Trim().Replace(" ", "");
                            wd8.Tem_High = tds[3].InnerText.Trim().Replace(" ", "");
                            wd8.Wind = tds[4].InnerText.Trim().Replace(" ", "");
                            wd8.Visibility_Low = tds[5].InnerText.Trim().Replace(" ", "");
                            wd8.Visibility_High = tds[6].InnerText.Trim().Replace(" ", "");
                            wd8.Fog = tds[7].InnerText.Trim().Replace(" ", "");
                            wd8.Date = list[i].Date;
                            weatherDataList.Add(wd8);
                            break;
                        case 9:
                            var wd9 = new WeatherData();
                            wd9.StationName = tds[0].InnerText.Trim().Replace(" ", "");
                            wd9.Weather = tds[1].InnerText.Trim().Replace(" ", "");
                            wd9.Tem_Low = tds[2].InnerText.Trim().Replace(" ", "");
                            wd9.Tem_High = tds[3].InnerText.Trim().Replace(" ", "");
                            wd9.Wind = tds[4].InnerText.Trim().Replace(" ", "");
                            wd9.Visibility_Low = tds[5].InnerText.Trim().Replace(" ", "");
                            wd9.Visibility_High = tds[6].InnerText.Trim().Replace(" ", "");
                            wd9.Fog = tds[7].InnerText.Trim().Replace(" ", "");
                            wd9.Haze = tds[8].InnerText.Trim().Replace(" ", "");
                            wd9.Date = list[i].Date;
                            weatherDataList.Add(wd9);
                            break;
                        default:
                            break;
                    }
                }
            }
            else
            {
                
              
            }
        }
        // 输出进度提示
        Debug.WriteLine(#34;已处理完成第{i}个URL");
    }
    // 将数据存入SQLite数据库
    db.Insertable(weatherDataList.OrderBy(x => x.Date).ToList()).ExecuteCommand();
    MessageBox.Show(#34;获取天气数据成功,共有{weatherDataList.Count}条");
}


这里使用swith case是因为网页的格式并不是一层不变的,有时候少了一列,没有霾的数据。

wd9.StationName = tds[0].InnerText.Trim().Replace(" ", "");


这里对文本进行这样处理是因为原始的数据是“\n内容 \n”,C#中String.Trim()方法会删除字符串前后的空白,string.Replace("a","b")方法会将字符串中的a换成b。

效果如下所示:

将数据全部都存入数据库中了。

4、最后

相关推荐

驱动网卡(怎么从新驱动网卡)
驱动网卡(怎么从新驱动网卡)

网卡一般是指为电脑主机提供有线无线网络功能的适配器。而网卡驱动指的就是电脑连接识别这些网卡型号的桥梁。网卡只有打上了网卡驱动才能正常使用。并不是说所有的网卡一插到电脑上面就能进行数据传输了,他都需要里面芯片组的驱动文件才能支持他进行数据传输...

2026-01-30 00:37 liuian

win10更新助手装系统(微软win10更新助手)

1、点击首页“系统升级”的按钮,给出弹框,告诉用户需要上传IMEI码才能使用升级服务。同时给出同意和取消按钮。华为手机助手2、点击同意,则进入到“系统升级”功能华为手机助手华为手机助手3、在检测界面,...

windows11专业版密钥最新(windows11专业版激活码永久)

 Windows11专业版的正版密钥,我们是对windows的激活所必备的工具。该密钥我们可以通过微软商城或者通过计算机的硬件供应商去购买获得。获得了windows11专业版的正版密钥后,我...

手机删过的软件恢复(手机删除过的软件怎么恢复)
手机删过的软件恢复(手机删除过的软件怎么恢复)

操作步骤:1、首先,我们需要先打开手机。然后在许多图标中找到带有[文件管理]文本的图标,然后单击“文件管理”进入页面。2、进入页面后,我们将在顶部看到一行文本:手机,最新信息,文档,视频,图片,音乐,收藏,最后是我们正在寻找的[更多],单击...

2026-01-29 23:55 liuian

一键ghost手动备份系统步骤(一键ghost 备份)

  步骤1、首先把装有一键GHOST装系统的U盘插在电脑上,然后打开电脑马上按F2或DEL键入BIOS界面,然后就选择BOOT打USDHDD模式选择好,然后按F10键保存,电脑就会马上重启。  步骤...

怎么创建局域网(怎么创建局域网打游戏)

  1、购买路由器一台。进入路由器把dhcp功能打开  2、购买一台交换机。从路由器lan端口拉出一条网线查到交换机的任意一个端口上。  3、两台以上电脑。从交换机任意端口拉出网线插到电脑上(电脑设置...

精灵驱动器官方下载(精灵驱动手机版下载)

是的。驱动精灵是一款集驱动管理和硬件检测于一体的、专业级的驱动管理和维护工具。驱动精灵为用户提供驱动备份、恢复、安装、删除、在线更新等实用功能。1、全新驱动精灵2012引擎,大幅提升硬件和驱动辨识能力...

一键还原系统步骤(一键还原系统有哪些)

1、首先需要下载安装一下Windows一键还原程序,在安装程序窗口中,点击“下一步”,弹出“用户许可协议”窗口,选择“我同意该许可协议的条款”,并点击“下一步”。  2、在弹出的“准备安装”窗口中,可...

电脑加速器哪个好(电脑加速器哪款好)

我认为pp加速器最好用,飞速土豆太懒,急速酷六根本不工作。pp加速器什么网页都加速,太任劳任怨了!以上是个人观点,具体性能请自己试。ps:我家电脑性能很好。迅游加速盒子是可以加速电脑的。因为有过之...

任何u盘都可以做启动盘吗(u盘必须做成启动盘才能装系统吗)

是的,需要注意,U盘的大小要在4G以上,最好是8G以上,因为启动盘里面需要装系统,内存小的话,不能用来安装系统。内存卡或者U盘或者移动硬盘都可以用来做启动盘安装系统。普通的U盘就可以,不过最好U盘...

u盘怎么恢复文件(u盘文件恢复的方法)

开360安全卫士,点击上面的“功能大全”。点击文件恢复然后点击“数据”下的“文件恢复”功能。选择驱动接着选择需要恢复的驱动,选择接入的U盘。点击开始扫描选好就点击中间的“开始扫描”,开始扫描U盘数据。...

系统虚拟内存太低怎么办(系统虚拟内存占用过高什么原因)

1.检查系统虚拟内存使用情况,如果发现有大量的空闲内存,可以尝试释放一些不必要的进程,以释放内存空间。2.如果系统虚拟内存使用率较高,可以尝试增加系统虚拟内存的大小,以便更多的应用程序可以使用更多...

剪贴板权限设置方法(剪贴板访问权限)
剪贴板权限设置方法(剪贴板访问权限)

1、首先打开iphone手机,触碰并按住单词或图像直到显示选择选项。2、其次,然后选取“拷贝”或“剪贴板”。3、勾选需要的“权限”,最后选择开启,即可完成苹果剪贴板权限设置。仅参考1.打开苹果手机设置按钮,点击【通用】。2.点击【键盘】,再...

2026-01-29 21:37 liuian

平板系统重装大师(平板重装win系统)

如果你的平板开不了机,但可以连接上电脑,那就能好办,楼主下载安装个平板刷机王到你的个人电脑上,然后连接你的平板,平板刷机王会自动识别你的平板,平板刷机王上有你平板的我刷机包,楼主点击下载一个,下载完成...

联想官网售后服务网点(联想官网售后服务热线)

联想3c服务中心是联想旗下的官方售后,是基于互联网O2O模式开发的全新服务平台。可以为终端用户提供多品牌手机、电脑以及其他3C类产品的维修、保养和保险服务。根据客户需求层次,联想服务针对个人及家庭客户...