手把手教你从零开始用Java写爬虫
liuian 2025-01-07 14:14 57 浏览
本文将手把手地教大家从零开始用Java写一个简单地爬虫!
目标
爬取全景网图片,并下载到本地
收获
通过本文,你将复习到:
- IDEA创建工程
- IDEA导入jar包
- 爬虫的基本原理
- Jsoup的基本使用
- File的基本使用
- FileOutputStream的基本使用
- ArrayList的基本使用
- foreach的基本使用
说明
爬虫所用的HTM解析器为Jsoup。Jsoup可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
Jsoup相关API整理见文末附录一。
开始
一、前端分析
1、使用Chrome或其他浏览器,打开全景网,按F12进入调试模式,分析网页结构。(这里选的是“创意”=>“优山美地”)
2、找规律,看图片对应的结构是什么。可以发现,每个图片的结构都如下图红框所示。
3、找到结构后再找图片链接。进一步分析后发现,图片链接可以是下图红框部分。
4、复制到浏览器打开看看验证下。(好吧,访问这个URL直接给我下载了...)
5、前端部分分析完毕,接下来就可以用Java编码了!
二、爬取思路
通过Java向全景网发送GET请求,以获取HTML文件。Jsoup解析后寻找class=item lazy的a标签,他的child节点(即<img>)就是我们要找的目标节点了,搜索到的应当是一个ArrayList。然后遍历集合,从中搜寻图片的URL,并下载到本地保存。(更深一步,可以下载完一页后,继续下载后一页,直至全部下完。本文直讲下载第一页。提示一下,链接后面的topic/1其实就是当前页数)
三、Java编码
1、先下载Jsoup jar包,并导入到IDEA工程中。
2、新建Java工程。
3、简单测试下get请求,若请求成功,则进入下一步;若报错,检查URL是否带了中文。
注意:链接没给,否则文章审核不过,注意自己添加!!!
package com.sxf;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Main {
public static void main(String[] args) {
try {
Document doc = Jsoup.connect("").get(); //这里加链接
System.out.println(doc);
}catch (Exception e){
e.printStackTrace();
}
}
}4、寻找class为item lazy的元素,找到他的child节点,返回ArrayList。并将图片的URL单独提取出来。
注意:链接没给,否则文章审核不过,注意自己添加!!!
注意:链接没给,否则文章审核不过,注意自己添加!!!5、我们先尝试用Jsoup下载一张图片试试效果。
注意:链接没给,否则文章审核不过,注意自己添加!!!
// 获取response
Connection.Response imgRes = Jsoup.connect(URLS.get(0)).ignoreContentType(true).execute();
FileOutputStream out = (new FileOutputStream(new java.io.File("demo.jpg")));
// imgRes.body() 就是图片数据
out.write(imgRes.bodyAsBytes());
out.close();可以看到在当前工程路径下,生成了demo.jpg图片,并且显示正常!
6、接下来,我们要创建一个文件夹,用来专门存放图片。
File相关API整理见文末附录二。
//当前路径下创建Pics文件夹
File file = new File("Pics");
file.mkdir();
System.out.println(file.getAbsolutePath());7、接下来开始遍历图片并下载。由于图片较多,为了简单起见,我们保存图片时候的名称,就从1开始依次增吧。
// 遍历图片并下载
int cnt = 1;
for (String str : URLS) {
System.out.println(">> 正在下载:"+str);
// 获取response
Connection.Response imgRes = Jsoup.connect(str).ignoreContentType(true).execute();
FileOutputStream out = (new FileOutputStream(new java.io.File(file, cnt+".jpg")));
// imgRes.body() 就是图片数据
out.write(imgRes.bodyAsBytes());
out.close();
cnt ++;
}运行结果
到此编码部分也结束了,完整代码见文末附件三!
附录一
Jsoup(HTML解析器)
继承关系:Document继承Element继承Node。TextNode继承Node。
->java.lang.Object
->org.jsoup.nodes.Node
->org.jsoup.nodes.Element
->org.jsoup.nodes.Document
html文档:Document
元素操作:Element
节点操作:Node
官方API:https://jsoup.org/apidocs/org/jsoup/nodes/Document.html
一、解析HTML并取其内容
Document doc = Jsoup.parse(html);
二、解析一个body片断
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();
三、从一个URL加载一个Document
Document doc = Jsoup.connect("http://example.com")
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(3000)
.post();
String title = doc.title();
四、从一个文件加载一个文档
File input = new File("/tmp/input.html");
// baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
五、使用DOM方法来遍历一个文档
1、查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) // 和相关方法
// 元素同级
siblingElements()
firstElementSibling()
lastElementSibling()
nextElementSibling()
previousElementSibling()
// 关系
parent()
children()
child(int index)
2、元素数据
// 获取属性attr(String key, String value)设置属性
attr(String key)
// 获取所有属性
attributes()
id()
className()
classNames()
// 获取文本内容text(String value) 设置文本内容
text()
// 获取元素内HTMLhtml(String value)设置元素内的HTML内容
html()
// 获取元素外HTML内容
outerHtml()
// 获取数据内容(例如:script和style标签)
data()
tag()
tagName()
3、操作HTML和文本
append(String html)
prepend(String html)
appendText(String text)
prependText(String text)
appendElement(String tagName)
prependElement(String tagName)
html(String value)
六、使用选择器语法来查找元素(类似于CSS或jquery的选择器语法)
//带有href属性的a元素
Elements links = doc.select("a[href]");
//扩展名为.png的图片
Elements pngs = doc.select("img[src$=.png]");
//class等于masthead的div标签
Element masthead = doc.select("div.masthead").first();
//在h3元素之后的a元素
Elements resultLinks = doc.select("h3.r > a");
七、从元素抽取属性、文本和HTML
1、要取得一个属性的值,可以使用Node.attr(String key) 方法
2、对于一个元素中的文本,可以使用Element.text()方法
3、对于要取得元素或属性中的HTML内容,可以使用Element.html(), 或 Node.outerHtml()方法
4、其他:
Element.id()
Element.tagName()
Element.className()
Element.hasClass(String className)附录二
File类
*java.io.File类用于表示文件或目录。*
创建File对象:
// 文件/文件夹路径对象
File file = new File("E:/...");
// 父目录绝对路径 + 子目录名称
File file = new File("..." ,"");
// 父目录File对象 + 子目录名称
File file = new File("...","...");
file.exists():判断文件/文件夹是否存在
file.delete():删除文件/文件夹
file.isDirectory():判读是否为目录
file.isFile():判读是否为文件夹
file.mkdir():创建文件夹(仅限一级目录)
file.mkdirs():创建多及目录文件夹(包括但不限一级目录)
file.createNewFile():创建文件
file.getAbsolutePath():得到文件/文件夹的绝对路径
file.getName():得到文件/文件夹的名字
file.String():同样是得到文件/文件夹的绝对路径等于file.getAbsolutePath()
file.getParent():得到父目录的绝对路径附录三
完整代码
package com.sxf;
?
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.File;
import java.io.FileOutputStream;
import java.util.ArrayList;
?
public class Main {
public static void main(String[] args) {
try {
Document doc = Jsoup.connect("https://www.quanjing.com/creative/topic/1").get();
// 寻找class为item lazy的元素,返回ArrayList。
Elements items = doc.getElementsByClass("item lazy");
ArrayList<String> URLS = new ArrayList<>();
// 将图片的URL单独提取出来。
for (Element i : items) {
URLS.add(i.child(0).attr("src"));
}
// 当前路径下创建Pics文件夹
File file = new File("Pics");
file.mkdir();
String rootPath = file.getAbsolutePath();
System.out.println(">> 当前路径:"+rootPath);
// 遍历图片并下载
int cnt = 1;
for (String str : URLS) {
System.out.println(">> 正在下载:"+str);
// 获取response
Connection.Response imgRes = Jsoup.connect(str).ignoreContentType(true).execute();
FileOutputStream out = (new FileOutputStream(new java.io.File(file, cnt+".jpg")));
// imgRes.body() 就是图片数据
out.write(imgRes.bodyAsBytes());
out.close();
cnt ++;
}
}catch (Exception e){
e.printStackTrace();
}
}
}相关推荐
- 电脑如何创建虚拟光驱(如何建立虚拟光驱)
-
虚拟光驱是一种软件,可以模拟实体光盘,使得用户可以在没有实体光盘的情况下使用光盘的功能,如安装应用程序、游戏等。下面是安装虚拟光驱的一般步骤:1.选择一个虚拟光驱软件,比如VirtualClone...
- 360怎么修复u盘(用360怎么修复u盘)
-
如果是有盘符而没有显示出来的:右击我的电脑/管理/存储/磁盘管理,然后右击“可移动磁盘”图标”单击快捷菜单中的“更改驱动器和路径”选项,并在随后的界面中单击“添加”按钮,接下来选中“指派驱动器号”,同...
- cad2025永久激活密钥(cad2016激活密钥)
-
CAD2021的序列号和密钥激活步骤如下:1.首先,确保您已经购买了CAD2021的许可证。您可以在Autodesk官网上购买或联系您的Autodesk代理购买。2.下载并安装CAD2021软件。...
- window7下载lr2019(window7下载一键重装如何恢复网络)
-
手机上要下载软件的话就到手机上应用商店里面去下载是最安全的
-
- 在线装机软件哪个好(线上装机软件)
-
极客狗装机大师、极速系统装机大师都不错。1、极客狗装机大师采用了精美简洁的UI设计界面,让小白用户也可以轻松上手操作,可一键重装xp/win7/win8/win10操作系统,非常方便,有了它不用再担心自己不会重装系统啦,同时软件还提供了备份...
-
2026-01-08 23:05 liuian
- wifi防蹭网神器手机版下载(wifi防蹭网软件哪个好用)
-
以目前的路由器品牌来说,解决这个问题是非常简单的,根本不需要使用第三方的APP客户端,几乎所有的品牌都有自己的APP客户端1、360路由器360路由器直接在手机应用市场下载“360家庭防火墙”APP...
- 为什么硬盘插到电脑没有显示
-
1、驱动程序的问题。 硬盘不显示和驱动程序有很大关系,如果程序不匹配或者是有问题,硬盘无法被正常读取,需要先卸载掉之前的驱动,并重新安装新的驱动一般就能恢复。2、USB设...
- 电脑显卡天梯图2025(笔记本电脑显卡天梯图2025)
-
2024年奥运会排名预测,第一名美国,第二名中国。结合21年东京奥运会成绩和今年各奥运项目比赛成绩,美国在田径游泳金牌大项目是收获大量奖牌,中国会在跳水,乒乓球,羽毛球等强行收获满满,预测第一美国,第...
- 固态硬盘的作用是什么(固态硬盘有什么功能)
-
固态硬盘作用 固态硬盘最大的作用就是快防震抗摔性:传统硬盘都是磁碟型的,数据储存在磁碟扇区里。而固态硬盘是使用闪存颗粒(即mp3、U盘等存储介质)制固态硬盘作而成,所以SSD固态硬盘内部不存在任何机械...
- 笔记本电脑蓝屏进不去系统怎么办
-
当笔记本电脑开机出现蓝屏时,可以尝试以下步骤来恢复系统:1.重启电脑:按住电源按钮长按几秒钟,让电脑完全关机,然后再按下电源按钮重新启动电脑。有时候蓝屏问题可能只是暂时的,重启电脑后可能会解决问题。...
- windows7开机无法启动怎么办
-
电脑windows7无法启动解决方法如下1、进不了系统,首先关闭电源,开机之后立刻按F8键,进入系统模式选择界面;2、在这里有几种模式需要大家注意,安全模式、最后一次正确配置和正常启动模式,当然其他模...
- 无线路由器登录入口官网(lte无线路由器登录入口)
-
路由器最为常用的登录地址是192.168.1.1,有很多的网友把192.168.1.1称之为路由器登录官网跟路由器官网登录入口,这个叫法并不准确;因为不同品牌型号的路由器,它的登录地址可能是不一样的。...
- 怎么设置电脑自动关机win10(如何设置电脑自动关机win10)
-
windows10自动关机设置方法如下1、打开电脑管家主界面,点击右下角的“工具箱”;2、在工具箱的其他分类中选择打开“健康小助手”;3、健康小助手中有三项功能,护眼配色、定时休息和定时关机,点击定时...
- 如何在macbook上安装windows
-
1、网上自行下载需要安装的Windows系统,假设安装win10系统,那么你就把win10原版镜像直接下载到苹果电脑就可以了2、依次点击打开苹果电脑端的“应用程序/其他/bootcamp助理”3、然...
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
