手把手教你从零开始用Java写爬虫
liuian 2025-01-07 14:14 70 浏览
本文将手把手地教大家从零开始用Java写一个简单地爬虫!
目标
爬取全景网图片,并下载到本地
收获
通过本文,你将复习到:
- IDEA创建工程
- IDEA导入jar包
- 爬虫的基本原理
- Jsoup的基本使用
- File的基本使用
- FileOutputStream的基本使用
- ArrayList的基本使用
- foreach的基本使用
说明
爬虫所用的HTM解析器为Jsoup。Jsoup可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
Jsoup相关API整理见文末附录一。
开始
一、前端分析
1、使用Chrome或其他浏览器,打开全景网,按F12进入调试模式,分析网页结构。(这里选的是“创意”=>“优山美地”)
2、找规律,看图片对应的结构是什么。可以发现,每个图片的结构都如下图红框所示。
3、找到结构后再找图片链接。进一步分析后发现,图片链接可以是下图红框部分。
4、复制到浏览器打开看看验证下。(好吧,访问这个URL直接给我下载了...)
5、前端部分分析完毕,接下来就可以用Java编码了!
二、爬取思路
通过Java向全景网发送GET请求,以获取HTML文件。Jsoup解析后寻找class=item lazy的a标签,他的child节点(即<img>)就是我们要找的目标节点了,搜索到的应当是一个ArrayList。然后遍历集合,从中搜寻图片的URL,并下载到本地保存。(更深一步,可以下载完一页后,继续下载后一页,直至全部下完。本文直讲下载第一页。提示一下,链接后面的topic/1其实就是当前页数)
三、Java编码
1、先下载Jsoup jar包,并导入到IDEA工程中。
2、新建Java工程。
3、简单测试下get请求,若请求成功,则进入下一步;若报错,检查URL是否带了中文。
注意:链接没给,否则文章审核不过,注意自己添加!!!
package com.sxf;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Main {
public static void main(String[] args) {
try {
Document doc = Jsoup.connect("").get(); //这里加链接
System.out.println(doc);
}catch (Exception e){
e.printStackTrace();
}
}
}4、寻找class为item lazy的元素,找到他的child节点,返回ArrayList。并将图片的URL单独提取出来。
注意:链接没给,否则文章审核不过,注意自己添加!!!
注意:链接没给,否则文章审核不过,注意自己添加!!!5、我们先尝试用Jsoup下载一张图片试试效果。
注意:链接没给,否则文章审核不过,注意自己添加!!!
// 获取response
Connection.Response imgRes = Jsoup.connect(URLS.get(0)).ignoreContentType(true).execute();
FileOutputStream out = (new FileOutputStream(new java.io.File("demo.jpg")));
// imgRes.body() 就是图片数据
out.write(imgRes.bodyAsBytes());
out.close();可以看到在当前工程路径下,生成了demo.jpg图片,并且显示正常!
6、接下来,我们要创建一个文件夹,用来专门存放图片。
File相关API整理见文末附录二。
//当前路径下创建Pics文件夹
File file = new File("Pics");
file.mkdir();
System.out.println(file.getAbsolutePath());7、接下来开始遍历图片并下载。由于图片较多,为了简单起见,我们保存图片时候的名称,就从1开始依次增吧。
// 遍历图片并下载
int cnt = 1;
for (String str : URLS) {
System.out.println(">> 正在下载:"+str);
// 获取response
Connection.Response imgRes = Jsoup.connect(str).ignoreContentType(true).execute();
FileOutputStream out = (new FileOutputStream(new java.io.File(file, cnt+".jpg")));
// imgRes.body() 就是图片数据
out.write(imgRes.bodyAsBytes());
out.close();
cnt ++;
}运行结果
到此编码部分也结束了,完整代码见文末附件三!
附录一
Jsoup(HTML解析器)
继承关系:Document继承Element继承Node。TextNode继承Node。
->java.lang.Object
->org.jsoup.nodes.Node
->org.jsoup.nodes.Element
->org.jsoup.nodes.Document
html文档:Document
元素操作:Element
节点操作:Node
官方API:https://jsoup.org/apidocs/org/jsoup/nodes/Document.html
一、解析HTML并取其内容
Document doc = Jsoup.parse(html);
二、解析一个body片断
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();
三、从一个URL加载一个Document
Document doc = Jsoup.connect("http://example.com")
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(3000)
.post();
String title = doc.title();
四、从一个文件加载一个文档
File input = new File("/tmp/input.html");
// baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
五、使用DOM方法来遍历一个文档
1、查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) // 和相关方法
// 元素同级
siblingElements()
firstElementSibling()
lastElementSibling()
nextElementSibling()
previousElementSibling()
// 关系
parent()
children()
child(int index)
2、元素数据
// 获取属性attr(String key, String value)设置属性
attr(String key)
// 获取所有属性
attributes()
id()
className()
classNames()
// 获取文本内容text(String value) 设置文本内容
text()
// 获取元素内HTMLhtml(String value)设置元素内的HTML内容
html()
// 获取元素外HTML内容
outerHtml()
// 获取数据内容(例如:script和style标签)
data()
tag()
tagName()
3、操作HTML和文本
append(String html)
prepend(String html)
appendText(String text)
prependText(String text)
appendElement(String tagName)
prependElement(String tagName)
html(String value)
六、使用选择器语法来查找元素(类似于CSS或jquery的选择器语法)
//带有href属性的a元素
Elements links = doc.select("a[href]");
//扩展名为.png的图片
Elements pngs = doc.select("img[src$=.png]");
//class等于masthead的div标签
Element masthead = doc.select("div.masthead").first();
//在h3元素之后的a元素
Elements resultLinks = doc.select("h3.r > a");
七、从元素抽取属性、文本和HTML
1、要取得一个属性的值,可以使用Node.attr(String key) 方法
2、对于一个元素中的文本,可以使用Element.text()方法
3、对于要取得元素或属性中的HTML内容,可以使用Element.html(), 或 Node.outerHtml()方法
4、其他:
Element.id()
Element.tagName()
Element.className()
Element.hasClass(String className)附录二
File类
*java.io.File类用于表示文件或目录。*
创建File对象:
// 文件/文件夹路径对象
File file = new File("E:/...");
// 父目录绝对路径 + 子目录名称
File file = new File("..." ,"");
// 父目录File对象 + 子目录名称
File file = new File("...","...");
file.exists():判断文件/文件夹是否存在
file.delete():删除文件/文件夹
file.isDirectory():判读是否为目录
file.isFile():判读是否为文件夹
file.mkdir():创建文件夹(仅限一级目录)
file.mkdirs():创建多及目录文件夹(包括但不限一级目录)
file.createNewFile():创建文件
file.getAbsolutePath():得到文件/文件夹的绝对路径
file.getName():得到文件/文件夹的名字
file.String():同样是得到文件/文件夹的绝对路径等于file.getAbsolutePath()
file.getParent():得到父目录的绝对路径附录三
完整代码
package com.sxf;
?
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.File;
import java.io.FileOutputStream;
import java.util.ArrayList;
?
public class Main {
public static void main(String[] args) {
try {
Document doc = Jsoup.connect("https://www.quanjing.com/creative/topic/1").get();
// 寻找class为item lazy的元素,返回ArrayList。
Elements items = doc.getElementsByClass("item lazy");
ArrayList<String> URLS = new ArrayList<>();
// 将图片的URL单独提取出来。
for (Element i : items) {
URLS.add(i.child(0).attr("src"));
}
// 当前路径下创建Pics文件夹
File file = new File("Pics");
file.mkdir();
String rootPath = file.getAbsolutePath();
System.out.println(">> 当前路径:"+rootPath);
// 遍历图片并下载
int cnt = 1;
for (String str : URLS) {
System.out.println(">> 正在下载:"+str);
// 获取response
Connection.Response imgRes = Jsoup.connect(str).ignoreContentType(true).execute();
FileOutputStream out = (new FileOutputStream(new java.io.File(file, cnt+".jpg")));
// imgRes.body() 就是图片数据
out.write(imgRes.bodyAsBytes());
out.close();
cnt ++;
}
}catch (Exception e){
e.printStackTrace();
}
}
}相关推荐
-
- 驱动网卡(怎么从新驱动网卡)
-
网卡一般是指为电脑主机提供有线无线网络功能的适配器。而网卡驱动指的就是电脑连接识别这些网卡型号的桥梁。网卡只有打上了网卡驱动才能正常使用。并不是说所有的网卡一插到电脑上面就能进行数据传输了,他都需要里面芯片组的驱动文件才能支持他进行数据传输...
-
2026-01-30 00:37 liuian
- win10更新助手装系统(微软win10更新助手)
-
1、点击首页“系统升级”的按钮,给出弹框,告诉用户需要上传IMEI码才能使用升级服务。同时给出同意和取消按钮。华为手机助手2、点击同意,则进入到“系统升级”功能华为手机助手华为手机助手3、在检测界面,...
- windows11专业版密钥最新(windows11专业版激活码永久)
-
Windows11专业版的正版密钥,我们是对windows的激活所必备的工具。该密钥我们可以通过微软商城或者通过计算机的硬件供应商去购买获得。获得了windows11专业版的正版密钥后,我...
-
- 手机删过的软件恢复(手机删除过的软件怎么恢复)
-
操作步骤:1、首先,我们需要先打开手机。然后在许多图标中找到带有[文件管理]文本的图标,然后单击“文件管理”进入页面。2、进入页面后,我们将在顶部看到一行文本:手机,最新信息,文档,视频,图片,音乐,收藏,最后是我们正在寻找的[更多],单击...
-
2026-01-29 23:55 liuian
- 一键ghost手动备份系统步骤(一键ghost 备份)
-
步骤1、首先把装有一键GHOST装系统的U盘插在电脑上,然后打开电脑马上按F2或DEL键入BIOS界面,然后就选择BOOT打USDHDD模式选择好,然后按F10键保存,电脑就会马上重启。 步骤...
- 怎么创建局域网(怎么创建局域网打游戏)
-
1、购买路由器一台。进入路由器把dhcp功能打开 2、购买一台交换机。从路由器lan端口拉出一条网线查到交换机的任意一个端口上。 3、两台以上电脑。从交换机任意端口拉出网线插到电脑上(电脑设置...
- 精灵驱动器官方下载(精灵驱动手机版下载)
-
是的。驱动精灵是一款集驱动管理和硬件检测于一体的、专业级的驱动管理和维护工具。驱动精灵为用户提供驱动备份、恢复、安装、删除、在线更新等实用功能。1、全新驱动精灵2012引擎,大幅提升硬件和驱动辨识能力...
- 一键还原系统步骤(一键还原系统有哪些)
-
1、首先需要下载安装一下Windows一键还原程序,在安装程序窗口中,点击“下一步”,弹出“用户许可协议”窗口,选择“我同意该许可协议的条款”,并点击“下一步”。 2、在弹出的“准备安装”窗口中,可...
- 电脑加速器哪个好(电脑加速器哪款好)
-
我认为pp加速器最好用,飞速土豆太懒,急速酷六根本不工作。pp加速器什么网页都加速,太任劳任怨了!以上是个人观点,具体性能请自己试。ps:我家电脑性能很好。迅游加速盒子是可以加速电脑的。因为有过之...
- 任何u盘都可以做启动盘吗(u盘必须做成启动盘才能装系统吗)
-
是的,需要注意,U盘的大小要在4G以上,最好是8G以上,因为启动盘里面需要装系统,内存小的话,不能用来安装系统。内存卡或者U盘或者移动硬盘都可以用来做启动盘安装系统。普通的U盘就可以,不过最好U盘...
- u盘怎么恢复文件(u盘文件恢复的方法)
-
开360安全卫士,点击上面的“功能大全”。点击文件恢复然后点击“数据”下的“文件恢复”功能。选择驱动接着选择需要恢复的驱动,选择接入的U盘。点击开始扫描选好就点击中间的“开始扫描”,开始扫描U盘数据。...
- 系统虚拟内存太低怎么办(系统虚拟内存占用过高什么原因)
-
1.检查系统虚拟内存使用情况,如果发现有大量的空闲内存,可以尝试释放一些不必要的进程,以释放内存空间。2.如果系统虚拟内存使用率较高,可以尝试增加系统虚拟内存的大小,以便更多的应用程序可以使用更多...
-
- 剪贴板权限设置方法(剪贴板访问权限)
-
1、首先打开iphone手机,触碰并按住单词或图像直到显示选择选项。2、其次,然后选取“拷贝”或“剪贴板”。3、勾选需要的“权限”,最后选择开启,即可完成苹果剪贴板权限设置。仅参考1.打开苹果手机设置按钮,点击【通用】。2.点击【键盘】,再...
-
2026-01-29 21:37 liuian
- 平板系统重装大师(平板重装win系统)
-
如果你的平板开不了机,但可以连接上电脑,那就能好办,楼主下载安装个平板刷机王到你的个人电脑上,然后连接你的平板,平板刷机王会自动识别你的平板,平板刷机王上有你平板的我刷机包,楼主点击下载一个,下载完成...
- 联想官网售后服务网点(联想官网售后服务热线)
-
联想3c服务中心是联想旗下的官方售后,是基于互联网O2O模式开发的全新服务平台。可以为终端用户提供多品牌手机、电脑以及其他3C类产品的维修、保养和保险服务。根据客户需求层次,联想服务针对个人及家庭客户...
- 一周热门
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
