百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

我用Python爬取了女神视界,爬虫之路永无止境「内附源码」

liuian 2025-03-01 14:38 45 浏览

我发现抖音上很多小姐姐就拍个跳舞的视频就火了,大家是冲着舞蹈水平去的吗,都是冲着颜值身材去的,能刷到这篇文章的都是lsp了,我就跟大家不一样了,一个个刷太麻烦了,我直接爬下来看个够,先随意展示两个。


?



采集目标


爬取目标:女神世界


?



效果展示


?


工具使用


使用环境:Python3.7 工具:pycharm 第三方库:requests, re, pyquery


爬虫思路:


  1. 获取的是视频数据 (16进制字节)
  2. 在这个页面没有视频地址 需要进去详情页 所有需要从 视频播放页开始抓取


使用快捷键 F12 进入开发者控制台:


?



先不急, 找到 视频地址 去搜索他 看看在哪里有包含:


?



?



定位他 发现是静态页面返回的数据:


?



上代码:


def Tools(url):# 封装一个工具函数 用来做请求的
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52'
    }
    response = requests.get(url, headers=headers)
    return response
url = 'https://www.520mmtv.com/9614.html'
response = Tools(url).text
video_url = re.findall(r'url: "(.*?)",', response)[0] # 正则表达式提取 视频地址
video_content = Tools(video_url).content
# 视频地址存储 需要在代码同路径 手动创建 短视频文件夹
with open('./短视频/123.mp4', 'ab') as f:
    f.write(video_content)
?
# 下载了一个


?



?



def main():
    url = 'https://www.520mmtv.com/hd/rewu.html'
    response = Tools(url).text
    doc = pq(response) # 创建pyquery对象 注意根据css的 class 类选择 和id选择器进行数据提取
    i_list = doc('.i_list.list_n2.cxudy-list-formatvideo a').items() # .类选择器 中间有空格的 记得替换成.
    meta_title = doc('.meta-title').items() # 标题
    for i, t in zip(i_list, meta_title):
        href = i.attr('href')
        Play(t.text(), href)



全部代码:


import requests
import re
from pyquery import PyQuery as pq
def Tools(url):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52'
    }
    response = requests.get(url, headers=headers)
    return response
def Play(title, url):
    # url = 'https://www.520mmtv.com/9614.html'
    response = Tools(url).text
    video_url = re.findall(r'url: "(.*?)",', response)[0]
    video_content = Tools(video_url).content
    with open('./短视频/{}.mp4'.format(title), 'ab') as f:
        f.write(video_content)
        print('{}下载完成....'.format(title))
def main():
    url = 'https://www.520mmtv.com/hd/rewu.html'
    response = Tools(url).text
    doc = pq(response) # 创建pyquery对象 注意根据css的 class 类选择 和id选择器进行数据提取
    i_list = doc('.meta-title').items() # .类选择器 中间有空格的 记得替换成.
    meta_title = doc('.meta-title').items() # 标题
    for i, t in zip(i_list, meta_title):
        href = i.attr('href')
        Play(t.text(), href)
if __name__ == '__main__':
    main()



下载比较慢网络不好,你网快的话 ,就下载快。


效果:


?

相关推荐

手机自动更新软件怎么关闭(手机自动更新软件怎么关闭oppo)
  • 手机自动更新软件怎么关闭(手机自动更新软件怎么关闭oppo)
  • 手机自动更新软件怎么关闭(手机自动更新软件怎么关闭oppo)
  • 手机自动更新软件怎么关闭(手机自动更新软件怎么关闭oppo)
  • 手机自动更新软件怎么关闭(手机自动更新软件怎么关闭oppo)
windowsxp怎么升级成win7(windowsxp怎么升级成win10)

WinXP和Win7的内核不同,因此从WinXP升级到Win7只能重新安装系统。重新安装系统的方式主要有两种,一种是使用光盘安装,这种方式安装比较慢,安装驱动,软件也比较费时费力,但系统比较干净。另一...

我要恢复百度(我想恢复百度)

如果您的百度不见了,可以尝试以下几种方法找回:1.重新启动电脑或手机,并检查是否仍然没有百度应用或网站。2.使用其他搜索引擎搜索“百度官网”或“百度下载”,下载安装百度应用或访问百度官网。3.检...

account(account怎么读)

Account是英语中的一个单词,它的意思是账户或账目。这个词在商业交易和财务管理中非常常见,通常用于记录和追踪资金的流动和使用情况。此外,在计算机领域中,Account也可以指代用户账户或电子邮箱账...

住房公积金怎么取出来(异地的住房公积金怎么取出来)

1、职工达到法定退休、离休年龄且办理手续后,提供相关有效证明材料,包含证书或文件复印件等前往相关部门申请;2、职工去世后,其亲属提供死亡证明、单位出具的继承人证明、领取人的身份证复印件和支取申请书即可...

26键盘拼音打字口诀(手机26键打字训练)

试答:用口诀法记忆汉语拼音知识(1)见到a母莫放过,没有a母找o、e,i、u并列标在后,i上标调把点抹。(2)i、in、ing前无声母,加个y母来弥补。(3)ü见j、q、x,两点定要抹,ü拼...

2025年qq最新版本下载(2021qq最新版本下载)

目前来看的话java版的QQ还是可以用的。.我们需要用那种比较老式的塞班系统手机才能下载安装使用,就目前的时代使用它的意义就看我们自己怎么理解了,不过社会在进步,科技也在发展,要想更强时代的潮流,万物...

cellular版是什么意思(cellular是啥)

  ipad又出了一个cellular版,很多果粉不知道cellular版是什么意思,在购买ipad时也不知道是cellular版好还是wifi版好,要想知道哪一款好得首先了解两个版本的区别。  c...

如何删除ie缓存文件(清楚ie缓存)

1.可以通过清理IE浏览器缓存来解决问题。2.IE浏览器在访问网页时会自动缓存一些网页数据,这样可以提高网页访问速度,但也会占用一定的磁盘空间。如果缓存过多,可能会导致浏览器运行缓慢或出现其他问题...

华为 官翻机(什么是华为官翻机)

华为官翻机指的是华为公司推出的官方翻新手机。官翻机是指经过华为官方认证的二手手机,在严格的检测和修复后重新销售。它们经过了一系列的测试和维修,确保其性能和品质符合华为的标准,并提供一定的保修服务。华为...

应用软件开发(应用软件开发流程)

“人工智能技术应用”,这个词我们多少会了解一点,但是像这种比较高大上的词,我们总是比较模糊,没有准确的概念,总感觉就是那么一回事,那接下来就给大家简单说明一下。人工智能技术应用是属于普通高等学校本科专...

超快精简xp(xp精简软件)

没有具体介绍,可以参考以下XP简化版是一种简化的软件开发方法,旨在提高生产力、降低成本和改进产品质量。其核心原则包括小规模团队、频繁交付、持续集成和测试驱动开发。通过这些原则,XP简化版鼓励开发团队更...

台式机不用无线网卡连wifi(台式机不用无线网卡如何无线上网)

电脑没有无线网卡是无法直接连wifi无线网络的,但是可以使用USB外置无线网卡连接。电脑连接WiFi无线网络是需要有无线网卡的硬件设备才可以正常使用的。如果电脑主板是没有无线网卡硬件配置的可以使用US...

w10系统启动盘u盘(win10系统u盘启动盘)

U盘装系统步骤:1.制作U盘启动盘。这里推荐大白菜U盘启动盘制作工具,在网上一搜便是。2.U盘启动盘做好了,我们还需要一个GHOST文件,可以从网上下载一个ghost版的XP/WIN7/WIN8系统,...

百度网盘旧版本下载(百度网盘旧版本下载方法)

百度网盘文件怎的么下载,方法/步骤分步阅读1/5选中文件进入百度网盘的文件页面,勾选想要下载的文件。2/5点击下载在左下角,点击下载的按钮。3/5点击下载管理在右上角,点击下载管理的图标。4/5点击设...