百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

神奇的Python模块:pdfkit,将Python抓取的网址内容保存pdf文件

liuian 2024-12-29 04:28 31 浏览

图/文:迷神

写python爬虫写的多了,有时候想把网址页面内容,按照标题.pdf模式,直接保存为pdf电子书的形式。这样也非常方便备档阅读,特别是一些简洁的比如微信公众号的里面的文章,很简洁,很适合将网址内容保存成pdf文档。

于是,我就发现了神奇的Python模块:pdfkit,他可以将Python抓取的网址内容保存pdf文件形式,很优美的赶脚。

pdfkit安装,很简单,一行命令即可:

pip install pdfkit

pdfkit需要一个wkhtmltopdf的软件做支持,如图:

我是win10系统64,下载wkhtmltopdf第一个如图的就行,然后将安装目录下的bin添加到环境变量的path中,如果不设置环境变量,那就需要指定了这个文件目录。

import pdfkit
class pdf:
    def make(self):
        config = pdfkit.configuration(wkhtmltopdf=r"D:\wkhtmltopdf\bin\wkhtmltopdf.exe")
        pdfkit.from_url("url网址", "1.pdf", configuration=config)

if __name__ == '__main__':
    p = pdf()
    p.make()

代码执行完之后,就可以看到1.pdf文件了,我使用的微信的地址,微信简洁清爽,这个pdf生成,超过一页了,可以有多页进行完整存储还是不错的。

pdfkit模块的源码中,代码量不大,大家喜欢可以看看,接口文件:pdfkit/api.py,主要包含以下方法也在里面。

从接口文档上看,pdfkit可以支持三种的方法,除了上面,我们说的传入url地址之外,还支持另外两种模式:

1、form_file:传入的参数为html文件

def from_file(input, output_path, options=None, toc=None, cover=None, 
              css=None,configuration=None, cover_first=False)

2、form_string:传入的参数为字符串

def from_string(input, output_path, options=None, toc=None, cover=None, css=None,
                configuration=None, cover_first=False)

好了,就这么多啦,我是迷神,更多精彩,记得关注我哦,请多多转发,有问题也可以评论哦。

相关推荐

打开新世界,教你用RooCode+Copliot+Mcp打造一个自己的Manus

本文耗时两天打造,想要一遍走通需要花点时间,建议找个专注的时间开搞!这不仅是个免费使用claude3.5的方案,也是一个超级智能体方案,绝对值得一试!最近Manus真是赚足了眼球,然而我还是没有邀请码...

Git仓库(git仓库有哪些)

#Git仓库使用方法流程详解##一、环境搭建与基础配置###1.1安装与初始化-**安装Git**:官网下载安装包,默认配置安装-**配置全局信息**:```bashgitconfig...

idea版的cursor:Windsurf Wave 7(ideawalk)

在企业环境中,VisualStudioCode和JetBrains系列是最常用的开发工具,覆盖了全球绝大多数开发者。这两类IDE各有优势,但JetBrains系列凭借其针对特定语言和企业场景的深度...

Ai 编辑器 Cursor 零基础教程:推箱子小游戏实战演练

最近Ai火的同时,Ai编辑器Cursor同样火了一把。今天我们就白漂一下Cursor,使用免费版本搞一个零基础教程,并实战演练一个“网页版的推箱子小游戏”。通过这篇文章,让你真正了解cursor是什么...

ChatGPT深度集成于苹果Mac软件 编码能力得到提升

【CNMO科技消息】近日,OpenAI发布了针对MacOS的桌面应用程序,并宣布了一系列与各类应用程序的互操作性功能,标志着ChatGPT正在从聊天机器人向AI智能体工具进化。此次发布的MacOS桌面...

日常开发中常用的git操作命令和使用技巧

日常开发中常用的git操作命令,从配置、初始化本地仓库到提交代码的常用git操作命令使用git前的配置刚使用git,先要在电脑上安装好git,接着我们需要配置一下帐户信息:用户名和邮箱。#设置用户名...

Trae IDE 如何与 GitHub 无缝对接?

TraeIDE内置了GitHub集成功能,让开发者可以直接在IDE里管理代码仓库和版本控制。1.直接从GitHub克隆项目如果你想把GitHub上的代码拉到本地,Trae提供了...

China's diplomacy to further provide strong support for country's modernization: FM

BEIJING,March7(Xinhua)--ChineseForeignMinisterWangYisaidFridaythatChina'sdiplomacywil...

三十分钟入门基础Go(Java小子版)(java入门级教程)

前言Go语言定义Go(又称Golang)是Google的RobertGriesemer,RobPike及KenThompson开发的一种静态、强类型、编译型语言。Go语言语法与...

China will definitely take countermeasures in response to arbitrary pressure: FM

BEIJING,March7(Xinhua)--Chinawilldefinitelytakecountermeasuresinresponsetoarbitrarypre...

Go操作etcd(go操作docker实现沙箱)

Go语言操作etcd,这里推荐官方包etcd/clientv3。文档:https://pkg.go.dev/go.etcd.io/etcd/clientv3etcdv3使用gRPC进行远程过程调...

腾讯 Go 性能优化实战(腾讯游戏优化软件)

作者:trumanyan,腾讯CSIG后台开发工程师项目背景网关服务作为统一接入服务,是大部分服务的统一入口。为了避免成功瓶颈,需要对其进行尽可能地优化。因此,特别总结一下golang后台服务...

golang 之JWT实现(golang gin jwt)

什么是JSONWebToken?JSONWebToken(JWT)是一个开放标准(RFC7519),它定义了一种紧凑且自包含的方式,用于在各方之间以JSON方式安全地传输信息。由于此信息是经...

一文看懂 session 和 cookie(session cookie的区别)

-----------cookie大家应该都熟悉,比如说登录某些网站一段时间后,就要求你重新登录;再比如有的同学很喜欢玩爬虫技术,有时候网站就是可以拦截住你的爬虫,这些都和cookie有关。如果...

有望取代 java?GO 语言项目了解一下

GO语言在编程界一直让人又爱又恨,有人说“GO将统治下一个十年”,“几乎所有新的、有趣的东西都是用Go写的”;也有人说它过于死板,使用感太差。国外有Google、AWS、Cloudflar...