百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

破了这几种爬虫加密算法后,我的路更近了「JS逆向3」

liuian 2025-03-01 14:37 9 浏览

来源:麦叔编程

作者:kevin。

JS逆向是爬虫的难点,是爬虫路上的拦路虎。所谓逆向就是破解网站使用的JS加密算法,拆解相关的参数。然后就可以登堂入室了。

本文总结了JS中最常用的加密算法。正所谓练武不练,到老一场空。掌握好加密算法就是爬虫技术的。如果你是爬虫是认真的,认真阅读,收藏,讨论。

伪加密算法:base64

Base64是一种用64个字符来表示任意二进制数据的方法。

问:为什么base64被成为伪加密算法?

答:使用base64将明文变成密文的操作最多算是混淆。没有密钥注入算法,所以只要拿到密文进行base64解密就能得到对应的明文。

当然还有一种情况就是实现base64的代码被改写,成为定制版的base64算法。这也没关系,把js代码抠出来再用python去执行,也能将密文解密。

识别方式:由于base64的编码的特性,要编码的二进制数据如果不是3的倍数,最后会剩下1个或2个字节,Base64用\x00字节在末尾补足后,再在编码的末尾加上1个或2个=号,表示补了多少字节。根据这个特性,一般密文结尾处如果是'='结尾的,可以先判断是base64编码而成

信息摘要算法:MD5、SHA

摘要算法又称哈希算法、散列算法。它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。

信息摘要算法信息摘要位数备注MD5128bit
SHA-1160bit
SHA-224224bitSHA-256的“阉割版”SHA-256256bit
SHA-384384bitSHA-512的“阉割版”SHA-512512bit

摘要算法不能被称为加密算法,因为它是单向操作明文的。单向操作的意思就是,将明文变成‘密文’之后是无法再将'密文'变成明文(部分信息摘要算法已经被突破,可实现'密'转明)。

基于这种单向操作的特性,摘要算法一般被用于确保信息传输完整一致。在爬虫模拟登录部分这种算法用得会比较多,举个栗子:

假设我现在要将用户名是kevin,密码是123在网页上进行登录,浏览器会先通过js代码将密码123转成
202cb962ac59075b964b07152d234b70
(MD5)再发送给服务器。服务器收到后,知道这个用户名为kevin想要登录,所以从数据库中调取了kevin对应的密码123,然后在服务器端也对123进行相应的加密(哈希)也得到
202cb962ac59075b964b07152d234b70
,校验两者一致,服务器就返回给客服端登录成功的响应。

在实际JS逆向中哈希函数的源码经常会被改写,成为定制版哈希函数;还有就是在哈希过程中,明文会被加盐值,遇到些情况就需要认真分析源码。

加盐:上述栗子中,只对密码进行 md5 加密是肯定不够的。聪明的程序员想出了个办法,即使用户的密码很短,只要在他的短密码后面加上一段很长的字符,再计算 md5 ,那反推出原始密码就变得非常困难了。加上的这段长字符,我们称为盐(Salt),通过这种方式加密的结果,我们称为加盐 Hash

Bash
import?hashlib
md5?=?hashlib.md5()
md5.update(b'123I_love_salt')?
#此处的盐值为?'I_love_salt'
print(md5.hexdigest())

207a9e3b7f1d0c08f5444c8cb92f8d85?#运行结果

识别方式:无论明文数据的长度,经过哈希之后,长度都是固定的。MD5是32位十六进制数,SHA1是40位十六进制数,SHA224是56位十六进制数等等。在获得密文数据后,可先判断是否是十六进制数构成,再判断其长度是否是常见信息摘要位数

对称加密(加密解密密钥相同):DES、3DES、AES

对称加密的核心就是密钥,拿到密钥就等于拿到数据。也不用去管你是AES还是DES,还有多少轮加密的,拿到密钥就用python现成的库去实现解密。

AES密钥长度密钥长度对应的轮数128bit10192bit12256bit14

识别方式:密文数据的长度会随着明文数据的长度而变化。

非对称加密(分公钥私钥):RSA

对付像RSA这种非对称加密算法,我们心中应牢记十六字方针——“公钥加密,私钥解密。私钥加密,公钥解密”

在非对称加密算法中,加密与解密的密钥肯定是不一样的(一样的话,就不叫非对称加密算法了)。牢记“十六字方针”后,我们只要找到‘公钥’和‘私钥’就能解密了。当然python也有现成的库进行RSA解密。

识别方式:RSA公钥加密会进行类似MD5加盐的操作,所以相同的明文,用相同的公钥进行RSA加密会生成不同的密文。

RSA的密钥对不仅可能存在JS代码中,还有很有可能会存在在HTML文件中。这时我们进行全局搜索关键词RSAKEYencrypt一处处判别就会有意外收获。

自定义加密函数

顾名思义,这种加密解密形式是非常规的,每个程序员都可以写属于自己风格的加密方式。对于逆向这种加密方式,我们还是抠出加密代码就行了。

这种形式的加密方式应该算逆向中最难的,因为解密者需要去理解加密者的代码逻辑,并避开加密者设的各种坑。最后就看谁JS玩得更6了。

补充

在实际逆向项目中MD5、SHA、AES、RSA,自定义加密函数使用频率是最多的。而且极有可能会碰到多种不同加密算法混合使用,例如:网页数据先base64再AES再进行base64,或者解密明文的RSA的密钥对被AES加密了等等情况。

DES、3DES、AES、RSA、MD5、SHA传入的数据或者密钥都是bytes数据类型,不是bytes数据类型的需要先转换;密钥一般是8的倍数。

附录参考

下面表格是把明文123用不同算法加密后的密文。相关的加密方法源码可以在下面的知识星球获得。

相关推荐

Chrome浏览器必学实用技巧-建议收藏

谷歌Chrome是目前最流行的桌面浏览器,本文分享了一些实用的使用技巧,希望能够对大家的工作和生活提供一些助力。贴士:不同版本的Chrome,其功能或菜单可能存在细微差异。本文使用的Chrome浏览器...

如何使用 Chrome 中的检查元素工具

如何在Chrome中使用Inspect元素启动检查元素工具的最简单方法是右键单击网页上的任何内容。然后,只需单击列表底部的“检查”选项。通常,Element是默认启动的。如果没有,那么您可以...

Chromedriver 在 Python 中查看源代码的方法

Python中可以属性来查看需要爬取的网站的源代码。对应具体的是:chrome.page_source需要注意的是首先需要导入包fromselenium.webdriverimportChro...

手机怎么查看HTML 文件

在手机端实现对HTML文件(包含本地文件和网页源代码)的查看,可借助多种途径和工具。以下为详细的操作步骤和实用的工具推荐:一、本地HTML文件的查看(一)利用浏览器打开定位文件:在手机的文件管...

防止学生查看答案,竟然让Chrome禁止查看源码功能

Chrome现在是很多人的主力浏览器,用户多了需求也会很多。Chrome每天都会收到很多意见和功能需求。然而有一个需求很奇怪,要求Chrome禁止查看网页源码的功能。这是怎么回事呢?1.问题背景我们都...

如何查看网页的HTML源代码?这里提供详细步骤

每个主要的互联网浏览器都允许用户查看任何网页的HTML(超文本标记语言)源代码。以下部分包含有关在每个主要浏览器中查看源代码的多种方法的信息。引言查看网页的源代码时,服务器处理的信息和代码不会出现。例...

如何在浏览器账中查看网页的HTML源代码?

浏览html网页,查看其源代码,可以帮助我们了解该版网页的信息以及架构,每个浏览器都是允许用户查看他们访问的任何网页的HTML源代码的。以下编程狮小师妹就介绍几个常见浏览器的查看网页HTML源代码...

python基础快速入门

Python是一种简单易学且功能强大的编程语言,适合初学者入门学习,不论是就业还是做副业赚钱或者是提高自己办公效率都是不错的选择。1.安装Python下载Python:前往Python官...

Python 如何创建一个 JSON 对象

我们可以使用下面的代码来在Python中创建一个JSON对象。importjsondata={}data['key']='value'json...

牛啊牛啊:C#/.NET一行代码把实体类类型转换为Json数据字符串

前言:刚好要做一个类似Swagger那种可以快速访问api接口和演示的功能,于是就把做的思路写到包里面去,给有需要的小伙伴提供学习和参考。首先,安装1.0.10以及以上版本的Wesky.Net.Op...

基于Jackson封装Json工具类:Java对象与JSON字符串的高效转换

在现代的Web开发和API设计中,JSON(JavaScriptObjectNotation)作为一种轻量级的数据交换格式被广泛使用。它易于人阅读和编写,同时也易于机器解析和生成。在Java生态系...

Python数据持久化:JSON

编程派微信号:codingpy上周更新的《ThinkPython2e》第14章讲述了几种数据持久化的方式,包括dbm、pickle等,但是考虑到篇幅和读者等因素,并没有将各种方式都列全。本文将介绍...

js中关于json语法和json遍历问题

什么是JSON?JSON英文全称JavaScriptObjectNotationJSON是一种轻量级的数据交换格式。JSON是独立的语言*JSON易于理解。json对象使用js语法,但...

Python 使用 JsonPath 完成接口自动化测试中参数关联和数据验证

背景:接口自动化测试实现简单、成本较低、收益较高,越来越受到企业重视RESTFul风格的API设计大行其道JSON成为主流的轻量级数据交换格式痛点接口关联接口关联也称为关联参数。在应用业务接口...

Spark读取kafka复杂嵌套json的最佳实践

随着互联网的更进一步发展,信息浏览、搜索以及电子商务、互联网旅游生活产品等将生活中的流通环节在线化,对于实时性的要求进一步提升,而信息的交互和沟通正在从点对点往信息链甚至信息网的方向发展,这样必然带来...