某数加密的流程与原理简析-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

某数加密的流程与原理简析

阅读量：7169 次

发布时间：2019-06-29

本文共 1903 字，大约阅读时间需要 6 分钟。

啃了这么长时间，基本上已经把某数的套路摸了个八九不离十，不愧是中国反爬界的集大成者，感觉收获满满，这里就简单记录一下分析成果。

注意：某数在不同的网站上有不同的版本，其流程也略有不同，这里的流程不一定适用于其它网站。

工具和资料

- 记录了之前尝试的其它方法

- 对加密混淆后的js的一些初步分析

- 我收集的爬虫相关工具和资料

- 我编写的java HTTP库

前端流程

请求页面，返回应答；如果有之前生成的有效FSSBBIl1UgzbN7N80T cookie值，请求时须带上。

应答的html中，包含以下关键数据：
- <meta id="9DhefwqGPrzGxEp9hPaoag">元素的content，这是加密后的数据，里面包含字符串映射表、全局方法映射表、加解密算法密钥等；注意有些网站的meta.id不同
- <script r="m">的元素，其中有一个是外部js链接，另一个则包含引导JS代码段，后面称为bootstrap.js。这段代码是动态生成的，每次请求均不相同。

如果应答中包含FSSBBIl1UgzbN7N80T的cookie，保存起来，后面更新此cookie时会用到

前面的外部js链接，其实内容是静态的，可以预先拿到并保存起来，里面的关键代码是：
$_ts.FxJzG50F = '......';
- 这个FxJzG50F的值就是加密后的核心JS代码段，后面称为main.js。
- 这里比较奇妙的是：虽然加密后的内容是固定的，但是解密出来的JS里面的变量名、方法名、方法顺序却是随机的！

执行bootstrap.js，包含以下关键步骤：
1. 把常用值、常用方法赋值给全局变量，以迷惑黑客，比如_$wy = window; _$wG = undefined; _$a1 = String.prototype.charAt
2. 获取页面中的meta的content，分若干步骤解密之，这会在window中添加一堆全局变量和全局方法，包括所有的常量字符串映射
3. 获取window.$_ts.FxJzG50F的值，结合meta中的数据，生成核心JS代码即main.js

执行main.js，这里的步骤就太多了，罗列一些关键的吧：
- 继续从meta中解密一部分关键数据
- 在以下事件上挂钩子，以记录用户行为：
  鼠标事件，触屏事件，键盘事件，输入事件，滚屏事件，加速器事件，屏幕方向改变事件，电池充电事件，窗口隐藏/显示事件
- 另外，按键、点击、滚屏等事件的钩子函数同时也会更新FSSBBIl1UgzbN7N80T的cookie值
- 在以下网络请求相关对象或方法上挂钩子，令其在发起请求时后面自动添加MmEwMD参数：
  ActiveXObject, XMLHttpRequest, Request, fetch, HTMLFormElement.submit
- 关键方法检测，测试eval等几个方法是否被替换成非native版本
- 添加一个频繁执行的定时器，其作用是检测debugger语句是否生效，如果生效说明有黑客在调试
- 检查selenium, webdriver, PhantomJS, HeadlessChrome等自动化框架的特征
- 检查浏览器类型，收集浏览器特征，收集渲染器特征
- 执行WebGL 3D渲染测试，执行Canvas 2D渲染测试，目前看其测试结果并未实际使用，但不排除其它网站会使用此数据标识浏览器指纹
- 添加一个50秒的定时器，其作用为更新FSSBBIl1UgzbN7N80T的cookie值
- 对FSSBBIl1UgzbN7N80T cookie值进行首次更新

FSSBBIl1UgzbN7N80T cookie值的内容

这是整个某数加密的核心了，每次请求，无论GET, POST，是否XHR，都会带着这个cookie

此cookie的值是很多数据加密后的内容，这里就不详细说了，至少是包含前面收集到的浏览器特征和用户行为数据的，简单的伪造User-Agent肯定是绕不过去的

更新前会验证和重用之前的FSSBBIl1UgzbN7N80T值

根据其内容可知，某数的后端是可以知道请求来源于何种浏览器，用户点击链接前有何行为等，这样他们可以做到：
- 验证是否大量请求来源于相同特征的浏览器
- 有选择的禁用某些浏览器
- 给用户行为存疑的来源下毒

MmEwMD参数的内容

这个参数只会在XHR, 表单提交等场合用到，感觉和FSSBBIl1UgzbN7N80T的作用有重复，不确定某数的后端是否真的会严格验证其内容

其内容的主体部分和FSSBBIl1UgzbN7N80T一致，另外会在前面连接上URL的摘要值

转载地址：http://viqwm.baihongyu.com/

你可能感兴趣的文章

HDU 3308 LCIS（线段树区间合并）

行内元素的行高对布局也有影响

桌面山寨版2048—游戏逻辑篇之移动方块的框架

安裝手冊写法

Miller-Rabin与二次探测

[学习笔记]Dsu On Tree

关于界面绘制过程多次回调ondraw()方法产生的问题

Eclipse的debug按钮介绍（三）

select、poll、epoll之间的区别总结[整理]

Microsoft JScript 运行时错误: 'document.getElementById(...)' 为空或不是对象

FineReport9.0定义数据连接（创建与SQL Server 2016数据库的连接）

XGBoost 原理及应用

Django 模板系统

PTA基础编程题目集7-2然后是几点

DP mixture model

go的基本语法（变量和函数）

Python中yield表达式的使用

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-11 03:44:56 当前IP: 18.223.102.148 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我