头条 js2py pyv8 signature31 条回复 ? 2018-09-21 11:09:18 +08:00
1
cdwyd 2018-06-21 12:37:59 +08:00 via Android
不知道现在还是不是,我之前爬的时候费了半天劲把 hs 加密用 python 重写一切都搞定以后又喵了一眼 js 加密部分,竟然明文写了一个万能的 key
2
cdwyd 2018-06-21 12:38:18 +08:00 via Android
hs>js
3
ctsed 2018-06-21 12:57:52 +08:00 via Android
pptr
4
ACool 2018-06-21 13:01:27 +08:00 via Android
写爬虫的要小心罗,爬数据要被判刑滴
https://www.v2ex.com/t/464477
滑稽
5
3dwelcome 2018-06-21 13:05:02 +08:00 via Android
没什么是 headless 解决不了的。
6
willhunger 2018-06-21 14:49:59 +08:00
今日头条的垃圾内容也值得爬?
7
miyuki 2018-06-21 15:30:11 +08:00
头条抓完你再抓
8
hnbcinfo 2018-06-21 15:42:25 +08:00
我就喜欢破解各种加密字符串,等我给你搞定它
9
xbigfat 2018-06-21 15:52:04 +08:00
@hnbcinfo 层主可以帮忙破解个字符串加密么。。完全没有头绪 doge
10
hnbcinfo 2018-06-21 16:00:35 +08:00
@xbigfat 声明,纯属娱乐,不建议用于非法用途。
先看接口参数,目前可以断定,用于防爬策略的是 AS、CP 和_signature 字段,其他均为数据筛选参数。
巧了,我今天没事,帮楼主玩玩。一个一个的来,走到哪一步算哪一步,楼主也别抱太大希望,毕竟人家头条技术人员也不是吃干饭的。
11
hnbcinfo 2018-06-21 16:11:10 +08:00 3
AS 已经破解,如图,CP 和它差不多,估计一会就能猜出来。高估了头条了,不过我估计最后的 signature 应该不容易
12
hnbcinfo 2018-06-21 16:12:45 +08:00
上面的第 5 步表达错了,更正下:16 位时间戳 T16 ---> 16 进制时间戳 T16
13
hnbcinfo 2018-06-21 16:38:00 +08:00
CP 类似,CP 字符串的前 4 位+第 6 位+第 8 位+第 10 位+第 12 位,组合起来的 8 位为时间戳 16 进制的表示。剩下的 6 位没怎么看出来,楼主可以自行研究下。
signature 还没看,不过我估计是猜不出来的,抽空我再看看。现在下班了,明天有时间在弄吧
P.S. 一旦加密串被猜出来,估计人家就要修改了。所以不保证能用多长时间
14
hnbcinfo 2018-06-21 16:42:26 +08:00
在纠正下,11 楼中,第 3 步,写的匆忙,应该是对 T 进行 MD5 加密,而不是 T16。抱歉
15
hnbcinfo 2018-06-21 16:49:08 +08:00
下班前算出 CP:
CP=T16 前 4 位+M(27)+T(4)+M(28)+T(5)+M(29)+T(6)+M(30)+T(7)+M(31)+’ E1 ’
16
ful1v1dcker 2018-06-21 16:52:28 +08:00
所以。。。楼主是捡垃圾的?[doge]
17
LeungV2 2018-06-21 16:58:22 +08:00
还以为赶上直播了 这就歇菜了?
18
rocketman13 2018-06-26 21:00:21 +08:00
@cdwyd 所以能告诉我解决方案吗?
19
rocketman13 2018-06-26 21:00:32 +08:00
@ctsed 什么意思?
20
rocketman13 2018-06-26 21:01:00 +08:00
@3dwelcome selenium 技术含量不高啊
21
rocketman13 2018-06-26 21:01:25 +08:00
@willhunger 主要想破它的 js 加密
22
rocketman13 2018-06-26 21:02:40 +08:00
我觉得和 AS、CP 没什么关系, 主要加密还是_signature 字段,兄弟你解决了吗
23
rocketman13 2018-06-26 21:03:06 +08:00
@ful1v1dcker 什么意思?
24
rocketman13 2018-06-26 21:03:25 +08:00
@LeungV2 能帮忙解决吗?
25
macwhirr 2018-06-27 16:58:22 +08:00
5LiN6L+H6L+Y5piv5pyJ6aKR5qyh6ZmQ5Yi2
26
rocketman13 2018-07-03 22:40:28 +08:00
@macwhirr ?什么意思呢
27
rocketman13 2018-07-04 09:05:09 +08:00
@hnbcinfo 老哥,_signature 破解了吗
28
hnbcinfo 2018-07-04 10:41:55 +08:00
@rocketman13 sorry,这个并没有搞出来,不过我猜测和时间有关系。
29
rocketman13 2018-07-05 13:34:56 +08:00
@hnbcinfo 那请问一下你公司爬数据时遇到这种加密情况怎么处理呢
30
hnbcinfo 2018-07-05 15:03:10 +08:00
@rocketman13 我公司非互联网公司,没有爬虫的需求。
31
q3031031 2018-09-21 11:09:18 +08:00
请问各位大佬,今日头条 反爬虫策略是什么,我已经限制频率了,三四秒才一个请求,还是被封禁了