当前位置:聪少自媒体网 > 今日头条 > 正文

爬虫极大困难:今日头条

2020-10-05 今日头条 聪少自媒体

头条 js2py pyv8 signature31 条回复 ? 2018-09-21 11:09:18 +08:00

1

cdwyd 2018-06-21 12:37:59 +08:00 via Android

不知道现在还是不是,我之前爬的时候费了半天劲把 hs 加密用 python 重写一切都搞定以后又喵了一眼 js 加密部分,竟然明文写了一个万能的 key

2

cdwyd 2018-06-21 12:38:18 +08:00 via Android

hs>js

3

ctsed 2018-06-21 12:57:52 +08:00 via Android

pptr

4

ACool 2018-06-21 13:01:27 +08:00 via Android

写爬虫的要小心罗,爬数据要被判刑滴

https://www.v2ex.com/t/464477

滑稽

5

3dwelcome 2018-06-21 13:05:02 +08:00 via Android

没什么是 headless 解决不了的。

6

willhunger 2018-06-21 14:49:59 +08:00

今日头条的垃圾内容也值得爬?

7

miyuki 2018-06-21 15:30:11 +08:00

头条抓完你再抓

8

hnbcinfo 2018-06-21 15:42:25 +08:00

我就喜欢破解各种加密字符串,等我给你搞定它

9

xbigfat 2018-06-21 15:52:04 +08:00

@hnbcinfo 层主可以帮忙破解个字符串加密么。。完全没有头绪 doge

10

hnbcinfo 2018-06-21 16:00:35 +08:00

@xbigfat 声明,纯属娱乐,不建议用于非法用途。

先看接口参数,目前可以断定,用于防爬策略的是 AS、CP 和_signature 字段,其他均为数据筛选参数。

巧了,我今天没事,帮楼主玩玩。一个一个的来,走到哪一步算哪一步,楼主也别抱太大希望,毕竟人家头条技术人员也不是吃干饭的。

11

hnbcinfo 2018-06-21 16:11:10 +08:00 3

AS 已经破解,如图,CP 和它差不多,估计一会就能猜出来。高估了头条了,不过我估计最后的 signature 应该不容易

12

hnbcinfo 2018-06-21 16:12:45 +08:00

上面的第 5 步表达错了,更正下:16 位时间戳 T16 ---> 16 进制时间戳 T16

13

hnbcinfo 2018-06-21 16:38:00 +08:00

CP 类似,CP 字符串的前 4 位+第 6 位+第 8 位+第 10 位+第 12 位,组合起来的 8 位为时间戳 16 进制的表示。剩下的 6 位没怎么看出来,楼主可以自行研究下。

signature 还没看,不过我估计是猜不出来的,抽空我再看看。现在下班了,明天有时间在弄吧

P.S. 一旦加密串被猜出来,估计人家就要修改了。所以不保证能用多长时间

14

hnbcinfo 2018-06-21 16:42:26 +08:00

在纠正下,11 楼中,第 3 步,写的匆忙,应该是对 T 进行 MD5 加密,而不是 T16。抱歉

15

hnbcinfo 2018-06-21 16:49:08 +08:00

下班前算出 CP:

CP=T16 前 4 位+M(27)+T(4)+M(28)+T(5)+M(29)+T(6)+M(30)+T(7)+M(31)+’ E1 ’

16

ful1v1dcker 2018-06-21 16:52:28 +08:00

所以。。。楼主是捡垃圾的?[doge]

17

LeungV2 2018-06-21 16:58:22 +08:00

还以为赶上直播了 这就歇菜了?

18

rocketman13 2018-06-26 21:00:21 +08:00

@cdwyd 所以能告诉我解决方案吗?

19

rocketman13 2018-06-26 21:00:32 +08:00

@ctsed 什么意思?

20

rocketman13 2018-06-26 21:01:00 +08:00

@3dwelcome selenium 技术含量不高啊

21

rocketman13 2018-06-26 21:01:25 +08:00

@willhunger 主要想破它的 js 加密

22

rocketman13 2018-06-26 21:02:40 +08:00

我觉得和 AS、CP 没什么关系, 主要加密还是_signature 字段,兄弟你解决了吗

23

rocketman13 2018-06-26 21:03:06 +08:00

@ful1v1dcker 什么意思?

24

rocketman13 2018-06-26 21:03:25 +08:00

@LeungV2 能帮忙解决吗?

25

macwhirr 2018-06-27 16:58:22 +08:00

5LiN6L+H6L+Y5piv5pyJ6aKR5qyh6ZmQ5Yi2

26

rocketman13 2018-07-03 22:40:28 +08:00

@macwhirr ?什么意思呢

27

rocketman13 2018-07-04 09:05:09 +08:00

@hnbcinfo 老哥,_signature 破解了吗

28

hnbcinfo 2018-07-04 10:41:55 +08:00

@rocketman13 sorry,这个并没有搞出来,不过我猜测和时间有关系。

29

rocketman13 2018-07-05 13:34:56 +08:00

@hnbcinfo 那请问一下你公司爬数据时遇到这种加密情况怎么处理呢

30

hnbcinfo 2018-07-05 15:03:10 +08:00

@rocketman13 我公司非互联网公司,没有爬虫的需求。

31

q3031031 2018-09-21 11:09:18 +08:00

请问各位大佬,今日头条 反爬虫策略是什么,我已经限制频率了,三四秒才一个请求,还是被封禁了

聪少爱学堂聪少
聪少爱学堂创始人,梅州市鹏鑫网络科技有限公司CEO,09年开始踏入互联网,10年互联网行业经验,资深自媒体人,自媒体优秀导师,咪挺微商团对营销引流顾问,业务包含:精准引流技术/代引流精准粉,专业小红书,知乎,微博代运营。
  • 38988文章总数
  • 1491135访问次数
  • 建站天数
  • 合作伙伴