当前位置:聪少自媒体网 > 今日头条 > 正文

抓取今日头条标题和链接

2020-10-05 今日头条 聪少自媒体

最近又把之前的东西捡捡,想想之前的那些代码,并照着之前的看了看,感觉自己已经什么都不会了,既然想着捡捡,那就必须要搞点事情了,想着爬一下网站的内容,然后就好巧不巧的选了今日头条,然而今日头条的问题看起来还不小,接下来就随我一起去看看吧~_~

1. 首先爬一个网页,最基础的是要观察它的界面,但是不知道小伙伴们发现没有,这个今日头条在谷歌上打开的话,查看源码的时候是没有任何有价值的信息的,所以我们就不能来这个简单的爬的,然后我们来观察网页,按下F12,再刷新一下,如下图:

2. 选中XHR,即为动态加载的意思(先前我一直选中JS,然后一直没有找到任何结果,然后再找前辈问了问,百度查一查,才选中了XHR,不过最终找到就是好的哈),挨个点开右侧的链接,即可见到内容

3. 但是,不知道小伙伴们发现没有这个相应的headers的as、cp还有signature是一直都在变化的,且没有任何规律,所以,就算你把这个网址写到程序中,你请求时,是得不到任何内容的,我也查了之前的抓取今日头条的一些文章,但是发现他们都有对signature进行破解,所以也是得不到任何东西的,我一时之间也是毫无头绪,js什么的也看不大懂,向一个前辈请教,他直接扔给我一个网址,然后后面是一些网页生成的规则,之后我便照着网址直接进行抓取了,但是也不是全部得内容,因为这个连接点了几次之后,就不会再出现这些内容同时还会出现的比较少,但是为了试一下,我还是用这个抓了一下,附上链接:https://github.com/jokermonn/-Api/blob/master/Todaynews.md点击打开链接

4. 接下来上一些我自己的代码吧,已经好久不写了,有什么不足之处还请大家多多指教,另,大家有什么好的破解这个今日头条加密的代码,也请不吝赐教一下~~

从这篇代码里,我想请大家留意一下python中字典和json串的区别,我中间就在这有了坑

好的,就是这些,以上,谢谢大家~

聪少爱学堂聪少
聪少爱学堂创始人,梅州市鹏鑫网络科技有限公司CEO,09年开始踏入互联网,10年互联网行业经验,资深自媒体人,自媒体优秀导师,咪挺微商团对营销引流顾问,业务包含:精准引流技术/代引流精准粉,专业小红书,知乎,微博代运营。
  • 38988文章总数
  • 1491134访问次数
  • 建站天数
  • 合作伙伴