当前位置:聪少自媒体网 > 今日头条 > 正文

分析Ajax来抓取今日头条街拍美图

2020-10-05 今日头条 聪少自媒体

还是根据崔大大的视频来码的文章,不得不说,抓取文件并下载下来比抓取网页内容信息复杂多了

目标站点分析

用浏览器打开今日头条输入‘街拍’,打开审查元素,点击‘图集’

1.首先我们要找到我们想要的街拍数据,这个一般是通过Ajax加载的,我们点击XHR选项,可以发现XHR项目里面的返回结果有我们想要的数据,当网页下拉时,后台(XHR里)会出现新的Ajax请求,发现还有参数offset变化,其他请求参数不变,即通过改变offset的值就可以拿到不同的数据

2.分析每一个页面的街拍美图,在Doc里有我们想要的图片的数据,我们可以用正则把我们想要的信息弄下来

抓取索引页内容

利用Requests请求目标站点,得到索引网页HTML代码和HTML代码,返回结果

抓取详情页内容

解析返回结果,得到详情页的链接,并进一步抓取详情页的信息

下载图片与保存数据库

将图片下载到本地,并把页面信息及图片URL保存到MongoDB(为啥要保存到数据库呢?)

开启循环及多线程

对多页内容遍历,开启多线程提高抓取速度

1.png

2.png

崔大大的这个爬虫视频涉及的知识点还是蛮多的,网页、数据库、包.....需要补充的知识点还是很多的

聪少爱学堂聪少
聪少爱学堂创始人,梅州市鹏鑫网络科技有限公司CEO,09年开始踏入互联网,10年互联网行业经验,资深自媒体人,自媒体优秀导师,咪挺微商团对营销引流顾问,业务包含:精准引流技术/代引流精准粉,专业小红书,知乎,微博代运营。
  • 38988文章总数
  • 1491135访问次数
  • 建站天数
  • 合作伙伴