分析Ajax来抓取今日头条街拍美图

还是根据崔大大的视频来码的文章，不得不说，抓取文件并下载下来比抓取网页内容信息复杂多了

目标站点分析

用浏览器打开今日头条输入‘街拍’，打开审查元素，点击‘图集’

1.首先我们要找到我们想要的街拍数据，这个一般是通过Ajax加载的，我们点击XHR选项，可以发现XHR项目里面的返回结果有我们想要的数据，当网页下拉时，后台（XHR里）会出现新的Ajax请求，发现还有参数offset变化，其他请求参数不变，即通过改变offset的值就可以拿到不同的数据

2.分析每一个页面的街拍美图，在Doc里有我们想要的图片的数据，我们可以用正则把我们想要的信息弄下来

抓取索引页内容

利用Requests请求目标站点，得到索引网页HTML代码和HTML代码，返回结果

抓取详情页内容

解析返回结果，得到详情页的链接，并进一步抓取详情页的信息

下载图片与保存数据库

将图片下载到本地，并把页面信息及图片URL保存到MongoDB（为啥要保存到数据库呢？）

开启循环及多线程

对多页内容遍历，开启多线程提高抓取速度

1.png

2.png

崔大大的这个爬虫视频涉及的知识点还是蛮多的，网页、数据库、包.....需要补充的知识点还是很多的