还是根据崔大大的视频来码的文章,不得不说,抓取文件并下载下来比抓取网页内容信息复杂多了
目标站点分析
用浏览器打开今日头条输入‘街拍’,打开审查元素,点击‘图集’
1.首先我们要找到我们想要的街拍数据,这个一般是通过Ajax加载的,我们点击XHR选项,可以发现XHR项目里面的返回结果有我们想要的数据,当网页下拉时,后台(XHR里)会出现新的Ajax请求,发现还有参数offset变化,其他请求参数不变,即通过改变offset的值就可以拿到不同的数据
2.分析每一个页面的街拍美图,在Doc里有我们想要的图片的数据,我们可以用正则把我们想要的信息弄下来
抓取索引页内容
利用Requests请求目标站点,得到索引网页HTML代码和HTML代码,返回结果
抓取详情页内容
解析返回结果,得到详情页的链接,并进一步抓取详情页的信息
下载图片与保存数据库
将图片下载到本地,并把页面信息及图片URL保存到MongoDB(为啥要保存到数据库呢?)
开启循环及多线程
对多页内容遍历,开启多线程提高抓取速度
1.png
2.png
崔大大的这个爬虫视频涉及的知识点还是蛮多的,网页、数据库、包.....需要补充的知识点还是很多的