本文介绍使用八爪鱼7.0采集今日头条数据的方法
?
?
l?Ajax滚动加载设置
l?列表内容提取
?
今日头条:今日头条是北京字节跳动科技有限公司开发的一款基于数据挖掘的推荐引擎产品,为用户推荐信息,提供连接人与信息的服务的产品。由张一鸣于2012年3月创建,2012年8月发布第一个版本。今日头条通过算法解读微博、QQ等社交账号登陆的使用者的兴趣,进行精准的阅读内容推荐。
?
今日头条热点内容采集数据说明:本文进行了今日头条-热点内容信息的采集。本文仅以“今日头条-热点内容信息采集”为例,大家在实操过程中,可根据自身需求,更换今日头条的其他内容进行数据采集。
?
今日头条采集字段详细说明:内容标题,内容来源,内容评论数量,内容发布时间。
?
1)进入主界面,选择“自定义模式”
?
2)将要采集的网址URL,复制粘贴到网址输入框中,点击“保存网址”
?
3)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的信息是这次演示要采集的内容
l?设置打开网页步骤的ajax滚动加载时间
l?找到翻页按钮,设置翻页循环
l?设置翻页步骤ajax下拉加载时间
1)网页打开后,需要进行以下设置:打开流程图,点击“打开网页”步骤,在右侧的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔时间,一般设置2秒,这个页面的滚动方式,选择直接滚动到底部;最后点击确定
?
注意:今日头条的网站属于瀑布流网站,没有翻页按钮,这里的滚动次数设置将影响采集的数据量
?
?
1)如图,移动鼠标选中评论列表的方框,右键点击,方框底色会变成绿色,然后点击“选中子元素”
注意:点击右上角的“流程”按钮,即可展现出可视化流程图。
?
2)然后点击“选中全部”,将页面中需要需要采集的信息添加到列表中
?
注意:?在提示框中的字段上会出现一个“X”标识,点击即可删除该字段。
?
?
3)点击“采集以下数据”
?
4)修改采集字段名称,点击下方红色方框中的“保存并开始采集”
?
1)根据采集的情况选择合适的采集方式,这里选择“启动本地采集”
?
2)采集完成后,选择合适的导出方式,将采集好的数据导出