【八爪鱼v7采集教程】再显示20条等按钮时解决方法
八爪鱼·云采集服务平台
http:// 【八爪鱼采集教程】再显示20条等按钮时解决方法
有些网页,我们在采集时可能有“加载更多”或者“再显示20条”等按钮。点击这些按钮之后,需要的数据才会完全显示出来。对于这种类型的网页,我们该如何解决并完整的采集出数据呢?
本文的入口地址为:http:///dianping/
打开这个网页之后可以看到,页面有“再显示20条”(图1)这个按钮。前面给大家讲过手动创建翻页循环的方法。其实这个网页也是一样的方法,我们把“再20条”这个按钮手动做一个循环点击。
显示
八爪鱼·云采集服务平台
http://
步骤一:选择八爪鱼中的“再显示20条”这个按钮,然后在操作提示中选择点击该链接。
八爪鱼出现再显示20条等按钮时解决方法-图2
以上操作之后,系统会自动添加一个点击步骤到流程中。打开“流程”,点击“自定义”,进入自定义定位方式界面,将下一页的Xpath复制出来(图3)。然后把创建的点击步骤删除(图4),因为我们让系统自动创建点击步骤,是为了得到下一页的Xpath。懂Xpath的朋友可以省掉这个步骤。
八爪鱼·云采集服务平台
http:// 八爪鱼出现再显示20条等按钮时解决方法-图3
八爪鱼·云采集服务平台
http://
八爪鱼出现再显示20条等按钮时解决方法-图4
步骤二:接下来,我们要创建循环点击。先拖一个循环步骤到流程中,打开高级选项,勾选点击单个元素,然后将之前复制的下一页的Xpath填到单个元素输入框中,点击“确定”(图5)。可以看到,循环列表是“再显示20条”这个内容(图6)
八爪鱼出现再显示20条等按钮时解决方法-图5
八爪鱼·云采集服务平台
http://
八爪鱼出现再显示20条等按钮时解决方法-图6
八爪鱼·云采集服务平台
http://
步骤三:拖入一个点击步骤到循环中,打开高级选项,勾选上点击当前循环中设置的元素,点击保存
八爪鱼出现再显示20条等按钮时解决方法-图7
注意:这个点击元素涉及到了ajax,勾选“Ajax加载数据”,设置时间为“2秒”,点击“确定”。前面教程里面给大家讲到了ajax的特征——通过八爪鱼浏览器下面的这个圈转没转,可以判断这个网页需不需要设置ajax。
八爪鱼·云采集服务平台
http://
八爪鱼出现再显示20条等按钮时解决方法-图8
步骤四:接下来创建循环采集列表(按照新手入门教程操作即可)。“循环提取数据”如果在“点击元素”之后(图9),应该将它拖到“点击元素”之前(图10)
八爪鱼·云采集服务平台
http:// 八爪鱼出现再显示20条等按钮时解决方法-图9:拖动之前
八爪鱼·云采集服务平台
http://
八爪鱼出现再显示20条等按钮时解决方法-图10:拖动之后
这个流程大家可以单机采集测试一下,可以看到原本只有135条评论,但是采集出来重复了420条。
注意:这个流程其实就是错误的,这是为什么呢?大家可以手动点击测试一下,第一次我们显示的是20条评论,然后进行提取20条。然后再在流程里面点击元素,可以看到这时候循环列表为40个,这之后再提取数据的话,就会提取刚刚已经提取过的那20条数据,如此循环下去,数据会一直重复。
对于这种类型的网页,我们做的流程应该如下图所示:即先把“再显示20条”全部点完,让所有评论加载完之后,再循环提取评论。相应的,流程图应该调整为:
八爪鱼·云采集服务平台
http://
八爪鱼出现再显示20条等按钮时解决方法-图12
调整完之后,我们再试着采集看看,这时候可正常采集,无重复数据。
相关采集教程:
美团商家信息采集
新浪微博数据采集
1688热门商品采集
八爪鱼——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
八爪鱼·云采集服务平台
http://
- 基于PLC控制的航空电镀生产线自动输送
- 中考预测课内外文言文对比阅读2
- 2018-2023年中国商业智能(BI)产业市场
- 中国金融体制改革研究2011new
- 外窗淋水试验方案
- 精益生产(Lean Production)
- 学校安全事故处置和信息报送制度
- Chapter 5 Human Resources Management
- 【小学数学】人教版小学六年级上册数学
- 初中数学解题方法与技巧
- 山东省创伤中心建设与管理指导原则(试
- 函数与数列的极限的强化练习题答案
- 10分钟淋巴按摩消脂
- 网络应急演练预案
- 服装设计入门基础知识
- 初二数学分式计算题练习
- (人教新课标)高二数学必修5第二章 数列
- 最新自主创业项目
- 北京大学 无机化学课件 4第4章 配合物
- 贸易公司业务管理制度




