我想采集http://218.94.78.91:19001/REG/f/announcement/announcementShow 这样的网址信息,现遇到以下问题:
1、采集前6页一切正常,然后就显示采集完成停止采集。
2、我就想着用连续动作从第7页开始采集,做第一级规则连续动作,规则名:环1  ;然后二级规则:环2;三级规则采集二级目录里面的信息,规则名环3,可是最后爬虫数据的时候,我搜索主题名环2采集,点击第7页也跳转不到第7页上面,最终也只能采集第一页的数据。
求大神指教指教

举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-7-5 14:23

shengchengx 金牌会员 发表于 2017-7-4 14:50:29 | 显示全部楼层
我刚测试的时候其实不用做连续动作也可以正常翻页的呢。用记号线索做翻页。
在打数机上面的配置-超长时间,时间设置长一点,我设置的15可以正常跑。
QQ截图20170704144858.jpg QQ截图20170704145009.jpg
举报 使用道具
jiangsuxincheng 初级会员 发表于 2017-7-5 08:51:01 | 显示全部楼层
你好,我刚重新做了规则,规则名为登记1,登记2,我改了时长15和30,可是还是采集到五六页就采集完成了
举报 使用道具
shengchengx 金牌会员 发表于 2017-7-5 09:20:22 | 显示全部楼层
jiangsuxincheng 发表于 2017-7-5 08:51
你好,我刚重新做了规则,规则名为登记1,登记2,我改了时长15和30,可是还是采集到五六页就采集完成了
...

你这边爬虫路线的记号线索定位编号有问题呢,不是映射a标签,是找到包含它翻页区域的所有节点呢。
QQ截图20170705091650.jpg
QQ截图20170705091900.jpg
具体可以看这个教程《翻页采集列表 》
具体看4.2.1这一部分。

举报 使用道具
jiangsuxincheng 初级会员 发表于 2017-7-5 12:48:02 | 显示全部楼层
我修改了下规则,采集到179页又提示采集完成了,这种情况我不管他是什么原因出现故障,我可以做3次规则,第一级规则做连续动作点击从179页开始采集,第二级规则采集数据,第三级规则采集二级目录,这样操作思路对吗
举报 使用道具
shengchengx 金牌会员 发表于 2017-7-5 14:23:20 | 显示全部楼层
jiangsuxincheng 发表于 2017-7-5 12:48
我修改了下规则,采集到179页又提示采集完成了,这种情况我不管他是什么原因出现故障,我可以做3次规则,第 ...

可以这样做呢,从断掉的那一也继续采集呢

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 05:03