举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-5-4 08:36

沙发
hg946902208 初级会员 发表于 2017-3-15 17:48:27 | 只看该作者
翻几页就会这样
举报 使用道具
板凳
ym 版主 发表于 2017-3-15 17:50:57 | 只看该作者
主题名是什么
举报 使用道具
地板
hg946902208 初级会员 发表于 2017-3-15 17:52:29 | 只看该作者
ym 发表于 2017-3-15 17:50
主题名是什么

企业连接1

举报 使用道具
5#
ym 版主 发表于 2017-3-15 18:06:26 | 只看该作者
我测试也遇到这种情况,未知协议的出现和重复数据,都是反爬的手段。
你可以把规则里的翻页设置删掉,然后手工构造每一页的页码网址,然后导入到规则里,直接批量采集每一页,这样就能避免翻页中断的问题,构造网址的操作参考《如何构造网址》的第一种方法
举报 使用道具
6#
hg946902208 初级会员 发表于 2017-3-15 18:33:36 | 只看该作者
ym 发表于 2017-3-15 18:06
我测试也遇到这种情况,未知协议的出现和重复数据,都是反爬的手段。
你可以把规则里的翻页设置删掉,然后 ...

我用了手动打网址的方法,不过还是采集不到公司名称和链接 请问这个怎么解决
举报 使用道具
7#
xandy 论坛元老 发表于 2017-3-15 21:35:34 | 只看该作者
hg946902208 发表于 2017-3-15 18:33
我用了手动打网址的方法,不过还是采集不到公司名称和链接请问这个怎么解决
...

问题:你的规则没有下级线索。
链接是可以采集到的,如下:

意思是让你在规则1中不要做翻页,可以做下级线索,下级线索的主题名是规则2,运行规则1之后会自动给规则2生成下级线索,然后统计规则2的线索数之后去运行。
参看教程:《采网址做层级采集——以大众点评为例》.



举报 使用道具
8#
Fuller 管理员 发表于 2017-3-15 21:42:16 | 只看该作者

好奇怪,我没有遇到过这种情况。这种情况确实会发生,这是浏览器内核的一个异常处理,我让研发人员检查一下
举报 使用道具
9#
qiushuju 新手上路 发表于 2017-5-4 08:36:10 | 只看该作者
给个你qq号码,急需你写采集规则,我qq824823173
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 07:53