主题名:“材料抓取”,失败提示:抓取规则不合适或者时间设置太短,求大神分析一下什么原因
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-10-27 14:20

沙发
ym 版主 发表于 2017-10-26 20:24:10 | 只看该作者
可以看看这篇文章,把失败网址加载到规则里分析一下
http://www.gooseeker.com/doc/article-272-1.html
举报 使用道具
板凳
umsung 高级会员 发表于 2017-10-27 09:22:05 | 只看该作者
本帖最后由 umsung 于 2017-10-27 09:23 编辑

规则加载进去就报错了,内容映射和翻页线索全部报错了,不知道你要抓什么:
1,如果要抓第一级列表的地址,就把一级地址的网址内容映射给整理箱,然后再做样例复制
2,网页需要翻页,这个没有文本记号进行翻页,就需要把非文本映射为翻页记号,《翻页操作》都是一样的,用记号线索做翻页,你用的是定点线索,可参考《没有文本记号进行翻页,要用什么匹配 》
举报 使用道具
地板
jhtx2614 初级会员 发表于 2017-10-27 12:36:47 | 只看该作者
umsung 发表于 2017-10-27 09:22
规则加载进去就报错了,内容映射和翻页线索全部报错了,不知道你要抓什么:
1,如果要抓第一级列表的地址, ...

大神,请教您一下,http://senvol.com/5_material-results/这个网址的信息是不是有安全保护啊,麻烦帮我看看“主题名:senvol材料”,为什么成功之后抓取结果全是地址链接,无内容?谢谢!!
举报 使用道具
5#
bowieD 金牌会员 发表于 2017-10-27 14:20:16 | 只看该作者
本帖最后由 bowieD 于 2017-10-27 14:23 编辑
jhtx2614 发表于 2017-10-27 12:36
大神,请教您一下,http://senvol.com/5_material-results/这个网址的信息是不是有安全保护啊,麻烦帮我 ...

我这边加载进去报错了,规则似乎有问题,因为报错我这边检查不到,要采集什么内容就映射什么内容,做上定位映射,让爬虫能精确采集范围。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 21:15