我是小白,才前两天注册账号开始看教程学。
做好的规则能爬到想要的数据,但是很多报错,希望有人能帮我分析分析,问题出在哪里?要怎么做才能解决这些问题?
先谢过了~
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-12-6 11:38

沙发
Fuller 管理员 发表于 2019-12-5 19:39:32 | 只看该作者
1,定义规则的时候,尽量用上定位标志映射,可以提高规则的适应性。可以看这个教程:https://www.gooseeker.com/doc/article-344-1.html
2,如果需要管理员诊断你的规则的话,要把任务名发出来
举报 使用道具
板凳
maxpopular 新手上路 发表于 2019-12-6 10:00:30 | 只看该作者
Fuller 发表于 2019-12-5 19:39
1,定义规则的时候,尽量用上定位标志映射,可以提高规则的适应性。可以看这个教程:https://www.gooseeker ...

你好,我的规则是:CM_AMAZON_3评论页面
麻烦帮我分析我的规则做的是不是有问题
举报 使用道具
地板
Fuller 管理员 发表于 2019-12-6 11:09:11 | 只看该作者
maxpopular 发表于 2019-12-6 10:00
你好,我的规则是:CM_AMAZON_3评论页面
麻烦帮我分析我的规则做的是不是有问题
...

我看了你的规则,做的很好。整理箱中给3个抓取内容勾上了关键内容,应该比较合适,勾的多了,有些网页缺失字段就会失败。你勾的数量比较合适。

我估计失败的原因是有些网页的3个关键内容的class值变了。我只能加载你的规则看,看不了你的线索。根据你上一次截图,你把线索编号记下来,根据这个帖子,在MS谋数台上加载分析失败线索,注意,集搜客浏览器上没有这个菜单,要用MS谋数台,在这个帖子上有介绍:https://www.gooseeker.com/doc/thread-662-1-1.html

你选的这个样本页面上的class值挺长的,我估计有些网页没有这么长的class,如果是这个原因,可以为这三个关键内容自定义xpath,自定义xpath的教程:https://www.gooseeker.com/doc/thread-701-1-1.html
举报 使用道具
5#
maxpopular 新手上路 发表于 2019-12-6 11:38:54 | 只看该作者
Fuller 发表于 2019-12-6 11:09
我看了你的规则,做的很好。整理箱中给3个抓取内容勾上了关键内容,应该比较合适,勾的多了,有些网页缺 ...

好的,非常感谢您!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 14:52