11#
yhyl580 初级会员 发表于 2018-8-3 16:37:22 | 只看该作者
举报 使用道具
12#
yhyl580 初级会员 发表于 2018-8-3 16:37:41 | 只看该作者
yhyl580 发表于 2018-8-3 16:37
https://www.amazon.com/dp/B07DWWLQLK

出错的链接
举报 使用道具
13#
Fuller 管理员 发表于 2018-8-3 17:13:57 | 只看该作者

这样测试出错网址:
1,把规则加载到工作台上
2,在地址输入栏输入要测试的网址
3,选择菜单 规则-》刷新页面结构,再选择菜单 规则-》分析页面

我发现就是FBA这个抓取内容没有对应上,如果有的网页上没有这个字段,就不要勾关键内容
举报 使用道具
14#
yhyl580 初级会员 发表于 2018-8-3 19:07:39 | 只看该作者
Fuller 发表于 2018-8-3 17:13
这样测试出错网址:
1,把规则加载到工作台上
2,在地址输入栏输入要测试的网址

谢谢,我在看看。
在抓取的信息里面,SalesRank 显示的信息,18个结果里面只有2~3有,其它的都没有,不知道是什么情况导致抓不到信息的。请教一下。
举报 使用道具
15#
Fuller 管理员 发表于 2018-8-3 19:23:03 | 只看该作者
yhyl580 发表于 2018-8-3 19:07
谢谢,我在看看。
在抓取的信息里面,SalesRank 显示的信息,18个结果里面只有2~3有,其它的都没有,不知 ...

先观察你现在的数据规则


这里面有position()函数,这个是根据位置数字进行定位的,所以,容易受网页结构的影响,本来都做了定位标志映射的,其实不应该用position()函数。这是因为你采集的内容跨了两个区域,一个区域是上边的产品基本信息区,一个是下面的评价区。

跨区域大的时候,爬虫生成规则的时候,就可能以上面那个区域为基准,其他的都相对于他进行定位,所以出现了好多following-sibling。这个时候可以人工干预。


人工选择一个更大的区域做定位标志映射,映射给最顶上的节点detail,这个大区域包含了上面和下面两个区域。这样生成的规则就好了,这样适应性就会提高很多。

另外,跨度大的可以分成多个整理箱,一个整理箱负责一块
举报 使用道具
16#
yhyl580 初级会员 发表于 2018-8-6 16:48:08 | 只看该作者
谢谢,虽然我还没有解决,但有你的指导,我还是有方向的。
举报 使用道具
17#
yhyl580 初级会员 发表于 2018-8-6 16:48:22 | 只看该作者
Fuller 发表于 2018-8-3 19:23
先观察你现在的数据规则

谢谢,虽然我还没有解决,但有你的指导,我还是有方向的。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 09:00