规则:AWS第二级抓取AWS第一级数据采集
出现的问题:AWS第二级抓取规则运行时候报错,49条有20几条报错,查了MS台,还是不知道原因,请截图说明一下,和要如何改
出现问题2:运行完2个工作台后,AWS第二级抓取数据导出后,标签“产品简介”和“类别1”内容抓取不到,查不到原因,请截图教一下我,谢谢~~
链接是:https://aws.amazon.com/marketplace/search/results?page=1&filters=fulfillment_options%2Caverage_rating&fulfillment_options=STACK&average_rating=100..500&searchTerms=
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-8-9 11:17

沙发
Fuller 管理员 发表于 2018-8-8 21:15:55 | 只看该作者


所有的都没有用定位标志映射,可以看到数据规则中全部是position函数,这种是绝对的定位方式,网页结构稍微变化就抓错了
举报 使用道具
板凳
gdzqlsr 新手上路 发表于 2018-8-9 09:52:18 | 只看该作者
在AWS第二级抓取的规则,怎么做定位标志映射呢,因为我没有找到有属性值(即id值或class值)
举报 使用道具
地板
Fuller 管理员 发表于 2018-8-9 11:09:34 | 只看该作者
gdzqlsr 发表于 2018-8-9 09:52
在AWS第二级抓取的规则,怎么做定位标志映射呢,因为我没有找到有属性值(即id值或class值) ...

第一个抓取内容的定位标志就很好


举报 使用道具
5#
Fuller 管理员 发表于 2018-8-9 11:12:46 | 只看该作者

第二个抓取内容,自己节点上有个class='title',搜索了一下,网页上有很多title,就不太合适,那就用上一级的那个class
举报 使用道具
6#
Fuller 管理员 发表于 2018-8-9 11:17:01 | 只看该作者
另外,为什么要单独采集“类别1”和“类别2”
类别2 也有合适的定位标志


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 02:07