规则名:第一等级酒店评论0412
整理箱测试的时候都是正确的,样例复制没有问题,但是抓去数据的时候一直显示匹配失败,麻烦大神帮忙看看!谢谢!!!
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2019-4-12 15:30

Fuller 管理员 发表于 2019-4-12 15:18:04 | 显示全部楼层
我看到你用了绝对定位,适应性很差的,我加载你的规则,看到每个抓取内容都失败了 绝对定位20190412151548.png
绝对定位要求网页结构一定变化都没有才行,那里的position函数万一数字变了,就失效了。

尽量不用绝对定位,即使用,要把绝大多数抓取内容做上定位标志映射,尤其是最上面那个容器节点,用定位标志先在网页上划定一个范围
举报 使用道具
Fuller 管理员 发表于 2019-4-12 15:22:29 | 显示全部楼层
定位标志20190412152011.png

这个网站每个抓取内容都能找到好的定位标志,有些技巧要注意,比如,评论者用这个div做定位标志映射,他既有id也有class,缺省使用id,但是这个id还有一个唯一的标志号,这种一定要避免,否则只能采集到这个作者的信息,那么就双击抓取内容,在弹出窗口中勾class,就人为设定使用class了
举报 使用道具
Fuller 管理员 发表于 2019-4-12 15:30:20 | 显示全部楼层
自定义xpath20190412152411.png

第一个样例,没有评论者地区,对比观察第二个样例,发现是在div[@class='info_text']这个div下面的,那么先用这个div做内容映射。等所有的内容映射都完成了,点击“测试”,在输出窗口中转到“数据规则”窗口,找到评论者城市的xpath,拷贝下来,这个xpath作为定位节点用的xpath,然后再改造出一个来,用于提取数据,这个xpath应该跟自动生成的那个很像,只是后面的步骤不同,后面应该是div[@class='info_text']/div[@class='userLoc']才是含有城市信息的节点。得到的两个xpath分别填到定位用xpath和抓取内容用xpath两个输入框中。


自定义20190412152957.png

其他自定义xpath经验贴看这里:https://www.gooseeker.com/doc/thread-701-1-1.html




举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 21:12