我做的是蚂蜂窝的口碑采集http://www.mafengwo.cn/poi/5427323.html
主题名:森林公园口碑



不知道为什么用这方法在其他网页都可以翻页,而蚂蜂窝这不行呢?而且打数机没有采集数据下来
希望大家帮忙看看
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-2-15 10:44

沙发
ymyuanmo 初级会员 发表于 2017-2-14 11:13:45 | 只看该作者
<?xml version="1.0" encoding="UTF-8"?>
<spider-clue-extraction>
<theme>森林公园口碑</theme>
<scope>
<from>HTML</from>
<path-type>a</path-type>
<path>
//*[@class='pi']/@data-page//a[.//text()="后一页"]

</path>
<clue-type>inthread</clue-type>
<target-theme>
<name>森林公园口碑</name>
<prefix-position>hostname+pathname</prefix-position>
</target-theme>
</scope>
undefined
</spider-clue-extraction>
举报 使用道具
板凳
HJLing 版主 发表于 2017-2-14 11:33:38 | 只看该作者
翻页线索没有问题
是整理箱那里出问题了
加载规则报错
而且你说没有数据采集下来
就是第一页都采集不到
所以也翻不了页

给整理箱加上定位标志映射 这样也可以起到样例复制的作用的

举报 使用道具
地板
Fuller 管理员 发表于 2017-2-14 11:40:51 | 只看该作者
你的规则加载不了,我检查了后台数据,看到你的规则里面有这么一个xpath
  1. //*[@id='pagelet-block-6e6cc195ae7f829000e3ffaa6cee5056']/div/div[position()=4]/div[position()=1]/ul/li[position()>=1 and count(.//*[@class='name'])>0]
复制代码


里面有个id值,这个值可能是即时生成的,所以,定义规则的时候要避免这种短暂有效的id值,在“创建规则”工作台上,有个“定位”按钮,选择“偏好class”,看看生成数据规则能否避开这个id。

另外,手工做定位标志映射,可以避开自动选择的定位标志。
举报 使用道具
5#
Fuller 管理员 发表于 2017-2-14 11:55:10 | 只看该作者
马蜂窝这个网页设计得很好,有很多合适的class和id可以作为定位标志。其实可以不用样例复制,用定位标志映射实现多样例采集。如图,红色箭头是我标出来的可以利用的定位标志,映射给抓取内容,做定位标志映射可以提高规则的适应性。

举报 使用道具
6#
ymyuanmo 初级会员 发表于 2017-2-15 10:34:59 | 只看该作者
十分感谢HJLing版主和Fuller 管理员的帮助!问题已经解决了!用了定位标志映射就成功解决!
举报 使用道具
7#
ymyuanmo 初级会员 发表于 2017-2-15 10:36:05 | 只看该作者
从此以后成为GooSeeker的自来水啦!也多推荐同学来GooSeeker学习下!软件好用,而且问题有达人帮忙解惑
举报 使用道具
8#
xandy 论坛元老 发表于 2017-2-15 10:44:38 | 只看该作者
ymyuanmo 发表于 2017-2-15 10:36
从此以后成为GooSeeker的自来水啦!也多推荐同学来GooSeeker学习下!软件好用,而且问题有达人帮忙解惑 ...


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-9 06:23