请问一下:我做了一个多页面层级抓取规则,在第一级规则中获得商品的网址,添加了二个爬虫路线:一个是下级线索(获得商品明细的页面),一个是记号线索(作用翻页)。在第二级规则中对商品明细进行抓取。在打数机中先运行第一级规则,选择单搜,填写了2。最后运行的结果怎么总是显示第一页面上的商品信息。好像翻页没有起作用。请大家给我指点指点,谢谢。


提取页面地址:http://xtu.organ.yunscholar.com/Achievement
这个是爬虫规则:
<?xml version="1.0" encoding="UTF-8"?>
<spider-clue-extraction>
<theme>xtu论文</theme>
<scope>
<from type="FreeFormat">transDOM_0</from>
<path-type>href</path-type>
<path>
//地址/text()

</path>
<clue-type>newthread</clue-type>
<target-theme>
<name>xtu论文_明细</name>
<prefix-position>hostname+pathname</prefix-position>
</target-theme>
</scope>
<scope>
<from>HTML</from>
<path-type>a</path-type>
<path>
//*[@class='org-navigation page']//a[.//text()="下一页"]

</path>
<clue-type>inthread</clue-type>
<target-theme>
<name>xtu论文翻页</name>
<prefix-position>hostname+pathname</prefix-position>
</target-theme>
</scope>
undefined
</spider-clue-extraction>



举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-9-9 14:22

沙发
shenzhenwan10 金牌会员 发表于 2017-9-9 14:22:21 | 只看该作者
你当前的主题名是:xtu论文
那么你翻页线索指向的主题名也应该是: xtu论文
你填写的翻页后的主题名: xtu论文翻页, 这个主题不存在
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 06:21