:有的网站的网页上没有中文下一页或英文NEXT,只有首页,数字1,2,3,......尾页(可能因为页面少),如何实现翻页功能呢?如http://leitai.500.com/pages/sfc/huiz.php?playtype=29

:GooSeeker网络爬虫有多重翻页模式,如果首选的“标记线索”无法找到合适的标记,那么可以用以下替代模式
1)相对线索:比如,【1】,2,3,4,【1】表示当前分页,2就是下一分页,那么选择“相对线索”类型,【1】是当前位置,2是下一位置
2)不使用连贯抓取:如果每个分页的网址都有独立的url,那么在“爬虫路线”工作台上不要勾选“连贯抓取”,会给每个分页生成独立的线索,当成独立的网页进行抓取
举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2015-9-11 09:33

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 18:26