11#
Fuller 管理员 发表于 2021-9-15 16:38:41 | 只看该作者
在定义爬虫路线工作台上,点击 测试 按钮,可以看到生成的翻页规则,把里面的xpath拷贝到搜索框,发现搜索到3个,说明每类内容有个翻页。规则只使用第一个,就翻不了页。我要我问问研发怎么解决

举报 使用道具
12#
Fuller 管理员 发表于 2021-9-15 16:51:13 | 只看该作者
研发告诉我一个方法:因为新版本暂时没有手工修改规则的功能,要用老版本爬虫加载规则以后修改规则,然后由新版本或者老版本来爬这个网站。

老版本爬虫在这里下载:https://www.gooseeker.com/pro/product.html

加载规则的方法参考教程,跟新版本界面有点不同:https://www.gooseeker.com/doc/article-124-1.html

如下图,点击测试按钮,看到生成的翻页规则,把红框原先的xpath拷出来,放在搜索框里面,一开始能搜索到3个节点,要修改xpath成:
(//*[@class='pageBar']//a[.//@class="next"])[3]
把这个xpath拷贝到红框位置,替换原来的。然后点击“保存修改”按钮,千万不要点击“存规则”按钮,存规则按钮会把手工修改的冲掉。

完成以后,既可以在新版爬虫里运行,也可以在老版本爬虫里运行。手工修改后的规则要生效,必须重新启动一下爬虫软件

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 23:50