本帖最后由 yangsiyu233 于 2020-1-4 20:27 编辑

参考这篇对评论进行抓取翻页成功了https://www.gooseeker.com/doc/thread-11792-1-1.html
使用相同的方法抓取搜索页面的基本信息结果只在前两页循环,中间有两次测试时抓取到了第三页,但还是没办法实现一直翻页


举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2020-2-17 16:02

yangsiyu233 初级会员 发表于 2020-1-4 20:28:14 | 显示全部楼层
不知道为什么截图上传不了?
举报 使用道具
Fuller 管理员 发表于 2020-1-4 20:54:22 | 显示全部楼层
你做的规则名是什么?

爱彼迎的翻页挺麻烦的
举报 使用道具
yangsiyu233 初级会员 发表于 2020-1-4 20:58:48 | 显示全部楼层
民宿基本信息抓取测试
举报 使用道具
Fuller 管理员 发表于 2020-1-4 22:34:38 | 显示全部楼层
yangsiyu233 发表于 2020-1-4 20:58
民宿基本信息抓取测试

svg20200104222953.png

如上图查看翻页规则,可以看到xpath中有svg,不是html的标签,目前无法用含有这种标签的xpath。还没有发布的V10版本会解决这个问题。目前要绕开这个问题。我仔细看看怎么处理
举报 使用道具
Fuller 管理员 发表于 2020-1-4 22:51:07 | 显示全部楼层
要解决两个问题:
1,在创建规则工作台上,点击定位按钮,选择“偏好class”,不能选择绝对定位,否则到第二页就规则不适应了
2,解决循环翻页问题,参看这个帖子的“板凳”楼层:https://www.gooseeker.com/doc/thread-11792-1-1.html
举报 使用道具
tanzhizhi 新手上路 发表于 2020-2-16 16:29:31 | 显示全部楼层
Fuller 发表于 2020-1-4 22:51
要解决两个问题:
1,在创建规则工作台上,点击定位按钮,选择“偏好class”,不能选择绝对定位,否则到第 ...

把/svg手动修改成/*,点击保存修改之后,把修改窗口关闭,再点查看规则,会发现又变回/svg了,怎么解决?
举报 使用道具
Fuller 管理员 发表于 2020-2-16 16:51:27 | 显示全部楼层
tanzhizhi 发表于 2020-2-16 16:29
把/svg手动修改成/*,点击保存修改之后,把修改窗口关闭,再点查看规则,会发现又变回/svg了,怎么解决? ...

手工修改的规则,下次自动生成规则的时候就又变回去了,要自己记下来上次手工修改哪里了
举报 使用道具
tanzhizhi 新手上路 发表于 2020-2-16 17:55:01 | 显示全部楼层
Fuller 发表于 2020-2-16 16:51
手工修改的规则,下次自动生成规则的时候就又变回去了,要自己记下来上次手工修改哪里了
...

爱彼迎6.png 爱彼迎5.png 爱彼迎4.png 爱彼迎3.png 爬虫异常2.png 爬取不正常.png 大神能帮忙看看是什么情况吗,我是按你讲的/svg改写成/*的方法爬爱彼迎的评论,结果如图。
举报 使用道具
tanzhizhi 新手上路 发表于 2020-2-16 17:56:19 | 显示全部楼层
Fuller 发表于 2020-2-16 16:51
手工修改的规则,下次自动生成规则的时候就又变回去了,要自己记下来上次手工修改哪里了
...

只能爬一页,第二页的时候就匹配失败了。然后如果是翻页记号选择button的话,就只是一直循环爬第一页
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:58