1、规则:




2、不能全部翻页的线索举例:

2.1:这条线索有35页,只翻了12页。
https://gz.lianjia.com/ershoufang/xintang/

2.2:这条线索有26页,只翻了20页。
https://gz.lianjia.com/ershoufang/fenghuangcheng/

多谢!
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-11-11 22:15

沙发
Fuller 管理员 发表于 2018-10-31 11:43:08 | 只看该作者
我正在测试你的规则,还没有找到确切原因,有两个疑问:
1,翻页为什么不用记号线索?而是用了相对线索?记号线索最稳定
2,DS打数机自动滚屏有没有打开?菜单 配置-》滚屏参数,把滚屏次数设置成2就可以了
举报 使用道具
板凳
Fuller 管理员 发表于 2018-10-31 11:49:10 | 只看该作者
我用你的规则测试,没有遇到翻页中断的问题,我估计你没有打开自动滚屏
举报 使用道具
地板
dao0oad 初级会员 发表于 2018-10-31 12:48:57 | 只看该作者
Fuller 发表于 2018-10-31 11:43
我正在测试你的规则,还没有找到确切原因,有两个疑问:
1,翻页为什么不用记号线索?而是用了相对线索?记 ...

多谢指导!
用相对线索是因为有些网页的页面比较少,没有“下一页”的记号。
好的,我加上滚屏,我一直没太理解这个参数影响在哪里?最小化不是都可以抓吗?为什么还需要滚屏。
举报 使用道具
5#
dao0oad 初级会员 发表于 2018-10-31 12:49:27 | 只看该作者
Fuller 发表于 2018-10-31 11:49
我用你的规则测试,没有遇到翻页中断的问题,我估计你没有打开自动滚屏

我试一下滚屏,多谢!
举报 使用道具
6#
Fuller 管理员 发表于 2018-10-31 18:03:21 | 只看该作者
dao0oad 发表于 2018-10-31 12:48
多谢指导!
用相对线索是因为有些网页的页面比较少,没有“下一页”的记号。
好的,我加上滚屏,我一直没 ...

很多动态页面,如果窗口位置没有到那个显示内容,那个内容就不会加载,所以,抓取的时候应该把爬虫的窗口放大到最大,同时打开滚屏
举报 使用道具
7#
dao0oad 初级会员 发表于 2018-11-11 22:15:40 | 只看该作者
Fuller 发表于 2018-10-31 18:03
很多动态页面,如果窗口位置没有到那个显示内容,那个内容就不会加载,所以,抓取的时候应该把爬虫的窗口 ...

多谢解释!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 18:29