11#
goodhanbin 中级会员 发表于 2020-6-9 17:23:22 | 只看该作者
Fuller 发表于 2020-6-9 17:19
看样子是在这一页上不滚屏,就不会加载后面的内容。这个规则是不是连续动作以后出现的页面?连续动作以后 ...

所有页面,只要出现这个原素,都将会跳行,直接跳到下一页,

另外,这个规则,有加载滚屏

20200609跳过翻页.png (113.38 KB, 下载次数: 773)

20200609跳过翻页.png
举报 使用道具
12#
goodhanbin 中级会员 发表于 2020-6-9 17:27:36 | 只看该作者
Fuller 发表于 2020-6-9 17:20
用滚屏连续动作会产生一些冗余数据,因为滚一次采集一次

未作连续动作,详见附件动图

20200609未做连续动作.gif (652.54 KB, 下载次数: 811)

未做连续动作

未做连续动作
举报 使用道具
13#
Fuller 管理员 发表于 2020-6-9 17:32:32 | 只看该作者
goodhanbin 发表于 2020-6-9 17:27
未作连续动作,详见附件动图

那就是说,这些网址是独立网址,DS打数机把网页加载出来以后,自动滚屏。但是有采集不全的情况,对吧。

单独运行那个特别的网页,观察DS打数机的浏览器滚屏状况,能滚屏到底吗?
举报 使用道具
14#
goodhanbin 中级会员 发表于 2020-6-9 17:46:23 | 只看该作者
Fuller 发表于 2020-6-9 17:32
那就是说,这些网址是独立网址,DS打数机把网页加载出来以后,自动滚屏。但是有采集不全的情况,对吧。

...

可以滚屏到底,见动图
举报 使用道具
15#
goodhanbin 中级会员 发表于 2020-6-10 09:53:58 | 只看该作者
Fuller 发表于 2020-6-9 17:32
那就是说,这些网址是独立网址,DS打数机把网页加载出来以后,自动滚屏。但是有采集不全的情况,对吧。

...

另外,我测试,只采集一个字段:访客,其他字段,全部删除,也不行,也是一样,遇到店铺行为有文字时,跳行之后,直接翻页
举报 使用道具
16#
goodhanbin 中级会员 发表于 2020-6-11 11:17:34 | 只看该作者
Fuller 发表于 2020-6-9 17:32
那就是说,这些网址是独立网址,DS打数机把网页加载出来以后,自动滚屏。但是有采集不全的情况,对吧。

...

终于搞定,谢谢管理员,这些天,给予支持与无私帮助;
由于版本问题,做规则的时候,是用的爬虫软件做的,运行规则的时候,用的是采摘浏览器,可能规则会有一些不兼容问题,导致;一级规则,数据漏采,二级规则就停下来了,


解决方法:按管理员的建议,现在更新到最新版,二级规则,在第二页,一级规则采集之后,也能随之继续采集了,



再次感谢!!!
举报 使用道具
17#
Fuller 管理员 发表于 2020-6-11 11:55:56 | 只看该作者
goodhanbin 发表于 2020-6-11 11:17
终于搞定,谢谢管理员,这些天,给予支持与无私帮助;
由于版本问题,做规则的时候,是用的爬虫软件做的 ...


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 19:01