用滚屏动作抓取瀑布流式网页时,滚屏次数设置的是0,滚屏速度设置的是1,并且在连续动作的设置中总共滚屏数设置的是-1,结束标志是重复内容,但是没有抓完就结束了。
样本网址是:https://www.indiegogo.com/search#/?q=no%20time%20left&ended
规则名是:indiegogo网址


举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-12-23 17:30

沙发
saly123 中级会员 发表于 2016-12-23 16:37:52 | 只看该作者

RE: 瀑布流式网页抓取中断


这个是日志的信息。请问一下原因是什么?

连续动作日志信息.png (23.91 KB, 下载次数: 578)

连续动作日志信息.png
举报 使用道具
板凳
xandy 论坛元老 发表于 2016-12-23 16:47:21 | 只看该作者

你这规则有问题,参照问题修改下

使用连续滚屏要关闭DS自带的滚屏,用重复内容判断结束
重复内容中断表示抓到重复的内容,试想下,滚屏每滚一次生成一个结果文件,这个结果文件会越来越大,如果滚到了底,那么结果文件的大小就不再变大了,重复内容中断的作用就是抓到重复的内容,判断已经滚到底了,就可以中断采集了。

另外,下面每次滚屏数,你要多调几次,这样才会达到最优,滚屏和网速也有一定的关系,所以自己多测试几次。



举报 使用道具
地板
saly123 中级会员 发表于 2016-12-23 16:56:51 | 只看该作者
xandy 发表于 2016-12-23 16:47
你这规则有问题,参照问题修改下

使用连续滚屏要关闭DS自带的滚屏,用重复内容判断结束重复内容中断表示 ...

那每次滚屏数是什么意思?越大越好,还是怎么样?
举报 使用道具
5#
xandy 论坛元老 发表于 2016-12-23 16:59:52 | 只看该作者
saly123 发表于 2016-12-23 16:56
那每次滚屏数是什么意思?越大越好,还是怎么样?

自己测试,调到最优,不同滚屏网站参数不同,没有固定的。
举报 使用道具
6#
saly123 中级会员 发表于 2016-12-23 17:18:55 | 只看该作者
xandy 发表于 2016-12-23 16:59
自己测试,调到最优,不同滚屏网站参数不同,没有固定的。

那和网速有什么关系吗?网速好就调大一点还是怎样?
举报 使用道具
7#
Fuller 管理员 发表于 2016-12-23 17:23:41 | 只看该作者
saly123 发表于 2016-12-23 17:18
那和网速有什么关系吗?网速好就调大一点还是怎样?

主要原因是:滚一屏的时候,网页会预先加载好几屏,一旦你设置了根据重复内容中断,你就要注意每次要多跨几步。具体跨几步,跟网站的设计有关,只能通过尝试才知道,基本上跟网速无关
举报 使用道具
8#
Fuller 管理员 发表于 2016-12-23 17:25:37 | 只看该作者
还有就是滚屏总数是-1的话,可能有内存被用完的风险,因为大部分网页往下滚屏的时候,上面的不删除,网页就会越来越大,大到超出极限的时候,DS打数机就闪退了
举报 使用道具
9#
saly123 中级会员 发表于 2016-12-23 17:27:28 | 只看该作者
Fuller 发表于 2016-12-23 17:25
还有就是滚屏总数是-1的话,可能有内存被用完的风险,因为大部分网页往下滚屏的时候,上面的不删除,网页就 ...

滚屏总数是-1表示没有滚屏没有限制,因为我也不知道那个网页到底有多少页。
举报 使用道具
10#
Fuller 管理员 发表于 2016-12-23 17:30:17 | 只看该作者
saly123 发表于 2016-12-23 17:27
滚屏总数是-1表示没有滚屏没有限制,因为我也不知道那个网页到底有多少页。
...

先试试吧,看看到几个小时以后会出现闪退。有些网站做的好,滚到下面就会删掉上面的内容,保证网页大小不会无限增长
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 08:07