规则名  头条女装  设置的滚屏2500次  为什么之抓取了600条数据  其他的都是重复的   滚屏的时候显示是抓取到昨天的  但数据却只到今天下午的

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-4-17 21:12

沙发
xandy 论坛元老 发表于 2017-4-9 18:08:40 | 只看该作者
滚屏抓取,滚一次会生成一次结果文件,因此这个文件会越来越大,最新生成的一个结果文件是最大的也就是最全的
举报 使用道具
板凳
congcong0730 新手上路 发表于 2017-4-9 18:15:54 | 只看该作者
我这个规则设置的正确吗  设置的滚屏次数2  总滚屏2000次 可以吗
举报 使用道具
地板
congcong0730 新手上路 发表于 2017-4-9 18:19:34 | 只看该作者
还有就是  显示抓取成功  但可以更改设置提高抓取速度 这个需要更改什么设置
举报 使用道具
5#
xandy 论坛元老 发表于 2017-4-9 18:25:57 | 只看该作者
congcong0730 发表于 2017-4-9 18:15
我这个规则设置的正确吗  设置的滚屏次数2  总滚屏2000次 可以吗

可以将总共滚屏数设置成-1,让滚屏次数没有限制。
同时你要在DS打数机上打开重复内容监测(勾选 高级->终点标志->重复内容中断),一旦发现抓到的都是重复内容,就中断连续动作。

举报 使用道具
6#
xandy 论坛元老 发表于 2017-4-9 18:27:37 | 只看该作者
congcong0730 发表于 2017-4-9 18:19
还有就是  显示抓取成功  但可以更改设置提高抓取速度 这个需要更改什么设置 ...


去教程版块找怎么优化爬虫速度。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
maomao 论坛元老 发表于 2017-4-9 18:28:09 | 只看该作者
congcong0730 发表于 2017-4-9 18:15
我这个规则设置的正确吗  设置的滚屏次数2  总滚屏2000次 可以吗



你设置的滚屏参数是对的,但是抓取的结果文件越来越大,结果文件开头的内容肯定都是最新的,大量重复内容。而且滚屏2000次似乎太多了,很可能内存耗完就崩溃了。瀑布流网页都有这个问题

我加载你的规则失败了,最好用上定位标志映射。但是 阅读 和 时间 的@class一样,要避开,否则会抓到一样的内容,要用父节点的@class做定位标志映射

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
congcong0730 新手上路 发表于 2017-4-9 18:41:14 | 只看该作者
xandy 发表于 2017-4-9 18:25
可以将总共滚屏数设置成-1,让滚屏次数没有限制。
同时你要在DS打数机上打开重复内容监测(勾选 高级->终 ...

第一次抓取是不是不能设置成-1  一直没有重复的内容  就会一直抓取下去

举报 使用道具
9#
maomao 论坛元老 发表于 2017-4-9 21:54:31 | 只看该作者
congcong0730 发表于 2017-4-9 18:41
第一次抓取是不是不能设置成-1  一直没有重复的内容  就会一直抓取下去

...

那样就把爬虫跑崩溃了,所以,不能设置成-1
举报 使用道具
10#
congcong0730 新手上路 发表于 2017-4-17 19:52:56 | 只看该作者
maomao 发表于 2017-4-9 18:28
你设置的滚屏参数是对的,但是抓取的结果文件越来越大,结果文件开头的内容肯定都是最新的,大量重复内 ...

时间和阅读  都抓取成了阅读  怎么避免  怎样做定位映射
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-1 10:23