规则名  头条女装  设置的滚屏2500次  为什么之抓取了600条数据  其他的都是重复的   滚屏的时候显示是抓取到昨天的  但数据却只到今天下午的

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-4-17 21:12

xandy 论坛元老 发表于 2017-4-9 18:08:40 | 显示全部楼层
滚屏抓取,滚一次会生成一次结果文件,因此这个文件会越来越大,最新生成的一个结果文件是最大的也就是最全的
举报 使用道具
congcong0730 新手上路 发表于 2017-4-9 18:15:54 | 显示全部楼层
我这个规则设置的正确吗  设置的滚屏次数2  总滚屏2000次 可以吗
举报 使用道具
congcong0730 新手上路 发表于 2017-4-9 18:19:34 | 显示全部楼层
还有就是  显示抓取成功  但可以更改设置提高抓取速度 这个需要更改什么设置
举报 使用道具
xandy 论坛元老 发表于 2017-4-9 18:25:57 | 显示全部楼层
congcong0730 发表于 2017-4-9 18:15
我这个规则设置的正确吗  设置的滚屏次数2  总滚屏2000次 可以吗

可以将总共滚屏数设置成-1,让滚屏次数没有限制。
同时你要在DS打数机上打开重复内容监测(勾选 高级->终点标志->重复内容中断),一旦发现抓到的都是重复内容,就中断连续动作。

举报 使用道具
xandy 论坛元老 发表于 2017-4-9 18:27:37 | 显示全部楼层
congcong0730 发表于 2017-4-9 18:19
还有就是  显示抓取成功  但可以更改设置提高抓取速度 这个需要更改什么设置 ...

170409 优化速度.png
去教程版块找怎么优化爬虫速度。

举报 使用道具
maomao 论坛元老 发表于 2017-4-9 18:28:09 | 显示全部楼层
congcong0730 发表于 2017-4-9 18:15
我这个规则设置的正确吗  设置的滚屏次数2  总滚屏2000次 可以吗

dingweibiaozhiyingshe.png

你设置的滚屏参数是对的,但是抓取的结果文件越来越大,结果文件开头的内容肯定都是最新的,大量重复内容。而且滚屏2000次似乎太多了,很可能内存耗完就崩溃了。瀑布流网页都有这个问题

我加载你的规则失败了,最好用上定位标志映射。但是 阅读 和 时间 的@class一样,要避开,否则会抓到一样的内容,要用父节点的@class做定位标志映射
举报 使用道具
congcong0730 新手上路 发表于 2017-4-9 18:41:14 | 显示全部楼层
xandy 发表于 2017-4-9 18:25
可以将总共滚屏数设置成-1,让滚屏次数没有限制。
同时你要在DS打数机上打开重复内容监测(勾选 高级->终 ...

第一次抓取是不是不能设置成-1  一直没有重复的内容  就会一直抓取下去

举报 使用道具
maomao 论坛元老 发表于 2017-4-9 21:54:31 | 显示全部楼层
congcong0730 发表于 2017-4-9 18:41
第一次抓取是不是不能设置成-1  一直没有重复的内容  就会一直抓取下去

...

那样就把爬虫跑崩溃了,所以,不能设置成-1
举报 使用道具
congcong0730 新手上路 发表于 2017-4-17 19:52:56 | 显示全部楼层
maomao 发表于 2017-4-9 18:28
你设置的滚屏参数是对的,但是抓取的结果文件越来越大,结果文件开头的内容肯定都是最新的,大量重复内 ...

时间和阅读  都抓取成了阅读  怎么避免  怎样做定位映射
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 00:11