4 10910

携程评论数据采集问题

boyistar 于 2020-7-5 16:47 发表 [复制链接]
任务名:携程评论数据采集
问题:1、在抓取的过程中,提示抓取成功,但速度太慢,尝试勾上定时器触发参数
2、上传xml打包的压缩包,导出后数据大量重复
主要是第一个问题,如何解决,看论坛其他人说,勾选后可能会导致一个页面没采集完就跳到下一页了,数据抓取不全,请问是否会有这样的情况


TIM图片20200705164126.png
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-7-5 17:51

Fuller 管理员 发表于 2020-7-5 16:54:20 | 显示全部楼层
DS打数机菜单 配置-》定时器触发,勾上以后就能解决这个问题
举报 使用道具
Fuller 管理员 发表于 2020-7-5 17:07:42 | 显示全部楼层
我用你的规则采集了一些,没有发现重复。如果网络比较慢,担心采集太早了,可以这样设置

如果是手工启动的爬虫,那么,使用DS打数机菜单 配置-》延迟抓取 ,设置延迟抓取,我测试的时候设置了5秒

如果是爬虫群方式,设置调度参数的时候设置延迟抓取
举报 使用道具
boyistar 初级会员 发表于 2020-7-5 17:40:59 | 显示全部楼层
Fuller 发表于 2020-7-5 17:07
我用你的规则采集了一些,没有发现重复。如果网络比较慢,担心采集太早了,可以这样设置

如果是手工启动的 ...

延迟抓取和定时触发这两个都勾上吗,还有一个问题,延迟抓取5秒设置后,会出现数据抓取不全的问题吗
举报 使用道具
Fuller 管理员 发表于 2020-7-5 17:51:19 | 显示全部楼层
boyistar 发表于 2020-7-5 17:40
延迟抓取和定时触发这两个都勾上吗,还有一个问题,延迟抓取5秒设置后,会出现数据抓取不全的问题吗
...

可以一起设置。延迟抓取设置了固定的数字,到底这个时间够不够,是不能自适应调整的,所以,也不可能保证一个不漏。为了尽量不漏,应该设置的时间长一点
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:58