6 12824

爬取过程只爬取网页一部分

joanne 于 2017-7-19 08:54 发表 [复制链接]
这个问题要如何解决
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-7-20 13:38

Fuller 管理员 发表于 2017-7-19 08:55:10 | 显示全部楼层
主题名是什么?我看看是不是规则有问题
举报 使用道具
joanne 初级会员 发表于 2017-7-19 09:03:04 | 显示全部楼层
Fuller 发表于 2017-7-19 08:55
主题名是什么?我看看是不是规则有问题

东方财富爬取
举报 使用道具
Fuller 管理员 发表于 2017-7-19 09:12:32 | 显示全部楼层

规则没有问题,而且这个列表也不是特别长。你观察到的只抓取一部分,是后面部分还是穿插在中间的漏数据?

东方财富网有时候速度会很慢。你采集的时候一台电脑同时运行了多少个DS打数机窗口?
举报 使用道具
joanne 初级会员 发表于 2017-7-19 09:14:29 | 显示全部楼层
Fuller 发表于 2017-7-19 09:12
规则没有问题,而且这个列表也不是特别长。你观察到的只抓取一部分,是后面部分还是穿插在中间的漏数据? ...

后面部分 一开始只有一部分 后来大部分都只能爬取一半甚至更少 然后再后面又可能恢复正常一点 然后再漏数据
我一共开了9个打数机
举报 使用道具
shenzhenwan10 金牌会员 发表于 2017-7-19 10:51:11 | 显示全部楼层
把滚屏功能打开, 滚屏次数可以设置成2, 延迟抓取设置成5, 我测试你的规则抓取数据是全的

同一台电脑开9个打数机爬同一个网站不合适, 很容易造成被封锁, 需要减少窗口数量, 比如只开2到4个窗口, 具体要根据你抓取的情况来调整

定期清cookie和换ip是必需的, 因为很多网站会统计同一个ip访问的累计量, 据此限制访问
举报 使用道具
joanne 初级会员 发表于 2017-7-20 13:38:26 | 显示全部楼层
shenzhenwan10 发表于 2017-7-19 10:51
把滚屏功能打开, 滚屏次数可以设置成2, 延迟抓取设置成5, 我测试你的规则抓取数据是全的

同一台电脑开9个 ...

只开两个爬虫群 延迟10秒 滚屏次数8 滚屏速度2
照样抓不全 很崩溃
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:47