在爬取去哪儿网酒店评论时爬取速度特别慢怎么解决,我用的是层级爬取就是按照视频教程里的步骤来的,不过在第二层的时候加上了翻页采集,然后第一层爬的还挺快的,第二层就爬的特别慢,一下午才爬取去了400多条
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2022-5-24 17:39

沙发
Fuller 管理员 发表于 2022-5-24 09:45:00 | 只看该作者
把你做的两级规则的名字都发出来,我检查一下看看
举报 使用道具
板凳
zhp2257485459 新手上路 发表于 2022-5-24 10:09:49 | 只看该作者
Fuller 发表于 2022-5-24 09:45
把你做的两级规则的名字都发出来,我检查一下看看

请您看一下是这个吗

QQ图片20220524100825.png (15.48 KB, 下载次数: 403)

是这个吗

是这个吗
举报 使用道具
地板
Fuller 管理员 发表于 2022-5-24 11:17:36 | 只看该作者
我看了你的规则,我建议在第二层那里,不要采集酒店名称,采集酒店名称以后,都不好做样例映射,不好采集多条评论。而且会造成规则适应性不高。如果遇到规则失败,采集速度就会大大减慢,因为每次失败都要等1分钟
举报 使用道具
5#
zhp2257485459 新手上路 发表于 2022-5-24 14:02:53 | 只看该作者
好的,谢谢,我试试
举报 使用道具
6#
zhp2257485459 新手上路 发表于 2022-5-24 16:00:22 | 只看该作者
Fuller 发表于 2022-5-24 11:17
我看了你的规则,我建议在第二层那里,不要采集酒店名称,采集酒店名称以后,都不好做样例映射,不好采集多 ...

您好我这回没有爬取酒店名称还是很慢

QQ图片20220524155958.png (15.51 KB, 下载次数: 403)

您看一下,谢谢

您看一下,谢谢
举报 使用道具
7#
Fuller 管理员 发表于 2022-5-24 17:28:28 | 只看该作者
zhp2257485459 发表于 2022-5-24 16:00
您好我这回没有爬取酒店名称还是很慢

你的电脑运行的时候,你觉得慢的是哪一级?第二级翻页吗?我这里测试很好。你有没有改动爬虫的配置参数?比如,超时时长、延迟抓取,不要改的太大





举报 使用道具
8#
zhp2257485459 新手上路 发表于 2022-5-24 17:39:43 | 只看该作者
Fuller 发表于 2022-5-24 17:28
你的电脑运行的时候,你觉得慢的是哪一级?第二级翻页吗?我这里测试很好。你有没有改动爬虫的配置参数? ...

第二级,好的谢谢

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 13:29