网页属于滚动鼠标,自动翻页加载的网页,到最后一页才会停止,学习瀑布流教程,设置规则总是失败,求大神指教!!!!谢谢!!!
规则:养老院全国
网址:https://www.yanglaocn.com/yanglaoyuan/yly/?PRSelect=1&RgSelect=1
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2022-3-8 10:42

沙发
Fuller 管理员 发表于 2022-3-8 07:47:49 | 只看该作者
1. 滚屏次数太大了,就不会加载新内容了。如果你的电脑是笔记本,屏幕小,那么滚屏次数可以填3,如果是台式机,滚屏次数填1
2. 目标任务名必须跟当前任务名一致
3. 有些网页不允许清除老数据,如果清除老数据影响了新数据加载,你把清除老删除清空试试
4. 这个网页要登录才能采集,登录试试
举报 使用道具
板凳
xueqing 初级会员 发表于 2022-3-8 10:05:09 | 只看该作者
Fuller 发表于 2022-3-8 07:47
1. 滚屏次数太大了,就不会加载新内容了。如果你的电脑是笔记本,屏幕小,那么滚屏次数可以填3,如果是台式 ...

已按照您的建议修改规则:1、任务名称改为一致;2、滚屏数量设为3;清除老数据删除;4、登录之后爬取;但是还是不成功,将抓取结果显示只滚动了三次就停止抓数据了。
任务:养老院全国
举报 使用道具
地板
Fuller 管理员 发表于 2022-3-8 10:41:21 | 只看该作者
xueqing 发表于 2022-3-8 10:05
已按照您的建议修改规则:1、任务名称改为一致;2、滚屏数量设为3;清除老数据删除;4、登录之后爬取;但 ...


我看你的规则没有问题,看看这里是否打开了重复内容中断,这里要关掉。这个网站太慢了,可能连续滚三屏都不见新内容加载出来
举报 使用道具
5#
Fuller 管理员 发表于 2022-3-8 10:42:30 | 只看该作者
因为没有设置清除老数据,会采集到大量重复数据,可能不只是100万条,有可能好几百万条
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 10:52