您好。为什么这个网站每次抓取几十分钟就提示失败,就不能抓取了。如图所示,这是网页内部有反爬虫之类的么?求解答

举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2016-12-26 10:55

沙发
Fuller 管理员 发表于 2016-12-17 15:54:25 | 只看该作者
昨天我也抓了很长时间,发现几个小时之后的信息就循环了。这个网站需要连续不断地抓最新内容。比如,每隔10分钟抓一次,每次滚屏20屏,这样就能把最新出现的内容都抓下来
举报 使用道具
板凳
Givent 中级会员 发表于 2016-12-17 16:18:48 | 只看该作者
Fuller 发表于 2016-12-17 15:54
昨天我也抓了很长时间,发现几个小时之后的信息就循环了。这个网站需要连续不断地抓最新内容。比如,每隔10 ...

您的意思抓10分钟之后,再重新激活线索再抓取么?这个能自动设置么?还是必须人工手动的啊


举报 使用道具
地板
Givent 中级会员 发表于 2016-12-17 16:22:00 | 只看该作者
Givent 发表于 2016-12-17 16:18
您的意思抓10分钟之后,再重新激活线索再抓取么?这个能自动设置么?还是必须人工手动的啊


是设置成这样么
举报 使用道具
5#
Fuller 管理员 发表于 2016-12-17 16:22:49 | 只看该作者
Givent 发表于 2016-12-17 16:22
是设置成这样么

用连续动作就不能滚屏,滚屏次数设置成0
举报 使用道具
6#
Fuller 管理员 发表于 2016-12-17 16:30:37 | 只看该作者
Givent 发表于 2016-12-17 16:18
您的意思抓10分钟之后,再重新激活线索再抓取么?这个能自动设置么?还是必须人工手动的啊

自动的,你是旗舰版,可以设置频度很高的重新激活,要在本地设置一个crontab.xml文件,具体参看:《如何利用crontab实现周期性增量采集
举报 使用道具
7#
Givent 中级会员 发表于 2016-12-17 16:35:42 | 只看该作者
Fuller 发表于 2016-12-17 16:30
自动的,你是旗舰版,可以设置频度很高的重新激活,要在本地设置一个crontab.xml文件,具体参看:《如何 ...

我打开10个爬虫,然后在会员中心中分别点击调度?规则1正常抓取,规则2显示抓取失败。怎么回事?
另外规则2的线索怎么就一条啊?
举报 使用道具
8#
Fuller 管理员 发表于 2016-12-17 17:25:06 | 只看该作者
Givent 发表于 2016-12-17 16:35
我打开10个爬虫,然后在会员中心中分别点击调度?规则1正常抓取,规则2显示抓取失败。怎么回事?
另外规 ...

规则2是连续动作进入的规则,不能单独执行,单独执行肯定失败,因为还没有作动作,网页内容还没有显示对呢
举报 使用道具
9#
Givent 中级会员 发表于 2016-12-17 19:08:30 | 只看该作者
Fuller 发表于 2016-12-17 15:54
昨天我也抓了很长时间,发现几个小时之后的信息就循环了。这个网站需要连续不断地抓最新内容。比如,每隔10 ...


您看下,这样写的crontab文件对么?您说的设置滚屏20屏,在哪里设置啊。您不是说有连续动作滚屏次数就得是0么?求解答!
举报 使用道具
10#
Fuller 管理员 发表于 2016-12-17 20:29:05 | 只看该作者
Givent 发表于 2016-12-17 19:08
您看下,这样写的crontab文件对么?您说的设置滚屏20屏,在哪里设置啊。您不是说有连续动作滚屏次数就得 ...

天天有货车源1  和 天天有货车源12  这两个主题名都没有找到

规则里面用的是连续动作的点击动作吗?不用滚屏,那么 scrollMorePages就是对的,应该是0。点击多少次是应该在采集规则中定义
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 09:11