头条新闻采集300多个就停止了,网页是无限加载的,是哪里没设置好吗?
举报 使用道具
| 回复

共 19 个关于本帖的回复 最后回复于 2017-2-23 15:51

沙发
ym 版主 发表于 2017-2-23 15:20:44 | 只看该作者
无限加载的网页(就是瀑布流网页)是容易断掉的,避免不了的。
你可以设置放慢滚屏速度,尽量加载出更多信息
举报 使用道具
板凳
抖抖olo一银桑诶嘿 初级会员 发表于 2017-2-23 15:22:20 | 只看该作者
配置里面对吧,越高越快?

举报 使用道具
地板
ym 版主 发表于 2017-2-23 15:22:47 | 只看该作者
不是,滚屏次数越大,滚屏越慢,要放慢速度才能加载出更多信息,详细看参数说明《滚屏参数》
举报 使用道具
5#
抖抖olo一银桑诶嘿 初级会员 发表于 2017-2-23 15:24:03 | 只看该作者
这个提示就是没有抓取内容了?

举报 使用道具
6#
ym 版主 发表于 2017-2-23 15:24:57 | 只看该作者
是说网址已经采集完了,如果要重新采集的话,需要激活线索
举报 使用道具
7#
抖抖olo一银桑诶嘿 初级会员 发表于 2017-2-23 15:26:04 | 只看该作者
本帖最后由 抖抖olo一银桑诶嘿 于 2017-2-23 15:29 编辑

谢谢啊,可以抓到了,就是太少了,只有300多少以后断了,可以自己手动翻页,让它采集吗

举报 使用道具
8#
ym 版主 发表于 2017-2-23 15:28:49 | 只看该作者
DS打数机的浏览器在采集时,是可以手工点击浏览器让它翻页的。但是瀑布流网页是滚屏加载的,没有翻页,只能滚屏加载到多少就采多少。
但是你可以定期采集,例如每天采集一遍,就能把最新的累计抓取了

举报 使用道具
9#
抖抖olo一银桑诶嘿 初级会员 发表于 2017-2-23 15:29:20 | 只看该作者
爬虫它能定时运行一次吗?
举报 使用道具
10#
ym 版主 发表于 2017-2-23 15:29:31 | 只看该作者
用爬虫群采集,设置定时激活线索就可以
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 03:10