11#
Fuller 管理员 发表于 2019-1-4 22:14:14 | 只看该作者
ritachen 发表于 2019-1-4 21:42
试了三次,确实采集了很长时间,但是最后采到的只有2条,可是问题有3000多条呢?最后都说脚本错误。捉急 ...

运行爬虫的时候,DS打数机的窗口是不是太小了?要尽量放大到最大,还可以把下面的日志也拉到隐藏
举报 使用道具
12#
ritachen 初级会员 发表于 2019-1-7 13:56:17 | 只看该作者
Fuller 发表于 2019-1-4 22:14
运行爬虫的时候,DS打数机的窗口是不是太小了?要尽量放大到最大,还可以把下面的日志也拉到隐藏
...

“独立话题动态采集”还是采集到0条,不知道为啥?

“知乎独立话题精选内容”也出现了采集“已停止?”,问题是“抓取失败(超时)”,“没有线索了”
https://www.zhihu.com/topic/19563759/top-answers 这是精选话题


举报 使用道具
13#
雨露晨曦 新手上路 发表于 2020-4-14 17:37:16 | 只看该作者
ritachen 发表于 2019-1-7 13:56
“独立话题动态采集”还是采集到0条,不知道为啥?

“知乎独立话题精选内容”也出现了采集“已停止?” ...

出现了相同的情况,不知道是什么原因
举报 使用道具
14#
Fuller 管理员 发表于 2020-4-14 23:07:16 | 只看该作者
雨露晨曦 发表于 2020-4-14 17:37
出现了相同的情况,不知道是什么原因

你添加的网址是什么?

知乎独立话题采集有好几个快捷工具,他们分别对应不同的网址,要选对工具。比如,知乎独立话题动态内容采集 这个工具对应的网址是:https://www.zhihu.com/topic/19589322/hot
就是下图所示的版块:


注意看这些快捷采集工具的样例网址,他们的网址样式是不同的,有的是 xxxx/hot,有的是 xxx/top-news,要选对工具


另外,知乎话题类网页是瀑布流的,翻不到底,要采集很久,最后达到了快捷采集工具设定的上限,才终止了。这个期间,采集任务一直处于“采集中”
举报 使用道具
15#
Fuller 管理员 发表于 2020-4-14 23:09:56 | 只看该作者
瀑布流网页是动态加载内容的,万一遇到网站忙,或者网络不稳定,就会看到网页内容加载不出来,就导致“已停止”。这时候可以导出采集结果。因为爬虫启动的时候会同时启动两个DS打数机窗口,一个采集内容,一个打包数据。不要关掉他们。

另外,采集数据的爬虫窗口尽量放大到最大,上面可以覆盖其他窗口,但是不能缩小他们
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 16:48