421#
gjcjonas 新手上路 发表于 2017-5-17 16:05:36 | 只看该作者
比如我爬的一条微博有w+的评论,怎么设置能让他只爬其中一部分呢
举报 使用道具
422#
Fuller 管理员 发表于 2017-5-17 16:26:42 | 只看该作者
gjcjonas 发表于 2017-5-17 16:05
比如我爬的一条微博有w+的评论,怎么设置能让他只爬其中一部分呢

评论没法控制,而且也不能从中间某个分页开始抓。而且特别容易中断,这么多评论,基本上抓不全,只能抓前面的
举报 使用道具
423#
wyz64213124 新手上路 发表于 2017-5-17 22:59:40 | 只看该作者
微博“展开全文”后的内容抓取不到,麻烦改进一下,谢谢。
举报 使用道具
424#
Fuller 管理员 发表于 2017-5-18 00:02:21 | 只看该作者
wyz64213124 发表于 2017-5-17 22:59
微博“展开全文”后的内容抓取不到,麻烦改进一下,谢谢。

这个的改进方法我们研究一下,用连续动作逐个点开可以抓取,但是速度会比较慢
举报 使用道具
425#
沐雪弦歌 新手上路 发表于 2017-5-21 13:34:57 | 只看该作者
选择了采集博主主页全部信息,采集主页一部分信息后,后面的页面无法加载出来,然后就显示加载完毕了。这个情况是什么原因?
举报 使用道具
426#
Fuller 管理员 发表于 2017-5-21 14:50:54 | 只看该作者
沐雪弦歌 发表于 2017-5-21 13:34
选择了采集博主主页全部信息,采集主页一部分信息后,后面的页面无法加载出来,然后就显示加载完毕了。这个 ...

这个微博网站的速度有关,可以从断掉的地方接上,就是手工翻页到断掉的地方,把网址拷贝下来,创建一个新任务,就能从这里开始抓取
举报 使用道具
427#
lqn326 新手上路 发表于 2017-5-28 11:57:26 | 只看该作者
我想采集一条微博下的评论,但是用这个工具一直不成功,没有反应,我检查了
1服务器连接正常
2也在gooseeker里登录了微博
3链接是该条微博的独立链接
但是弹出来的窗口一直显示的是“等待分配采集任务”
我是第一次用这个软件,还是个小白,看到提问区有人说要运行爬虫群才可以?但是操作指南上没有说这一步,我是漏掉了什么吗……
求高人指点!!!
举报 使用道具
428#
Fuller 管理员 发表于 2017-5-28 12:06:32 | 只看该作者
lqn326 发表于 2017-5-28 11:57
我想采集一条微博下的评论,但是用这个工具一直不成功,没有反应,我检查了
1服务器连接正常
2也在gooseeke ...

你是2016年10月份注册的,下载的爬虫软件是不是版本太低了,还有要检查打数机的登录账号是否和会员中心一致?打数机的账号这样看:

DS打数机-账号管理.png (129.86 KB, 下载次数: 432)

DS打数机-账号管理.png
举报 使用道具
429#
476181322 中级会员 发表于 2017-6-1 12:04:53 | 只看该作者
你好,请问要怎么设置群爬虫并行呢?
举报 使用道具
430#
xandy 论坛元老 发表于 2017-6-1 12:08:21 | 只看该作者
476181322 发表于 2017-6-1 12:04
你好,请问要怎么设置群爬虫并行呢?

参见:《怎样配置GooSeeker爬虫群
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 05:13