快捷导航
集微库上线海报-横0425.jpg

1.  微博采集工具添加采集任务失败,为什么?
  • “微博博主主页采集工具”、“微博粉丝与关注者资料采集工具”和“博主详细信息采集工具”都只支持添加博主主页的网址。比如:
  1. http://weibo.com/u/5233485928?refer_flag=1001030103_&is_all=1
复制代码
  • “微博粉丝与关注者资料采集工具“不能采集自己的粉丝与关注者资料,因为自己在浏览器上登录的微博账户的主页结构和其他人的微博主页结构是不一样的。
  • “微博关键词搜索结果采集工具”中同条采集任务中添加的多个关键词要用英文逗号分隔。
  • “微博转发&评论内容采集工具”添加的网址是单条微博的独立网址而不是微博博主主页的网址。比如:
  1. http://weibo.com/5233485928/Dnhe86S8t?from=page_1006065233485928_profile&wvr=6&mod=weibotime&type=comment#_rnd1461313295485
复制代码
  • 微博热门话题采集工具”中的添加的话题前后要带有#,比如:#集搜客GooSeeker#。
  • 只支持电脑web的微博网址,不支持移动端mobile的微博网址
  1. 支持:http://weibo.com/u/5233485928
  2. 不支持:http://m.weibo.com/u/5233485928
复制代码


2. 采集状态一直显示为“待启动”是什么原因?
help_待启动.PNG
  •   请点击“待启动”按钮,可以查看详细操作步骤,如上图位置
  •   如果数据管家软件(新版爬虫软件)运行起来了,而且也运行了爬虫群窗口(其顶端页签的加载状态图标一直旋转),但是很长时间后仍然待启动,请检查:
      (1)检查数据管家软件是否成功连接了服务器(登录成功的话,底端状态条上有两个绿色图标),服务器未连接如何解决请点击这里
      (2)检查登录数据管家所用的账号和登录集搜客官网所用的账号是否一致,在数据管家浏览器中访问集搜客官网,如果登录不一致,会提示同步登录,此时要确认进行同步登录。

3. 采集状态一直显示为“采集中”是什么原因?
      (1)查看爬虫群窗口是否在爬取数据
  • 如果正在爬取,表示数据正在爬取中,因为采集内容较多所以采集状态会较长时间停留在“采集中”,请耐心等待。假若你比较着急,采集中也可以打包导出数据。
  • 如果爬虫群窗口没有运行任务(空白内容或者显示结束状态),可能采集任务添加失败,请重新创建任务试试,假若仍然无效,请联系集搜客技术人员。

4. 采集数据不全?
      
        (1)微博博主主页采集工具
  1. 全部博文网址  http://weibo.com/u/1556888272?topnav=1&wvr=6&topsug=1&is_all=1  (数据全)
  2. 热门博文网址  http://weibo.com/u/1556888272?topnav=1&wvr=6&topsug=1&is_hot=1 (数据不全)
复制代码
        第一个网址是博主的“全部”博文版块,第二个网址是博主的“热门”博文版块,两者的微博数量是不一样的,要添加“全部”博文的网址才能获取全部的博文信息。进入某博主主页之后,点击“全部”,网址栏重新跳转后的网址就是“全部”博文的网址。
         16-11-02 微博定位全部.jpg
        另外,如果微博条数很多,一口气采集完全部微博容易失败,那么,可以选定时间段后再把网址添加进去采集,详情见《如何采集规定时间内的博主主页数据》
QQ截图20170217145911.png
        (2)微博粉丝与关注者资料采集工具
         由于微博限制了粉丝和关注者的可查看数量,因此该工具自动翻5页后将停止采集。
        (3)微博关键词搜索结果采集工具
        因为微博关键词搜索结果只显示50页;如果你采集的微博数据超过50页,可以通过设置微博“发布时间”段来解决。         
        (4)微博评论和转发内容采集工具

        微博本身会限制翻页,所以就算是手动翻页也是翻不全的,所以能翻多少页就能采集多少页,全部能翻完的话就能全部采完,能翻一部分的话就只能采集一部分。

5. 采集中断了怎么办?      
      (1)微博博主主页采集工具

       如果博主发的微博很多,会有很多分页,很容易因为网速原因采集中断,那么,查看采集到的结果,估计翻到了多少页码,可以构造一个新网址,这是从中断处开始的网页。比如,这个网址最后的参数就含有页码信息:
  1. http://weibo.com/tongjiunivlibrary?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=41
复制代码

若以上解答不能解决你的问题,请加群进行咨询(官方QQ群:472442022)


举报 使用道具
| 回复

共 1479 个关于本帖的回复 最后回复于 2024-3-4 15:12

xandy 论坛元老 发表于 2016-3-1 11:00:25 | 显示全部楼层
在使用过程中有问题可以在本帖留言~~~
举报 使用道具
ml1691221 初级会员 发表于 2016-3-1 11:34:38 | 显示全部楼层
我想问两个问题:
1.数据的采集开始必须输出URL和对应的博主名称吗?我只有URL的话怎么处理?而且我想爬取2000多个用户,总不能一个个输入吧。。
2.在采集过程中,我看打数机是一直在进行数据个人用户爬取。。如果我要设定抓取一个用户200条微博或者我想爬取固定时间段的微博内容,我该怎样实习?
举报 使用道具
xandy 论坛元老 发表于 2016-3-1 11:44:02 | 显示全部楼层
ml1691221 发表于 2016-3-1 11:34
我想问两个问题:
1.数据的采集开始必须输出URL和对应的博主名称吗?我只有URL的话怎么处理?而且我想爬取2 ...

你好,
1. 目前的博主采集工具是第一版本,第二版本我们将加入批量导入url的功能。
2. 关于限定页数和定时采集的功能,这个后续我们根据用户的反馈来进行功能改进。
举报 使用道具
xionghexiang 初级会员 发表于 2016-3-1 12:52:43 | 显示全部楼层
xandy 发表于 2016-3-1 11:44
你好,
1. 目前的博主采集工具是第一版本,第二版本我们将加入批量导入url的功能。
2. 关于限定页数和定 ...

那后续版本大约什么时间出现?此外,我添加任务后,马上显示停止,未抓取成功,这个如何解决?本人小白,非常感谢!
举报 使用道具
xandy 论坛元老 发表于 2016-3-1 14:20:15 | 显示全部楼层
xionghexiang 发表于 2016-3-1 12:52
那后续版本大约什么时间出现?此外,我添加任务后,马上显示停止,未抓取成功,这个如何解决?本人小白, ...

后续版本近期就会上线,在社区的和官方QQ群我们实时通知的;
未抓取成功,你针对常见问题检查下步骤是否出错,最开始网址就不能添加错了,必须是博主主页的网址链接。
举报 使用道具
Fuller 管理员 发表于 2016-3-1 15:30:13 | 显示全部楼层
一个小技巧,如果一个博主的微博特别多,采集过程中很容易中断,可以从中断的地方接着采。
中断后接着采.PNG

看上图,余承东的微博太多,在35页的时候中断了,我把36页那个网址拷贝进来,博主名不能重复,所以,改成“余承东_2013”,添加后网络爬虫又开始工作了

举报 使用道具
xionghexiang 初级会员 发表于 2016-3-1 21:21:49 | 显示全部楼层
xandy 发表于 2016-3-1 14:20
后续版本近期就会上线,在社区的和官方QQ群我们实时通知的;
未抓取成功,你针对常见问题检查下步骤是否 ...

好的!谢谢!不知后续版本能否将微博评论者和转发者的信息也一并抓取呢?
举报 使用道具
xionghexiang 初级会员 发表于 2016-3-1 21:21:59 | 显示全部楼层
xandy 发表于 2016-3-1 14:20
后续版本近期就会上线,在社区的和官方QQ群我们实时通知的;
未抓取成功,你针对常见问题检查下步骤是否 ...

好的!谢谢!不知后续版本能否将微博评论者和转发者的信息也一并抓取呢?
举报 使用道具
Fuller 管理员 发表于 2016-3-1 21:50:30 | 显示全部楼层
xionghexiang 发表于 2016-3-1 21:21
好的!谢谢!不知后续版本能否将微博评论者和转发者的信息也一并抓取呢? ...

后续版本的计划在这里:http://www.gooseeker.com/doc/article-239-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 13:23