快捷导航
本帖最后由 HJLing 于 2017-4-26 14:11 编辑

集微库上线海报-横0425.jpg

1.  微博采集工具添加采集任务失败,为什么?
  • “微博博主主页采集工具”、“微博粉丝与关注者资料采集工具”和“博主详细信息采集工具”都只支持添加博主主页的网址。比如:
  1. http://weibo.com/u/5233485928?refer_flag=1001030103_&is_all=1
复制代码
  • “微博粉丝与关注者资料采集工具“不能采集自己的粉丝与关注者资料,因为自己在火狐登录的微博账户的主页结构和其他人的微博主页结构是不一样的。
  • “微博关键词搜索结果采集工具”中同条采集任务中添加的多个关键词要用英文逗号分隔。
  • “微博转发&评论内容采集工具”添加的网址是单条微博的独立网址而不是微博博主主页的网址。比如:
  1. http://weibo.com/5233485928/Dnhe86S8t?from=page_1006065233485928_profile&wvr=6&mod=weibotime&type=comment#_rnd1461313295485
复制代码
  • 微博热门话题采集工具”中的添加的话题前后要带有#,比如:#集搜客GooSeeker#。
  • 只支持电脑web的微博网址,不支持移动端mobile的微博网址
  1. 支持:http://weibo.com/u/5233485928
  2. 不支持:http://m.weibo.com/u/5233485928
复制代码


2. 采集状态一直显示为“待启动”是什么原因?
help_待启动.PNG
  •   请点击“待启动”按钮,可以查看详细操作步骤,如上图位置
  •   如果DS打数机已经运行了,而且也运行了爬虫群窗口,但是很长时间后仍然待启动,请检查:
      (1)检查DS打数机是否成功连接了服务器,服务器未连接如何解决请点击这里
      (2)检查DS打数机的账号和集搜客官网登录的账号是否一致。

3. 采集状态一直显示为“采集中”是什么原因?
      (1)查看DS打数机是否在爬取数据
  • 如果正在爬取表示数据正在爬取中,因为采集内容较多所以采集状态会较长时间停留在“采集中”,请耐心等待。假若你比较着急,可以再配置一个爬虫进行抓取。
  • 如果打数机没有运行,可能采集任务添加失败,请删除该采集任务后重新添加,假若仍然无效,请联系集搜客技术人员。

4. 采集数据不全?
      
        (1)微博博主主页采集工具
  1. 全部博文网址  http://weibo.com/u/1556888272?topnav=1&wvr=6&topsug=1&is_all=1  (数据全)
  2. 热门博文网址  http://weibo.com/u/1556888272?topnav=1&wvr=6&topsug=1&is_hot=1 (数据不全)
复制代码
        第一个网址是博主的“全部”博文版块,第二个网址是博主的“热门”博文版块,两者的微博数量是不一样的,要添加“全部”博文的网址才能获取全部的博文信息。进入某博主主页之后,点击“全部”,网址栏重新跳转后的网址就是“全部”博文的网址。
         16-11-02 微博定位全部.jpg
        另外,由于微博的限制,一次最多采集30页,可以选定时间段后再把网址添加进去采集,详情见《如何采集规定时间内的博主主页数据》
QQ截图20170217145911.png
        (2)微博粉丝与关注者资料采集工具
         由于微博限制了粉丝和关注者的可查看数量,因此该工具自动翻5页后将停止采集。
        (3)微博关键词搜索结果采集工具
        为了避免在采集过程中遇到验证码的情况,该工具只翻页抓取31页;如果你采集的微博数据超过31页,可以通过设置微博“发布时间”段来解决(前提要确保该时间段内采集页数少于31页)。         
        (4)微博评论和转发内容采集工具

        微博本身会限制翻页,所以就算是手动翻页也是翻不全的,所以能翻多少页就能采集多少页,全部能翻完的话就能全部采完,能翻一部分的话就只能采集一部分。

5. 采集中断了怎么办?      
      (1)微博博主主页采集工具

       如果博主发的微博很多,会有很多分页,很容易因为网速原因采集中断,那么,查看采集到的结果,估计翻到了多少页码,可以构造一个新网址,这是从中断处开始的网页。再次通过本界面添加进去,最好换一个博主名字,比如,这个网址最后的参数就含有页码信息:
  1. http://weibo.com/tongjiunivlibrary?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=41
复制代码

6. 如何提高采集速度?
        可以再配置一个爬虫,打开DS打数机。                        
  • 点击爬虫群>配置,勾选de_task1对应的自启动,点击保存;        
  • 点击爬虫群>启动,选择de_task1 auto,点击确定,等待几秒,DS打数机将会弹出。
        为避免封号,最多配置两个爬虫。

7. 如何提高下载速度?      
       (1)针对火狐浏览器
  1. about:config?filter=browser.safebrowsing.downloads.enabled
复制代码
        将上面一串代码复制进火狐网址栏,页面刷新后,点击”我保证会小心“按钮,双击图1中的一串代码,图1将切换成图2,值由true转变为false,下载速度将健步如飞。

图1

图1
图1

图2

图2
图2
若以上解答不能解决你的问题,请加群进行咨询(官方QQ群:472442022)


举报 使用道具
| 回复

共 563 个关于本帖的回复 最后回复于 昨天 22:07

xandy 版主 发表于 2016-3-1 11:00:25 | 显示全部楼层
在使用过程中有问题可以在本帖留言~~~
举报 使用道具
ml1691221 初级会员 发表于 2016-3-1 11:34:38 | 显示全部楼层
我想问两个问题:
1.数据的采集开始必须输出URL和对应的博主名称吗?我只有URL的话怎么处理?而且我想爬取2000多个用户,总不能一个个输入吧。。
2.在采集过程中,我看打数机是一直在进行数据个人用户爬取。。如果我要设定抓取一个用户200条微博或者我想爬取固定时间段的微博内容,我该怎样实习?
举报 使用道具
xandy 版主 发表于 2016-3-1 11:44:02 | 显示全部楼层
ml1691221 发表于 2016-3-1 11:34
我想问两个问题:
1.数据的采集开始必须输出URL和对应的博主名称吗?我只有URL的话怎么处理?而且我想爬取2 ...

你好,
1. 目前的博主采集工具是第一版本,第二版本我们将加入批量导入url的功能。
2. 关于限定页数和定时采集的功能,这个后续我们根据用户的反馈来进行功能改进。
举报 使用道具
xionghexiang 初级会员 发表于 2016-3-1 12:52:43 | 显示全部楼层
xandy 发表于 2016-3-1 11:44
你好,
1. 目前的博主采集工具是第一版本,第二版本我们将加入批量导入url的功能。
2. 关于限定页数和定 ...

那后续版本大约什么时间出现?此外,我添加任务后,马上显示停止,未抓取成功,这个如何解决?本人小白,非常感谢!
举报 使用道具
xandy 版主 发表于 2016-3-1 14:20:15 | 显示全部楼层
xionghexiang 发表于 2016-3-1 12:52
那后续版本大约什么时间出现?此外,我添加任务后,马上显示停止,未抓取成功,这个如何解决?本人小白, ...

后续版本近期就会上线,在社区的和官方QQ群我们实时通知的;
未抓取成功,你针对常见问题检查下步骤是否出错,最开始网址就不能添加错了,必须是博主主页的网址链接。
举报 使用道具
Fuller 管理员 发表于 2016-3-1 15:30:13 | 显示全部楼层
一个小技巧,如果一个博主的微博特别多,采集过程中很容易中断,可以从中断的地方接着采。
中断后接着采.PNG

看上图,余承东的微博太多,在35页的时候中断了,我把36页那个网址拷贝进来,博主名不能重复,所以,改成“余承东_2013”,添加后网络爬虫又开始工作了

举报 使用道具
xionghexiang 初级会员 发表于 2016-3-1 21:21:49 | 显示全部楼层
xandy 发表于 2016-3-1 14:20
后续版本近期就会上线,在社区的和官方QQ群我们实时通知的;
未抓取成功,你针对常见问题检查下步骤是否 ...

好的!谢谢!不知后续版本能否将微博评论者和转发者的信息也一并抓取呢?
举报 使用道具
xionghexiang 初级会员 发表于 2016-3-1 21:21:59 | 显示全部楼层
xandy 发表于 2016-3-1 14:20
后续版本近期就会上线,在社区的和官方QQ群我们实时通知的;
未抓取成功,你针对常见问题检查下步骤是否 ...

好的!谢谢!不知后续版本能否将微博评论者和转发者的信息也一并抓取呢?
举报 使用道具
Fuller 管理员 发表于 2016-3-1 21:50:30 | 显示全部楼层
xionghexiang 发表于 2016-3-1 21:21
好的!谢谢!不知后续版本能否将微博评论者和转发者的信息也一并抓取呢? ...

后续版本的计划在这里:http://www.gooseeker.com/doc/article-239-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 百度推广后台数据DIY
  • 采集表单中的input动态内容
  • 采用刷新动作实现手机页面采集
  • 通过划定滚轮范围实现精确点击手机页面
  • 放大或者缩小页面便于采集手机网页内容

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-11-22 05:19