用微博话题采集器一直显示“ 等待分配采集任务”,而且采集出的数据不是我输入的关键词啊,数据还很少就几条。。。
这怎么破啊~
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-5-5 23:50

沙发
shengchengx 金牌会员 发表于 2017-5-5 17:09:26 | 只看该作者
检查打数机登录的账号和微博工具的账号是否一致
数据少是否登录微博了
举报 使用道具
板凳
HIbob12 新手上路 发表于 2017-5-5 17:17:04 | 只看该作者
shengchengx 发表于 2017-5-5 17:09
检查打数机登录的账号和微博工具的账号是否一致
数据少是否登录微博了

微博确认登录了,打数机登录的账号和微博工具的账号也是一致的

举报 使用道具
地板
Fuller 管理员 发表于 2017-5-5 17:26:59 | 只看该作者
HIbob12 发表于 2017-5-5 17:17
微博确认登录了,打数机登录的账号和微博工具的账号也是一致的

如果你安装的是GS网络爬虫独立软件,那么先在GS浏览器中登录微博;如果安装的是火狐插件版,那么先在火狐登录微博。如果不登录,往往会在显示结果页面出现最新的热微博。

目前,为了防止微博封锁网络爬虫,我们特意把调度周期调的比较长,所以,等待下一轮采集的时间比较长。这几天我们正在调整这个调度周期,会变快,不过容易被微博封锁。

注意观察,用手工搜索的方式,看看微博是否被封锁了,从而看不到想要的内容
举报 使用道具
5#
HIbob12 新手上路 发表于 2017-5-5 17:47:27 | 只看该作者
Fuller 发表于 2017-5-5 17:26
如果你安装的是GS网络爬虫独立软件,那么先在GS浏览器中登录微博;如果安装的是火狐插件版,那么先在火狐 ...

谢谢你~
我用的GS独立软件,也确实是登录了微博,手动检查也没有问题,但采集的数据是重复的。
我用采集微博关键词就没有遇到这个情况

举报 使用道具
6#
Fuller 管理员 发表于 2017-5-5 18:00:19 | 只看该作者
HIbob12 发表于 2017-5-5 17:47
谢谢你~
我用的GS独立软件,也确实是登录了微博,手动检查也没有问题,但采集的数据是重复的。
我用采集 ...

哪个话题?发出来我测试一下
举报 使用道具
7#
HIbob12 新手上路 发表于 2017-5-5 18:21:48 | 只看该作者
Fuller 发表于 2017-5-5 18:00
哪个话题?发出来我测试一下

额。。。
#我爱你#   和    #去死#
因为做的是和网络暴力相关的课题研究,这个略显尴尬。。。

举报 使用道具
8#
Fuller 管理员 发表于 2017-5-5 19:16:52 | 只看该作者
HIbob12 发表于 2017-5-5 18:21
额。。。
#我爱你#   和    #去死#
因为做的是和网络暴力相关的课题研究,这个略显尴尬。。。

我们测试了,翻页有问题,我们这两天尽快把这个问题解决了。你先不要运行了。
举报 使用道具
9#
Fuller 管理员 发表于 2017-5-5 19:23:59 | 只看该作者
话题浏览有点怪,我测试了一会,就发现翻页功能似乎就失灵了
举报 使用道具
10#
shenzhenwan10 金牌会员 发表于 2017-5-5 23:35:33 | 只看该作者
下午测试话题: #抗洪一线#  
很正常, 翻到十多页后我手工退出了
刚才测试话题: #我爱你#
无论用DS抓取, 还是直接在浏览器手工浏览, 都是翻到第二页后就不往后翻页了,点击下一页后还是显示第二页的内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 20:49