按照每个小时的顺序,在使用微博关键词采集后,所收集到的帖子只是每个小时的最后一两分钟。比如19.00/20.00 之间的微博,只搜集到了19.59的微博。这个问题如何解决呢?

举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2019-7-7 09:05

沙发
Fuller 管理员 发表于 2019-7-4 22:25:36 | 只看该作者
这一两分钟时间内的收集到多少条?

你采集的关键词是什么?我测试一下
举报 使用道具
板凳
liandarla 新手上路 发表于 2019-7-5 03:20:39 | 只看该作者
谢谢回复。30条,我看了别的答案,是我没有打开gooseeker 浏览器的缘故。可我打开后,所搜集的微博应该是在4月10日的0点到一点的微博,可是搜集的结果是今天的微博,而且与关键词 兴教寺 无关,只是关于7月什么的。
举报 使用道具
地板
liandarla 新手上路 发表于 2019-7-5 03:23:43 | 只看该作者
这个是pdf 文件

false.pdf

245.93 KB, 下载次数: 0

举报 使用道具
5#
Fuller 管理员 发表于 2019-7-5 08:48:12 | 只看该作者



我试了一下,这个词总共才搜到28页,都不用划分时间就可以采集下来了,如果划分很细,很多时间段是没有内容的,就会把不相关的当前热点内容抓取下来
举报 使用道具
6#
Fuller 管理员 发表于 2019-7-5 08:49:45 | 只看该作者
如果你只需搜索几个词,最好先手工看看这些词的微博数量,决定时间切分粒度。

如果很多次,每个看看不可行,那么就在导出结果以后,在excel中,把不相关的热微博删除。热微博都是当天的
举报 使用道具
7#
liandarla 新手上路 发表于 2019-7-5 20:26:04 | 只看该作者
Fuller 发表于 2019-7-5 08:49
如果你只需搜索几个词,最好先手工看看这些词的微博数量,决定时间切分粒度。

如果很多次,每个看看不可行 ...

感谢回复


举报 使用道具
8#
liandarla 新手上路 发表于 2019-7-5 23:26:59 | 只看该作者
你好,还有些问题。我搜索的是2013年4月10日关于兴教寺的微博。然后数量其实很多,就算分成每个小时,也多于30页。可是每次采集,都是能采集10页左右,就中断了。我多采集了几次,结果,打包时发现很多是重复采集。也就是无法删除原来采过的。我有两个问题,
1. 如何可以采集够30页?
2. 如何防止在重采失败线索时,出现重复的微博?
谢谢

举报 使用道具
9#
Fuller 管理员 发表于 2019-7-6 10:24:13 | 只看该作者
liandarla 发表于 2019-7-5 23:26
你好,还有些问题。我搜索的是2013年4月10日关于兴教寺的微博。然后数量其实很多,就算分成每个小时,也多 ...

2013年4月10日关于兴教寺的微博虽然比较多,可是0~8点其实没有微博的,9点以后微博才逐渐多了起来的。所以应该是把9~23点细分成每个小时。
举报 使用道具
10#
Fuller 管理员 发表于 2019-7-6 10:26:55 | 只看该作者
liandarla 发表于 2019-7-5 23:26
你好,还有些问题。我搜索的是2013年4月10日关于兴教寺的微博。然后数量其实很多,就算分成每个小时,也多 ...

如果你觉得某个任务采集的结果不理想,可以先把这个任务删除,然后再重新添加任务,这样数据就不会重复了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 01:20