721#
Fuller 管理员 发表于 2018-8-15 15:04:08 | 只看该作者
kkkxh123 发表于 2018-8-15 14:41
你好,请问每次采集话题都只有15条相应微博,是怎么回事呢?已经登录了微博 ...

你采集的是哪个话题?我们测试一下试试
举报 使用道具
722#
kkkxh123 新手上路 发表于 2018-8-16 21:14:51 | 只看该作者
Fuller 发表于 2018-8-15 15:04
你采集的是哪个话题?我们测试一下试试

#河南招生办回应答题卡被掉包#
#河南省教育厅回应答题卡掉包#
你好,就是这种话题~谢谢
举报 使用道具
723#
roywang1108 新手上路 发表于 2018-8-28 12:42:51 | 只看该作者
现在收集到的评论看不到回复内容,以及回复谁的,应该如何处理?
举报 使用道具
724#
Fuller 管理员 发表于 2018-8-28 20:34:05 | 只看该作者
roywang1108 发表于 2018-8-28 12:42
现在收集到的评论看不到回复内容,以及回复谁的,应该如何处理?

这个评论采集工具,原先没有打算采集评论的跟评,所以,采集可能不全。评论的跟评需要专门写采集规则
举报 使用道具
725#
12329234 初级会员 发表于 2018-9-14 16:56:41 | 只看该作者
现在微博评论不是翻页的了,换成点击更多,但是程序不能自动展开更多的评论,怎么办?
举报 使用道具
726#
Fuller 管理员 发表于 2018-9-14 18:29:25 | 只看该作者
12329234 发表于 2018-9-14 16:56
现在微博评论不是翻页的了,换成点击更多,但是程序不能自动展开更多的评论,怎么办? ...

我测试了一些。今天挺多话题,基本上都采集不了,你即使在浏览器中手工点击都没有反应

而那些商业信息,比如,vivo x23发售,鹿晗 等等,采集评论没有问题。

所有,应该是新浪微博做的限制,你先手工点击试试,如果不允许加载,就没有必要采集了
举报 使用道具
727#
candyluo5 中级会员 发表于 2018-9-17 00:49:44 | 只看该作者
你好我需要设置只采取originl的页面,去掉官方号,这没办法筛选应该怎么办
举报 使用道具
728#
Fuller 管理员 发表于 2018-9-17 09:06:13 | 只看该作者
candyluo5 发表于 2018-9-17 00:49
你好我需要设置只采取originl的页面,去掉官方号,这没办法筛选应该怎么办

你的意思是说只采集普通博客发的内容,不要各种官方微博发的内容?

你用哪个工具?如果用博主主页采集工具,是要输入一个个博客网址的,输入的时候手工剔除掉官微就行。

如果是搜索工具,应该在导出采集结果后,进行剔除。
举报 使用道具
729#
candyluo5 中级会员 发表于 2018-9-17 14:08:30 | 只看该作者
Fuller 发表于 2018-9-17 09:06
你的意思是说只采集普通博客发的内容,不要各种官方微博发的内容?

你用哪个工具?如果用博主主页采集工 ...

用的搜索关键词工具,请问怎么搜完之后剔除,会有一列属性信息显示他是否是官方微博么
举报 使用道具
730#
Fuller 管理员 发表于 2018-9-17 18:36:11 | 只看该作者
candyluo5 发表于 2018-9-17 14:08
用的搜索关键词工具,请问怎么搜完之后剔除,会有一列属性信息显示他是否是官方微博么
...

爬虫自己判断不了,但是可以通过爬这个博主的信息,能筛选出来哪个博主是哪类账号。

关键词搜索结果中有发博的博主链接,用这个链接导入到这个微博采集快捷工具: https://www.gooseeker.com/res/da ... D%E4%BF%A1%E6%81%AF ,采集以后会得到一个列表,里面标明了是哪类账号。用这个信息再与搜索结果表进行匹配和筛选。
这两个字段都可以用来识别是不是官微




举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 11:54