35 23910

新浪微博_话题

ym 于 2015-8-13 15:34 发表 [复制链接]
本帖最后由 ym 于 2015-8-14 10:20 编辑

我新发布了一个采集规则:
新浪微博_话题


详细信息:
采集微博热门话题下的博文信息,可用于分析话题的传播效果、舆论走向、用户心理行为、讨论热点等;微博采集需要登录账号,且要定期(1/2天)更换微博账号,降低封锁风险。      可与新浪微博_博主主页、新浪微博_博主详细信息、新浪微博_搜索列表、新浪微博_评论等规则资源结合使用,能够实现更加全面深入的分析研究。

希望大家喜欢!下载地址:
http://www.gooseeker.com/res/detail_89133.html
举报 使用道具
| 回复

共 35 个关于本帖的回复 最后回复于 2017-1-3 09:05

sosoends 新手上路 发表于 2015-10-7 13:55:23 | 显示全部楼层
这个能用吗
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-10-7 14:54:01 | 显示全部楼层

能用,下载了不能用可以申诉
举报 使用道具
yw0411 新手上路 发表于 2016-1-5 09:53:43 | 显示全部楼层
我想问一些具体的信息:对于任何话题都可以采集是吗?采集到的热门话题的评论数可以达到千级吗?这需要一天24小时都开着电脑吗?估计几天的时间可以采集到3000条左右的评论?
举报 使用道具
ym 版主 发表于 2016-1-5 10:07:32 | 显示全部楼层
yw0411 发表于 2016-1-5 09:53
我想问一些具体的信息:对于任何话题都可以采集是吗?采集到的热门话题的评论数可以达到千级吗?这需要一天 ...

这个规则采集的是讨论某话题的微博,例如这种类型的网页http://weibo.com/p/100808652f582 ... f=www.gooseeker.com

如果话题下的讨论数已经不再增加,那么采集一遍就可以了,爬虫会一页页地采集直到最后一页为止,但微博有个反爬机制,大约翻页30多页,就会失败,如果超过这个页数的话,可以构造每一页的网址再去采集。想要持续跟踪采集的话,就要隔一段时间重新采集一遍,这个就得由自己手工执行了
举报 使用道具
Fuller 管理员 发表于 2016-1-5 12:12:41 | 显示全部楼层
yw0411 发表于 2016-1-5 09:53
我想问一些具体的信息:对于任何话题都可以采集是吗?采集到的热门话题的评论数可以达到千级吗?这需要一天 ...

爬虫可以很快速地运行,但是新浪微博会防爬。要分布到多台计算机上运行,比如,联络自己的同学或者朋友。
举报 使用道具
123challenge 新手上路 发表于 2016-1-25 14:10:09 | 显示全部楼层
挺好的
举报 使用道具
goalkeeperhouse 初级会员 发表于 2016-3-16 13:51:22 | 显示全部楼层
下载之后有些内容抓不到啊
举报 使用道具
Fuller 管理员 发表于 2016-3-16 15:17:23 | 显示全部楼层
goalkeeperhouse 发表于 2016-3-16 13:51
下载之后有些内容抓不到啊

是不是抓取中断了?

根据抓取结果文件,你就会知道在哪一页中断了,那么就把那个网址作为线索加入进去,就能接上抓取。因为在URL中有个数字代表页码
举报 使用道具
goalkeeperhouse 初级会员 发表于 2016-3-16 22:51:58 | 显示全部楼层
Fuller 发表于 2016-3-16 15:17
是不是抓取中断了?

根据抓取结果文件,你就会知道在哪一页中断了,那么就把那个网址作为线索加入进去, ...

直接不能抓取。。。没有结果文件。。。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 20:58