本帖最后由 ym 于 2015-8-14 10:20 编辑

我新发布了一个采集规则:
新浪微博_话题


详细信息:
采集微博热门话题下的博文信息,可用于分析话题的传播效果、舆论走向、用户心理行为、讨论热点等;微博采集需要登录账号,且要定期(1/2天)更换微博账号,降低封锁风险。      可与新浪微博_博主主页、新浪微博_博主详细信息、新浪微博_搜索列表、新浪微博_评论等规则资源结合使用,能够实现更加全面深入的分析研究。

希望大家喜欢!下载地址:
http://www.gooseeker.com/res/detail_89133.html
举报 使用道具
| 回复

共 35 个关于本帖的回复 最后回复于 2017-1-3 09:05

沙发
sosoends 新手上路 发表于 2015-10-7 13:55:23 | 只看该作者
这个能用吗
举报 使用道具
板凳
gooseeker_info 金牌会员 发表于 2015-10-7 14:54:01 | 只看该作者

能用,下载了不能用可以申诉
举报 使用道具
地板
yw0411 新手上路 发表于 2016-1-5 09:53:43 | 只看该作者
我想问一些具体的信息:对于任何话题都可以采集是吗?采集到的热门话题的评论数可以达到千级吗?这需要一天24小时都开着电脑吗?估计几天的时间可以采集到3000条左右的评论?
举报 使用道具
5#
ym 版主 发表于 2016-1-5 10:07:32 | 只看该作者
yw0411 发表于 2016-1-5 09:53
我想问一些具体的信息:对于任何话题都可以采集是吗?采集到的热门话题的评论数可以达到千级吗?这需要一天 ...

这个规则采集的是讨论某话题的微博,例如这种类型的网页http://weibo.com/p/100808652f582 ... f=www.gooseeker.com

如果话题下的讨论数已经不再增加,那么采集一遍就可以了,爬虫会一页页地采集直到最后一页为止,但微博有个反爬机制,大约翻页30多页,就会失败,如果超过这个页数的话,可以构造每一页的网址再去采集。想要持续跟踪采集的话,就要隔一段时间重新采集一遍,这个就得由自己手工执行了
举报 使用道具
6#
Fuller 管理员 发表于 2016-1-5 12:12:41 | 只看该作者
yw0411 发表于 2016-1-5 09:53
我想问一些具体的信息:对于任何话题都可以采集是吗?采集到的热门话题的评论数可以达到千级吗?这需要一天 ...

爬虫可以很快速地运行,但是新浪微博会防爬。要分布到多台计算机上运行,比如,联络自己的同学或者朋友。
举报 使用道具
7#
123challenge 新手上路 发表于 2016-1-25 14:10:09 | 只看该作者
挺好的
举报 使用道具
8#
goalkeeperhouse 初级会员 发表于 2016-3-16 13:51:22 | 只看该作者
下载之后有些内容抓不到啊
举报 使用道具
9#
Fuller 管理员 发表于 2016-3-16 15:17:23 | 只看该作者
goalkeeperhouse 发表于 2016-3-16 13:51
下载之后有些内容抓不到啊

是不是抓取中断了?

根据抓取结果文件,你就会知道在哪一页中断了,那么就把那个网址作为线索加入进去,就能接上抓取。因为在URL中有个数字代表页码
举报 使用道具
10#
goalkeeperhouse 初级会员 发表于 2016-3-16 22:51:58 | 只看该作者
Fuller 发表于 2016-3-16 15:17
是不是抓取中断了?

根据抓取结果文件,你就会知道在哪一页中断了,那么就把那个网址作为线索加入进去, ...

直接不能抓取。。。没有结果文件。。。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 12:45