21#
心诚泽霖 初级会员 发表于 2019-11-29 20:06:43 | 只看该作者
Fuller 发表于 2019-11-29 15:22
你的规则名字是什么?我让管理员加载测试一下

规则?我现在是搜理念包含“生育”的原创微博

举报 使用道具
22#
Fuller 管理员 发表于 2019-11-29 21:26:59 | 只看该作者
心诚泽霖 发表于 2019-11-23 20:53
https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97%A8%E7%BD%91%E7%AB%99&web=%E6%9 ...

你确定用的是这个快捷采集工具? https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97%A8%E7%BD%91%E7%AB%99&web=%E6%96%B0%E6%B5%AA%E5%BE%AE%E5%8D%9A&rule=%20TA%E7%82%B9%E8%B5%9E%E8%BF%87%E7%9A%84%E5%BE%AE%E5%8D%9A%E6%95%B0%E6%8D%AE


这个工具是用来采集点赞的,不是采集搜索结果的。
举报 使用道具
23#
心诚泽霖 初级会员 发表于 2019-11-29 21:56:30 | 只看该作者
Fuller 发表于 2019-11-29 21:26
你确定用的是这个快捷采集工具? https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97 ...

https://www.gooseeker.com/res/da ... C%E9%87%87%E9%9B%86

11.PNG (126.25 KB, 下载次数: 793)

11.PNG
举报 使用道具
24#
心诚泽霖 初级会员 发表于 2019-11-29 21:57:21 | 只看该作者
心诚泽霖 发表于 2019-11-29 21:56
https://www.gooseeker.com/res/datadiy.html?category=%E7%A4%BE%E4%BA%A4&web=%E6%96%B0%E6%B5%AA%E5%B ...

不好意思,之前不知道这个可以回复截图的

举报 使用道具
25#
心诚泽霖 初级会员 发表于 2019-11-29 21:59:38 | 只看该作者
心诚泽霖 发表于 2019-11-29 21:57
不好意思,之前不知道这个可以回复截图的

我的网址是这样生成的,因为最近几年比较多,所以我拆成了4个小时一个网址

22.PNG (99.18 KB, 下载次数: 751)

22.PNG
举报 使用道具
26#
Fuller 管理员 发表于 2019-11-29 22:15:39 | 只看该作者
心诚泽霖 发表于 2019-11-29 21:59
我的网址是这样生成的,因为最近几年比较多,所以我拆成了4个小时一个网址
...

根据你的截图,我设置了相同的搜索条件,得到这个网址:https://s.weibo.com/weibo/%25E4% ... 0-01-01&Refer=g
我看到总共有11个分页。我现在采集一下试试。

在快捷采集上要设置页数,因为有11页,所以,我设置了20

举报 使用道具
27#
Fuller 管理员 发表于 2019-11-29 22:20:33 | 只看该作者
我发现专门搜索原创微博的话,微博不稳定,有时候会出现下面的提示,但是,刷新几次页面就又会把内容显示出来。一旦遇到下面的提示,就无法继续翻页了


举报 使用道具
28#
心诚泽霖 初级会员 发表于 2019-11-29 22:47:26 | 只看该作者
Fuller 发表于 2019-11-29 22:20
我发现专门搜索原创微博的话,微博不稳定,有时候会出现下面的提示,但是,刷新几次页面就又会把内容显示出 ...

非常感谢你的耐心解答,缺失数据难道是因为这个原因?
我爬2009年的数据,发现很多今天的数据,我以为是某个网址中没有内容的时候会自动搜几条今天的

那么我想爬取热点微博或者原创微博,你们这里有什么好的方案吗?

11.PNG (151.06 KB, 下载次数: 767)

11.PNG
举报 使用道具
29#
Fuller 管理员 发表于 2019-11-29 23:37:30 | 只看该作者
心诚泽霖 发表于 2019-11-29 22:47
非常感谢你的耐心解答,缺失数据难道是因为这个原因?
我爬2009年的数据,发现很多今天的数据,我以为是 ...

网站不稳定很难处理。要多采集几遍。可以把每个分页的网址构造出来,交给爬虫去爬,如果只爬到今天的,说明没有显示出来内容,让爬虫再去爬一遍。

爬很多遍以后,应该都能爬全。就是要很费事
举报 使用道具
30#
Fuller 管理员 发表于 2019-11-29 23:38:41 | 只看该作者
也可以从断掉的那里开始爬,因为网址中含有页码,把断掉的网址构造出来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 09:47