11#
心诚泽霖 初级会员 发表于 2019-11-25 21:07:58 | 只看该作者
心诚泽霖 发表于 2019-11-24 19:07
谢谢你,我应该选的是多条网址,2019年的爬取的条数挺多的,之前的都比较少。我再爬取一遍看看

...

还是不对,我先选取的“全部”,爬取出来,2016年1月还是18条,和原来一样
举报 使用道具
12#
wangyong 版主 发表于 2019-11-26 16:27:09 | 只看该作者
心诚泽霖 发表于 2019-11-25 21:07
还是不对,我先选取的“全部”,爬取出来,2016年1月还是18条,和原来一样
...

我试了一下能正常翻页,你在爬取的时候在集搜客浏览器里登录微博了吗?

举报 使用道具
13#
心诚泽霖 初级会员 发表于 2019-11-26 22:30:06 | 只看该作者
wangyong 发表于 2019-11-26 16:27
我试了一下能正常翻页,你在爬取的时候在集搜客浏览器里登录微博了吗?

...

登陆了的,最近的好像没问题,都有很多条,但是前两年的不全
举报 使用道具
14#
wangyong 版主 发表于 2019-11-27 09:23:20 | 只看该作者
心诚泽霖 发表于 2019-11-26 22:30
登陆了的,最近的好像没问题,都有很多条,但是前两年的不全

你把采集少的网址发出来
举报 使用道具
15#
心诚泽霖 初级会员 发表于 2019-11-27 21:58:39 | 只看该作者
wangyong 发表于 2019-11-27 09:23
你把采集少的网址发出来

https://s.weibo.com/weibo/%25E4%25BA%258C%25E8%2583%258E?q=%E4%BA%8C%E8%83%8E&xsort=hot&suball=1&timescope=custom:2016-01-01-0:2016-02-01=0&Refer=g

这个只采集到18条,搜索时差不多有500条

举报 使用道具
16#
Fuller 管理员 发表于 2019-11-28 17:35:15 | 只看该作者
心诚泽霖 发表于 2019-11-27 21:58
https://s.weibo.com/weibo/%25E4%25BA%258C%25E8%2583%258E?q=%E4%BA%8C%E8%83%8E&xsort=hot&suball=1&t ...

这个网址我测试了,我能采集全。我用的是微博采集工具箱。选择你想采集的时间。我建议你也用微博采集工具箱吧,那里的规则总是有人持续维护,确保可用:https://www.gooseeker.com/land/weibo.html
举报 使用道具
17#
心诚泽霖 初级会员 发表于 2019-11-28 20:31:08 | 只看该作者
Fuller 发表于 2019-11-28 17:35
这个网址我测试了,我能采集全。我用的是微博采集工具箱。选择你想采集的时间。我建议你也用微博采集工具 ...

你好,这里可以用自己的网址吗?那里的关键词搜索不能搜索热点微博,或者原创微博什么的
举报 使用道具
18#
Fuller 管理员 发表于 2019-11-28 22:52:51 | 只看该作者
心诚泽霖 发表于 2019-11-28 20:31
你好,这里可以用自己的网址吗?那里的关键词搜索不能搜索热点微博,或者原创微博什么的
...

微博工具箱只能输入关键词,选择发微博的时间,没有其他选项。

目前你是自己做的规则还是下载的规则?
举报 使用道具
19#
心诚泽霖 初级会员 发表于 2019-11-29 07:02:22 | 只看该作者
Fuller 发表于 2019-11-28 22:52
微博工具箱只能输入关键词,选择发微博的时间,没有其他选项。

目前你是自己做的规则还是下载的规则?

现在是利用微博的高级搜索工具,生成网址,利用网址下载

举报 使用道具
20#
Fuller 管理员 发表于 2019-11-29 15:22:43 | 只看该作者
心诚泽霖 发表于 2019-11-29 07:02
现在是利用微博的高级搜索工具,生成网址,利用网址下载

你的规则名字是什么?我让管理员加载测试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 03:37