【启动采集前的配置】

  • 预先登陆网站:是
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问热门话题榜单页面;
  • 输入一个或多个搜索结果网址,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2022-3-4 18:06

沙发
lantax 新手上路 发表于 2017-10-19 16:36:18 | 只看该作者
怎么设置自动翻页
举报 使用道具
板凳
bowieD 金牌会员 发表于 2017-10-19 17:12:06 | 只看该作者
lantax 发表于 2017-10-19 16:36
怎么设置自动翻页

1,数据diy的可以在添加网址的页面设置翻页数;
2,如果是自己做规则的话,就需要用到记号线索。《翻页》

8.jpg (81.28 KB, 下载次数: 1613)

8.jpg
举报 使用道具
地板
vs1995 新手上路 发表于 2018-5-13 14:28:37 | 只看该作者
为什么用样本网址都失败了
举报 使用道具
5#
离离原上草 初级会员 发表于 2018-5-13 16:35:02 | 只看该作者
vs1995 发表于 2018-5-13 14:28
为什么用样本网址都失败了

我刚才测试了一下,是成功的。你确认一下这几个方面:
1,在GS网络爬虫浏览器上,要预先登录微博。是否登录了
2,热门话题榜单的采集工具入口是这个:https://www.gooseeker.com/res/datadiy.html?category=社交&web=新浪微博&rule=新浪微博发现_热门话题榜单 ,你选择的是否是这个
3,热门话题榜单和热门微博榜单是不同的。热门话题榜单的样本网址是这个:https://d.weibo.com/100803?refer=index_hot_new
举报 使用道具
6#
vs1995 新手上路 发表于 2018-5-13 17:38:16 | 只看该作者
离离原上草 发表于 2018-5-13 16:35
我刚才测试了一下,是成功的。你确认一下这几个方面:
1,在GS网络爬虫浏览器上,要预先登录微博。是否登 ...

好吧 ,成功了。还有个问题,我是想得到不同时间点的数据,但我每次得到的数据都又把前几次爬取到的加到前面,也就是有重复,怎么解决啊

举报 使用道具
7#
数据集 高级会员 发表于 2018-5-14 09:39:27 | 只看该作者
vs1995 发表于 2018-5-13 17:38
好吧 ,成功了。还有个问题,我是想得到不同时间点的数据,但我每次得到的数据都又把前几次爬取到的加到 ...

热门话题 如果是一小时更新一次  那就按一小时采集一次;如果是按24小热门话题,那就一天采集一次,有重复的可以通过Excel去重
举报 使用道具
8#
香樟树的耳语 新手上路 发表于 2019-11-3 18:06:10 | 只看该作者
可以搜集 与研究对象相关的 所有热搜榜话题吗?请问该怎么操作?
举报 使用道具
9#
Fuller 管理员 发表于 2019-11-3 23:53:31 | 只看该作者
香樟树的耳语 发表于 2019-11-3 18:06
可以搜集 与研究对象相关的 所有热搜榜话题吗?请问该怎么操作?

哪些研究对象?
举报 使用道具
10#
chenpengpeng01 中级会员 发表于 2022-3-3 11:20:13 | 只看该作者
你好 现在热门话题采集是不是不能用了
我用这个链接采集的数据  不对
https://huati.weibo.cn/discovery ... lfid=100803_-_super

示例链接:http://d.weibo.com/100803?refer=index_hot_new,就是跳到这个页面的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-31 12:53