快捷导航
34 76932

新浪微博数据采集攻略

ym 于 2016-12-20 11:18 发表 [复制链接]
本帖最后由 ym 于 2016-12-20 11:24 编辑

新浪微博页面的组合采集攻略如下(绿框是页面名称,橙色字体是采集结果表中的网址字段):

1、从“微博关键词搜索结果”展开采集更多页面信息

方法:从“微博关键词搜索结果”的数据表中,把“博主主页”这列的网址拷贝出来,然后点击“微博博主主页”的“输入多条网址”按钮,粘贴网址,就可以用后者实现批量数据采集。其它页面类似。


2、从“微博话题广场”展开采集更多页面信息

方法:从“微博话题广场”的数据表中,把“博主主页”这列的网址拷贝出来,然后点击“微博博主主页”的“输入多条网址”按钮,粘贴网址,就可以用后者实现批量数据采集。其它页面类似。

3、从“微博转发&评论内容”展开采集更多页面信息

方法:从“微博转发&评论内容”的数据表中,把“博主主页”这列的网址拷贝出来,然后点击“微博博主主页”的“输入多条网址”按钮,粘贴网址,就可以用后者实现批量数据采集。其它页面类似。

4、从“微博粉丝与关注者资料”展开采集更多页面信息
方法:从“微博粉丝与关注者资料”的数据表中,把“主页链接”这列的网址拷贝出来,然后点击“微博博主主页”的“输入多条网址”按钮,粘贴网址,就可以用后者实现批量数据采集。其它页面类似。

5、从“微博博主主页”展开采集更多页面信息
方法:从“微博博主主页”的数据表中,把“博文独立网址”这列的网址拷贝出来,然后点击“微博转发&评论内容”的“输入多条网址”按钮,粘贴网址,就可以用后者实现批量数据采集。

【附注】
数据DIY上可以找到很多网站下不同页面的采集入口,只要与样例网址是相同级别的网页,就可以用该页面的采集入口采集数据。因此,如果从数据DIY某个页面采集到网址,那么就可以找到该网址对应页面的采集入口,把批量网址添加进去,这也是数据DIY的出发点,让用户可以组合任意页面进行批量采集。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 34 个关于本帖的回复 最后回复于 2023-3-24 16:58

1548348930 新手上路 发表于 2020-2-18 11:12:50 | 显示全部楼层
点赞数据收集连翻页都翻不了??
举报 使用道具
Fuller 管理员 发表于 2020-2-18 11:17:14 | 显示全部楼层
1548348930 发表于 2020-2-18 11:12
点赞数据收集连翻页都翻不了??

你在集搜客浏览器上登录了微博没有?要在爬虫浏览器上登录微博,不是别的浏览器

另外,是不是爬太多了?如果爬太多了,就要清除cookie和缓存,有两种方法,参看这个帖子:https://www.gooseeker.com/doc/thread-4503-1-1.html

如果电脑安装了安全卫士,安全卫士的在线查杀会大幅度降低网页访问速度,尝试关掉安全卫士,比如360.

爬虫运行的时候,观察爬虫的窗口,看看点赞有没有显示出来?

另外,DS打数机窗口一定要放大到最大,不然的话,微博不给显示的。如果还要做其他事情,可以在DS打数机窗口上覆盖其他窗口,但是,就是不能最小化
举报 使用道具
zka123 新手上路 发表于 2020-4-13 10:37:31 | 显示全部楼层
微博有7000多个赞,只爬到了40多个人,怎么回事啊
举报 使用道具
Fuller 管理员 发表于 2020-4-13 10:50:31 | 显示全部楼层
zka123 发表于 2020-4-13 10:37
微博有7000多个赞,只爬到了40多个人,怎么回事啊

点赞人采集不了多少,因为微博有限制
举报 使用道具
zka123 新手上路 发表于 2020-4-13 10:57:49 | 显示全部楼层
我用的是新浪微博点赞数据采集,但采集的是评论的人,怎么回事
举报 使用道具
ym 版主 发表于 2020-4-13 11:40:49 | 显示全部楼层
zka123 发表于 2020-4-13 10:57
我用的是新浪微博点赞数据采集,但采集的是评论的人,怎么回事

《新浪微博点赞数据采集》爬取的就是点赞过的微博用户,工具页面底部有示例数据的结构,你可以核对下,如果还有问题,请把这个微博网址发出来和数据表发出来,我们这边测试看看是什么问题。
举报 使用道具
大杯炒酸奶 新手上路 发表于 2020-5-14 20:14:33 | 显示全部楼层
怎么爬取微博签到数据
举报 使用道具
maomao 论坛元老 发表于 2020-5-14 23:41:45 | 显示全部楼层
大杯炒酸奶 发表于 2020-5-14 20:14
怎么爬取微博签到数据

集搜客快捷工具







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
低频词汇 新手上路 发表于 2020-6-22 22:37:27 | 显示全部楼层
怎么爬取被@的数据
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 15:45