请教各位大神,有的微博内容很长,后面有“展开全文”按钮,遇到这样的如何抓取微博的“展开全文”的内容?
屏幕快照 2017-10-24 10.27.05.png
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2021-1-29 10:50

maomao 论坛元老 发表于 2020-7-2 10:33:27 | 显示全部楼层
现在集搜客有微博工具箱,用关键词搜索工具或者博主主页工具会批量采集到博文的独立链接,然后把这些链接添加到博文展开工具,就可以批量采集完整博文了。
举报 使用道具
wangyong 版主 发表于 2021-1-29 10:50:39 | 显示全部楼层

集搜客微博采集工具箱中通过微博关键词搜索结果采集工具微博博主主页采集工具或者其他微博工具采集微博数据时会采集下带有“展开全文”的数据

在采集结果中通过Excel将含有“展开全文”的数据筛选出来后
展开全文筛选.png

将其对应的“博文独立网址”添到微博博文展开全部采集中就可以将“展开全文”后的数据完整采集下来
展开全文添加.png

数据展示:

展开全文数据示例.png
举报 使用道具
数据集 高级会员 发表于 2017-10-24 11:04:23 | 显示全部楼层
本帖最后由 数据集 于 2017-10-24 11:08 编辑

用连续点击动作《连续动作》
1,第一级规则定义连续点击动作去点击“展开全文”
2,第二级规则抓取点击“展开全文”后展示的全部内容
举报 使用道具
114127670 新手上路 发表于 2017-10-24 15:49:33 | 显示全部楼层
谢谢。
举报 使用道具
Fuller 管理员 发表于 2020-7-2 10:49:58 | 显示全部楼层
以前大家采集微博的时候,一个不经意的操作可能导致采集不到数据:为了同时用电脑做别的事情,把爬虫窗口最小化了。 现在的数据管家产品会做提示,这是使用体验方面全面提升的一个案例。

爬虫窗口不能最小化,如果还想做别的事情,可以把别的窗口覆盖在爬虫窗口上面。但是,一旦最小化,浏览器是不会加载网页内容的。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:08