有什么办法可以在使用关键词高级搜索的同时展开原文吗?
数据量比较大,重新爬取比较耗时耗力
查看源代码发现 展开原文是是一个新的p tag

感觉技术上实现问题不大。。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2020-4-9 14:47

沙发
Fuller 管理员 发表于 2020-4-8 23:13:51 | 只看该作者
如果那个标签中有完整的微博内容,直接做规则,用内容映射的方式,把这个隐藏的html元素映射给抓取内容。

但是,我记得这个元素内容是空的,点击以后才填上内容。每点击一次是要花时间的。还存在一个问题,就是每点击一次都会采集一次内容,是采集当前整个网页,那么就会有大量的重复数据
举报 使用道具
板凳
sdt110 中级会员 发表于 2020-4-9 09:59:16 | 只看该作者
Fuller 发表于 2020-4-8 23:13
如果那个标签中有完整的微博内容,直接做规则,用内容映射的方式,把这个隐藏的html元素映射给抓取内容。

...


好像不用点击就可以看到  可以在关键词高级搜索那个快捷采集的基础上修改吗?还是需要我重新创建一个规则?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
Fuller 管理员 发表于 2020-4-9 11:16:46 | 只看该作者
sdt110 发表于 2020-4-9 09:59
好像不用点击就可以看到  可以在关键词高级搜索那个快捷采集的基础上修改吗?还是需要我重新创建一个规 ...

我也用chrome开发者工具看了,不点击看不到内容,我可能找了一条后面的微博,不是第一屏的,也许第一屏的微博预先加载了。

点击展开全文的时候,在开发者工具上能很明显地看到新建了一个div节点
举报 使用道具
5#
ym 版主 发表于 2020-4-9 11:20:01 | 只看该作者
可以把微博的详情链接(发布时间里就是微博详情链接)采集下来,详情里是展开全部博文的,对详情采集即可获取到完整博文。
集搜客有提供详情页面的采集工具《微博博文展开全部采集》,可以先用《微博关键词搜索结果采集工具》采集到微博的详情链接,再把链接添加到《微博博文展开全部采集》采集博文详情。

举报 使用道具
6#
sdt110 中级会员 发表于 2020-4-9 13:05:04 | 只看该作者
Fuller 发表于 2020-4-9 11:16
我也用chrome开发者工具看了,不点击看不到内容,我可能找了一条后面的微博,不是第一屏的,也许第一屏的 ...

可以啊 我也是从后面随便找的一页  而且你查看网页源代码 也是可以找到feed_list_content_full这个标签的。我自己新建规则,后面下载是不是还要转excel啊 有没有办法直接下下来就是excel啊
举报 使用道具
7#
Fuller 管理员 发表于 2020-4-9 14:47:40 | 只看该作者
sdt110 发表于 2020-4-9 13:05
可以啊 我也是从后面随便找的一页  而且你查看网页源代码 也是可以找到feed_list_content_full这个标签的 ...

爬虫采集下来的原始结果是xml格式的,想转成什么格式的你可以自己写程序处理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-22 06:27