求助 如何抓取含有emoji的微博
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2022-11-11 20:13

数据集 高级会员 发表于 2018-3-14 16:48:42 | 显示全部楼层
可以使用微博关键词搜索结果采集工具,输入关键词emoji,选择发布日期,就可采集含有关键词emoji的微博
举报 使用道具
Fuller 管理员 发表于 2018-3-14 16:49:37 | 显示全部楼层
你发个微博出来看看吧。这种表情符号,在网页上一定是有一个html标签或者css selector表示的,只要把那个标志采集下来就行。抓取内容的高级设置窗口中有采集网页片段的设置,就能采集html标签
举报 使用道具
Fuller 管理员 发表于 2018-3-14 16:54:31 | 显示全部楼层
表情符号.png
你可以把整个微博的内容以网页片段的方式采集下来,就会发现里面有个img标签,它的alt属性就是特定的类型。

一般要采集网页片段,因为一条微博中可能有好几个表情,要想精确采集一个个表情有点难,而采集网页片段可以一网打尽
举报 使用道具
clcwyanni 新手上路 发表于 2021-12-9 10:53:50 | 显示全部楼层
Fuller 发表于 2018-3-14 16:54
你可以把整个微博的内容以网页片段的方式采集下来,就会发现里面有个img标签,它的alt属性就是特定的类型 ...

我想采集包含某一些emoji的微博,不知道有没有可能实现?刚看了一下,采集下来的微博都不包含表情,这使得我想先采集,后筛选的可能也没有了吗?哭哭,求助
采集网页片段如何操作啊?
举报 使用道具
Fuller 管理员 发表于 2021-12-9 14:10:01 | 显示全部楼层
clcwyanni 发表于 2021-12-9 10:53
我想采集包含某一些emoji的微博,不知道有没有可能实现?刚看了一下,采集下来的微博都不包含表情,这使 ...

采集是已经采集下来了,但是emoji属于扩展字库,我们的数据库目前不支持扩展字库,一旦导成excel,就把emoji过滤掉了。

你可以利用本地结果文件,是xml格式的,可以读到excel中,稍微麻烦一些。或者也可以用python程序处理xml结果文件。

另外,如果表情是图片,那就得自己做采集规则了
举报 使用道具
yfrcindy 新手上路 发表于 2022-11-11 20:13:38 | 显示全部楼层
Fuller 发表于 2021-12-9 14:10
采集是已经采集下来了,但是emoji属于扩展字库,我们的数据库目前不支持扩展字库,一旦导成excel,就把em ...

微博emoji是图片形式,自编规则进行采集后好像只是把每条微博的emoji图片下载下来了,导出的Excel文件不能看到emoji在微博原文中的出现位置,要看emoji位置的话这种情况有好的解决方法吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:05