集搜客GooSeeker网络爬虫

标题: 求助 如何抓取含有emoji的微博 [打印本页]

作者: pangdudu0413    时间: 2018-3-14 16:31
标题: 求助 如何抓取含有emoji的微博
求助 如何抓取含有emoji的微博

作者: 数据集    时间: 2018-3-14 16:48
可以使用微博关键词搜索结果采集工具,输入关键词emoji,选择发布日期,就可采集含有关键词emoji的微博
作者: Fuller    时间: 2018-3-14 16:49
你发个微博出来看看吧。这种表情符号,在网页上一定是有一个html标签或者css selector表示的,只要把那个标志采集下来就行。抓取内容的高级设置窗口中有采集网页片段的设置,就能采集html标签

作者: Fuller    时间: 2018-3-14 16:54
[attach]8894[/attach]
你可以把整个微博的内容以网页片段的方式采集下来,就会发现里面有个img标签,它的alt属性就是特定的类型。

一般要采集网页片段,因为一条微博中可能有好几个表情,要想精确采集一个个表情有点难,而采集网页片段可以一网打尽

作者: clcwyanni    时间: 2021-12-9 10:53
Fuller 发表于 2018-3-14 16:54
你可以把整个微博的内容以网页片段的方式采集下来,就会发现里面有个img标签,它的alt属性就是特定的类型 ...

我想采集包含某一些emoji的微博,不知道有没有可能实现?刚看了一下,采集下来的微博都不包含表情,这使得我想先采集,后筛选的可能也没有了吗?哭哭,求助
采集网页片段如何操作啊?

作者: Fuller    时间: 2021-12-9 14:10
clcwyanni 发表于 2021-12-9 10:53
我想采集包含某一些emoji的微博,不知道有没有可能实现?刚看了一下,采集下来的微博都不包含表情,这使 ...

采集是已经采集下来了,但是emoji属于扩展字库,我们的数据库目前不支持扩展字库,一旦导成excel,就把emoji过滤掉了。

你可以利用本地结果文件,是xml格式的,可以读到excel中,稍微麻烦一些。或者也可以用python程序处理xml结果文件。

另外,如果表情是图片,那就得自己做采集规则了

作者: yfrcindy    时间: 2022-11-11 20:13
Fuller 发表于 2021-12-9 14:10
采集是已经采集下来了,但是emoji属于扩展字库,我们的数据库目前不支持扩展字库,一旦导成excel,就把em ...

微博emoji是图片形式,自编规则进行采集后好像只是把每条微博的emoji图片下载下来了,导出的Excel文件不能看到emoji在微博原文中的出现位置,要看emoji位置的话这种情况有好的解决方法吗?




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2