801#
Fuller 管理员 发表于 2019-1-12 07:35:06 | 只看该作者
a_2606921936 发表于 2019-1-11 21:35
请问出现“已停止?”字样是什么意思?

是不是添加的链接不合适?你在采集微博的什么东西?把链接贴出来看看
举报 使用道具
802#
a_2606921936 新手上路 发表于 2019-1-15 17:23:03 | 只看该作者
没问题了,谢谢您!
举报 使用道具
803#
a_2606921936 新手上路 发表于 2019-1-15 17:23:52 | 只看该作者
个人主页上的性取向、感情状况、血型和MSN,是不是能爬取?我看在爬取下来的Excel表格中没有看到有关的采集。
举报 使用道具
804#
a_2606921936 新手上路 发表于 2019-1-22 10:20:00 | 只看该作者
个人主页上的性取向、感情状况、血型和MSN,是不是能爬取?我看在爬取下来的Excel表格中没有看到有关的采集。
举报 使用道具
805#
baixiaopang 中级会员 发表于 2019-1-25 11:08:43 | 只看该作者
我用这个下载了一些数据后,现在好像账号登录显示不全了。是什么原因呢?正常看是有好几页的,但是一开始执行就一页就没有了。
举报 使用道具
806#
Fuller 管理员 发表于 2019-1-25 13:48:31 | 只看该作者
baixiaopang 发表于 2019-1-25 11:08
我用这个下载了一些数据后,现在好像账号登录显示不全了。是什么原因呢?正常看是有好几页的,但是一开始执 ...

在集搜客浏览器登录微博了?网络怎么样?网速不好的话,可能网页会加载不出来
举报 使用道具
807#
lll777 新手上路 发表于 2019-1-29 18:43:15 | 只看该作者
您好,我是根据关键词搜索抓取微博数据的,有三个问题:
1.有的微博较长,在搜索页面中未显示全文,请问如何能够抓取到“展开全文”后的全文内容?
2.现采集到的博文内容中所有的表情符号都没有了,请问如何能够采集到博文中的所有表情符号?
3.对于很多转发类的微博,可否采集到微博正文下的被转发的原微博的博文内容?
谢谢回答!
举报 使用道具
808#
知识产权 高级会员 发表于 2019-1-29 20:35:33 | 只看该作者
lll777 发表于 2019-1-29 18:43
您好,我是根据关键词搜索抓取微博数据的,有三个问题:
1.有的微博较长,在搜索页面中未显示全文,请问如 ...

1,需要展开全文的微博可以用采集微博展开全文的数据DIY单独采一遍,通过“展开全文”将对应的微博独立链接筛选出来
2,表情不是文本内容是HTML表表签,如果是自定义采集规则可以对博文抓取HTML片段
3,用微博的转发内容采集工具可以采集微博的转发内容
举报 使用道具
809#
lll777 新手上路 发表于 2019-1-29 21:21:03 | 只看该作者
本帖最后由 lll777 于 2019-1-29 21:24 编辑
知识产权 发表于 2019-1-29 20:35
1,需要展开全文的微博可以用采集微博展开全文的数据DIY单独采一遍,通过“展开全文”将对应的微博独立链 ...
感谢回答!
关于表情符号的爬取,我使用的是微博采集工具箱,并不是自定义规则,请问可以在工具箱里操作吗?如果不行的话,请问用自定义规则采集需要下载哪个软件,具体怎么操作呢?我想把博文内容的文字以及表情符号一起爬取下来。

举报 使用道具
810#
Fuller 管理员 发表于 2019-1-30 06:18:28 | 只看该作者
lll777 发表于 2019-1-29 21:21
感谢回答!
关于表情符号的爬取,我使用的是微博采集工具箱,并不是自定义规则,请问可以在工具箱里操作吗 ...

要自定义爬虫规则的话,需要下载集搜客爬虫软件,使用方法在教程那里有详细解释。表情不是网页上的文字或者图片,而是用HTML的元素节点的class属性控制的,比如笑脸用class=`a',鬼脸用class='b'类似这样的表示,所以需要设置成采集网页片断,从采集结果中把这些class识别出来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 06:37