801#
a_2606921936 新手上路 发表于 2019-1-22 10:20:00 | 只看该作者
个人主页上的性取向、感情状况、血型和MSN,是不是能爬取?我看在爬取下来的Excel表格中没有看到有关的采集。
举报 使用道具
802#
baixiaopang 中级会员 发表于 2019-1-25 11:08:43 | 只看该作者
我用这个下载了一些数据后,现在好像账号登录显示不全了。是什么原因呢?正常看是有好几页的,但是一开始执行就一页就没有了。
举报 使用道具
803#
Fuller 管理员 发表于 2019-1-25 13:48:31 | 只看该作者
baixiaopang 发表于 2019-1-25 11:08
我用这个下载了一些数据后,现在好像账号登录显示不全了。是什么原因呢?正常看是有好几页的,但是一开始执 ...

在集搜客浏览器登录微博了?网络怎么样?网速不好的话,可能网页会加载不出来
举报 使用道具
804#
lll777 新手上路 发表于 2019-1-29 18:43:15 | 只看该作者
您好,我是根据关键词搜索抓取微博数据的,有三个问题:
1.有的微博较长,在搜索页面中未显示全文,请问如何能够抓取到“展开全文”后的全文内容?
2.现采集到的博文内容中所有的表情符号都没有了,请问如何能够采集到博文中的所有表情符号?
3.对于很多转发类的微博,可否采集到微博正文下的被转发的原微博的博文内容?
谢谢回答!
举报 使用道具
805#
知识产权 高级会员 发表于 2019-1-29 20:35:33 | 只看该作者
lll777 发表于 2019-1-29 18:43
您好,我是根据关键词搜索抓取微博数据的,有三个问题:
1.有的微博较长,在搜索页面中未显示全文,请问如 ...

1,需要展开全文的微博可以用采集微博展开全文的数据DIY单独采一遍,通过“展开全文”将对应的微博独立链接筛选出来
2,表情不是文本内容是HTML表表签,如果是自定义采集规则可以对博文抓取HTML片段
3,用微博的转发内容采集工具可以采集微博的转发内容
举报 使用道具
806#
lll777 新手上路 发表于 2019-1-29 21:21:03 | 只看该作者
本帖最后由 lll777 于 2019-1-29 21:24 编辑
知识产权 发表于 2019-1-29 20:35
1,需要展开全文的微博可以用采集微博展开全文的数据DIY单独采一遍,通过“展开全文”将对应的微博独立链 ...
感谢回答!
关于表情符号的爬取,我使用的是微博采集工具箱,并不是自定义规则,请问可以在工具箱里操作吗?如果不行的话,请问用自定义规则采集需要下载哪个软件,具体怎么操作呢?我想把博文内容的文字以及表情符号一起爬取下来。

举报 使用道具
807#
Fuller 管理员 发表于 2019-1-30 06:18:28 | 只看该作者
lll777 发表于 2019-1-29 21:21
感谢回答!
关于表情符号的爬取,我使用的是微博采集工具箱,并不是自定义规则,请问可以在工具箱里操作吗 ...

要自定义爬虫规则的话,需要下载集搜客爬虫软件,使用方法在教程那里有详细解释。表情不是网页上的文字或者图片,而是用HTML的元素节点的class属性控制的,比如笑脸用class=`a',鬼脸用class='b'类似这样的表示,所以需要设置成采集网页片断,从采集结果中把这些class识别出来
举报 使用道具
808#
fr1115mini 中级会员 发表于 2019-2-11 15:31:12 | 只看该作者
我已经采集完毕了,关键词的,但是打包数据提示为0,这怎么弄呢?
举报 使用道具
809#
Fuller 管理员 发表于 2019-2-11 15:59:54 | 只看该作者
fr1115mini 发表于 2019-2-11 15:31
我已经采集完毕了,关键词的,但是打包数据提示为0,这怎么弄呢?

目前排队的任务太多,要多等一点时间,等入库完成后才能导出
举报 使用道具
810#
Fuller 管理员 发表于 2019-2-11 16:01:18 | 只看该作者
fr1115mini 发表于 2019-2-11 15:31
我已经采集完毕了,关键词的,但是打包数据提示为0,这怎么弄呢?

你稍等一下,我让技术人员查查,我看到你的导入失败了,我让技术人员手工启动一下导入
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-21 17:44