我的名称是 蜜雪冰城博客 想请问一下怎样才能采集到点赞评论转发量呢?
我搜索了社区说用绝对定位,请问可以教一下吗?谢谢啦!

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-12-15 17:48

来自 7#
wangyong 版主 发表于 2020-12-15 15:54:44 | 只看该作者
爬取一个微博博主发布博文的转发量可以通过微博采集工具箱中的微博博主主页采集工具

把通过要采集的微博主页链接添加到采集软件中,启动采集,完成后就可以下载Excel格式的数据

能采集的字段内容包括:博主、简介、关注数、粉丝数、微博数、博文、发布时间、博文独立网址、发布终端、转发数、评论数、点赞数等字段
数据展示:

举报 使用道具
沙发
Fuller 管理员 发表于 2019-1-7 08:37:45 | 只看该作者


用LI节点做内容映射就行了,不用精确到text节点,这3个内容刚好是3个LI。这样采集下来可能还含有一些其他内容,可以在excel中把他们都替换掉。

这有现成的采集微博的工具,可以直接使用,不用做采集规则:https://www.gooseeker.com/land/weibo.html
举报 使用道具
板凳
lydiawong 初级会员 发表于 2019-1-7 09:49:29 | 只看该作者
Fuller 发表于 2019-1-7 08:37
用LI节点做内容映射就行了,不用精确到text节点,这3个内容刚好是3个LI。这样采集下来可能还含有一些其他 ...

好的谢谢
举报 使用道具
地板
Fuller 管理员 发表于 2019-1-7 11:30:33 | 只看该作者

刚才忘记说了,你没有设置关键内容,这样就会漏掉很多数据,像微博这种动态网页,要用关键内容检查一下数据采集的完整性。另外,DS打数机一定要打开滚屏,用菜单 配置-》滚屏参数,把滚屏次数设置成>0的数字,微博的网页很长,滚屏次数应该是5以上
举报 使用道具
5#
lydiawong 初级会员 发表于 2019-1-7 11:51:38 | 只看该作者
Fuller 发表于 2019-1-7 11:30
刚才忘记说了,你没有设置关键内容,这样就会漏掉很多数据,像微博这种动态网页,要用关键内容检查一下数 ...

你好 我在存规则的时候出现了 容器节点定位表达式为空。请问应该怎么解决?谢谢
规则:蜜雪冰城博客

举报 使用道具
6#
Fuller 管理员 发表于 2019-1-7 14:50:40 | 只看该作者
lydiawong 发表于 2019-1-7 11:51
你好 我在存规则的时候出现了 容器节点定位表达式为空。请问应该怎么解决?谢谢
规则:蜜雪冰城博客

可能是在在规则的时候,网页的DOM刷新了,对应的关系都变化了,结果就规则全部失效了,在这种情况下存的规则就全部失效了。需要重新做内容映射和定位标志映射
举报 使用道具
8#
Fuller 管理员 发表于 2020-12-15 17:48:36 | 只看该作者
lydiawong 发表于 2019-1-7 11:51
你好 我在存规则的时候出现了 容器节点定位表达式为空。请问应该怎么解决?谢谢
规则:蜜雪冰城博客

我加载你的规则分析了,至少有两大问题需要改进:
1,至少给一个抓取内容勾上“关键内容”,否则会漏采数据
2,加载规则时,发现“时间”跑到上面去了,我估计你做内容标注的时候没有错,但是加载的时候出错了,说明需要用定位映射约束一下网页上的内容,参看《定位标志精确采集范围》。整理箱里面的抓取内容都可以设置上定位标志,因为微博上的抓取内容都有合适的@class可以使用





举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 20:40