主题名sj2,抓取微博网页转发时间,原微博1w+,但只抓取出6k左右,是系统不能抓取太大量的吗?但是窗口没显示认识错误,显示抓取成功。不知道是什么原因,谢谢!
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-9-4 14:34

沙发
Fuller 管理员 发表于 2017-9-3 10:30:00 | 只看该作者
首先,你这个规则定义的有问题,抓取不够精准,我看到你做了定位标志映射,但是这个标志太通用了,所以,抓到了很多不相关的内容。

转发抓取的时候,容易中断,而且时好时坏,1万多转发基本上抓不全,因为要连续翻页,而且不能跳到中间某页,所以,当转发量很大的时候,中断的几率很高
举报 使用道具
板凳
collar 新手上路 发表于 2017-9-4 11:55:22 | 只看该作者
Fuller 发表于 2017-9-3 10:30
首先,你这个规则定义的有问题,抓取不够精准,我看到你做了定位标志映射,但是这个标志太通用了,所以,抓 ...

那如何可以精准定位呢?有没有避免大量抓取漏抓的情况?谢谢!
举报 使用道具
地板
环境监测 中级会员 发表于 2017-9-4 14:34:18 | 只看该作者
1,如果有@id值可以作为定位标志,那就最好是使用@id值做为定位映射的标志,因为@id值是唯一的,精准定位参考《定位标志精确采集范围》
2,你这个规则有问题,点击测试抓取的数据不是转发时间,每一条评论都有一个区块节点,每个区块节点的@class值都相同,可以使用那个@class值的做定位标志映射给整理箱,定位标志类型改为绝对定位就可以抓取出所有的评论时间。《定位标志批量采集相同定位信息》

4.jpg (149.36 KB, 下载次数: 755)

4.jpg
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 05:39