翻页抓取时,有的页面抓取数据不全,会漏掉好多。
是网的问题还是打数机配置?
我打数机设置的滚屏次数是16,速度是2.
规则名是  微博搜索界面


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-12-30 14:56

wangyong 版主 发表于 2020-12-30 14:56:02 | 显示全部楼层
本帖最后由 wangyong 于 2020-12-30 15:52 编辑

采集微博关键词搜索数据,可以使用集搜客微博工具箱中的微博关键词搜索工具
微博工具箱关键词搜索.png
无需自定义采集规则,直接输入关键词就可以采集数据,还以设置采集数据的时间段地理位置等其他高级设置
微博关键词搜索控制面板.png 数据展示:
微博关键词搜索数据展示.png
微博采集工具箱也可以下载安装数据管家https://www.gooseeker.com/pro/gooseeker.html后,直接从左侧工具条进入:
数据管家-集微库.png


举报 使用道具
一米阳光 初级会员 发表于 2017-4-29 15:46:59 | 显示全部楼层
而且重复抓几次后发现,漏掉的总是和之前的一样
举报 使用道具
一米阳光 初级会员 发表于 2017-4-29 16:07:21 | 显示全部楼层
找到原因了,是因为页面结构不一样,漏抓的页面结构如下
就是class为WB_cardwrap S_bg2 cl...的两个div
上一个div是第一个样例,第二个div是第二个,但是两个div不是同一个父节点,怎么样例复制?
还有,两种不同网页结构的页面,该怎么用同一个主题抓?
SGY1OE~PL@O7WS18U)28227.png
举报 使用道具
Fuller 管理员 发表于 2017-4-29 17:10:56 | 显示全部楼层
一米阳光 发表于 2017-4-29 16:07
找到原因了,是因为页面结构不一样,漏抓的页面结构如下
就是class为WB_cardwrap S_bg2 cl...的两个div
上 ...

这种做不了样例复制,你分别选择这两个DIV,看看他们框住的内容是你想要的网页内容吗?一般来说,做样例复制的两个DIV应该是同级的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 00:56