本帖最后由 呜啦吧哈 于 2017-6-15 17:00 编辑

主题:棉花肉松第二级
做了第二级层级抓取规则,测试也没问题,但在打数机里运行时抓取的数据好多空白,应该不是翻页太快的原因,因为实验了多次,漏抓的地方也一样。。。应该是规则哪不对吧????

漏抓.png (8.68 KB, 下载次数: 607)

缺的数据图片

缺的数据图片
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-6-15 18:34

沙发
wangyong 版主 发表于 2017-6-15 17:14:56 | 只看该作者
当前规则做的没有问题,是网页结构不同,所以有些抓的到,有些抓不到
整理箱也需要做定位标志映射分析抓到的和抓不到数据和抓不到数据的网页结构区别,找所有网页结构共有的定位标志做映射
复杂网页可以自定义xpath
举报 使用道具
板凳
Fuller 管理员 发表于 2017-6-15 18:34:59 | 只看该作者
我看你做了定位标志映射,还有漏抓吗?另外,我看到你用下面截图中的最上面那个class作为定位标志,下面两个红框也可以用。原则是选择靠近要抓取的内容的class,这样的规则最有适应性,也就是说下面红框的最合适。不过也要看实际情况。

如果发现有漏的,把那个网址找到,加载到MS谋数台上,用工作台上的抓取规则分析它。过程是:
1,假设已经加载了规则,那么在地址输入栏输入网址,回车
2,等网页完全加载好以后,选择菜单 规则-》刷新网页结构
3,再选择菜单 规则-》分析页面
4,如果分析成功了,点击创建规则工作台上的“测试”按钮,看看内容是否能如愿抓到
如果连分析规则都不成功,说明定义的规则的适应性不够。
如果需要协助,把分析失败的网址发出来


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 14:10