本人是gooseeker新手
按照  什么都不懂的小白,请看这里! 教程
在 3.映射目标抓取内容 设置好了以后
点击测试可以预览结果,和预期结果一致
但是
4.  使用 样例复制 功能实现批量获取 之后
设置好了之后再次测试
变成了

部分数据丢失,怎么会这样。
[img]file:///C:\Users\Administrator\Documents\Tencent Files\94177734\Image\C2C\I]A]@%DR_MTZK8[A@JP4A%3.png[/img]



QQ图片20160116010605.png (12.09 KB, 下载次数: 636)

QQ图片20160116010605.png

QQ图片20160116010734.png (6.11 KB, 下载次数: 650)

QQ图片20160116010734.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-1-16 09:56

沙发
xfwen19 新手上路 发表于 2016-1-16 01:08:37 | 只看该作者
举报 使用道具
板凳
Fuller 管理员 发表于 2016-1-16 09:43:36 | 只看该作者

根据你的描述,还难于判断准确原因,但是这样的网页请注意上图两个红框位置

1)由于大家都用相同的class=b,而MS谋数台自动生成抓取规则的时候会使用这样的定位标志,遇到相同的class,会造成所有抓取内容都抓取第一个单元格。

为了解决这个问题,要人工干预一下,避免MS自动选择class,两个方案

a)自己选择合适的定位标志,做定位标志映射,就会避开MS自动选的。但是这个网页没有更好的

b)设置定位首选项,也就是告诉MS不要选class,而是选别的定位标志,参看:http://www.gooseeker.com/doc/thread-939-1-1.html


2)表格里面有红字和绿字,应该是用不同class定义的,如果用第一行做样例做映射,可能只能抓取到黑字的。在这种情况下,可以设置定位首选项进行避免。也可以自定义xpath,更强大:http://www.gooseeker.com/doc/thread-701-1-1.html


再补充一点,我发现这个网页内容是后加载的,一定要设置 “关键内容”,否则容易漏抓


至于用了样例复制映射抓不到内容,很可能是

1)做内容映射时,选择的DOM节点不是全部来自第一行的内容。一定要选择同一行内容作内容映射

2)样例复制映射用法不对,参看:http://www.gooseeker.com/doc/thread-706-1-1.html


举报 使用道具
地板
xfwen19 新手上路 发表于 2016-1-16 09:56:07 | 只看该作者
Fuller 发表于 2016-1-16 09:43
根据你的描述,还难于判断准确原因,但是这样的网页请注意上图两个红框位置
1)由于大家都用相同的class=b ...

谢谢管理员回复 我再研究研究
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 15:07