http://bj.meituan.com/shop/41683 ... ls.2-title.ipf56utt
以前觉得自己对页面数据采集的东西都掌握差不多了,直到遇到这个网页。

我在页面上连最简单的内容映射都做不了,更不用说样例复制、翻页、还是分层,直接卡死啊!内容映射的时候,在规则测试里边是可以看到成功的,但是重新加载的时候,就会显示错误。

求大神在这个网址上实际操作一下,告诉我解决步骤吧。虽然有教程教我们寻找错误原因,但是写的太复杂啦···········脑细胞实在是不够用了。
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-6-17 17:18

沙发
Fuller 管理员 发表于 2016-6-15 11:28:06 | 只看该作者
如果重新加载就失败,那是网页上有太多相同的class,造成了干扰,那么,你最好在定义规则的时候用上定位标志映射
举报 使用道具
板凳
Fuller 管理员 发表于 2016-6-15 11:28:38 | 只看该作者
你的规则名是什么?在网页上要采集什么信息?截个图看看
举报 使用道具
地板
759924607 高级会员 发表于 2016-6-17 12:05:16 | 只看该作者
Fuller 发表于 2016-6-15 11:28
你的规则名是什么?在网页上要采集什么信息?截个图看看

C:\Users\Mark\Desktop\filehelper_1466136214025_47.png就是这种格式的,不能进行内容映射。我需要再设置啥嘛?

filehelper_1466136214025_47.png (42.44 KB, 下载次数: 877)

filehelper_1466136214025_47.png
举报 使用道具
5#
Fuller 管理员 发表于 2016-6-17 15:41:56 | 只看该作者
759924607 发表于 2016-6-17 12:05
就是这种格式的,不能进行内容映射。我需要再设置啥嘛?

根据你这个截图,我看到你已经给他映射了1823号节点,应该是映射成功了。

你是说抓取的时候没有抓到?还是再次加载的时候没有定位到节点?

可以考虑用上定位标志映射,提高规则的适应性:http://www.gooseeker.com/doc/thread-707-1-1.html
举报 使用道具
6#
759924607 高级会员 发表于 2016-6-17 16:53:36 | 只看该作者
Fuller 发表于 2016-6-17 15:41
根据你这个截图,我看到你已经给他映射了1823号节点,应该是映射成功了。

你是说抓取的时候没有抓到?还 ...

节点应该有两种,像SPAN下边的,测试时候,再次加载也都是正确的。但是映射H1这种节点下的,就不行。(对HTML不是很熟悉)
举报 使用道具
7#
Fuller 管理员 发表于 2016-6-17 17:18:47 | 只看该作者
759924607 发表于 2016-6-17 16:53
节点应该有两种,像SPAN下边的,测试时候,再次加载也都是正确的。但是映射H1这种节点下的,就不行。(对 ...

H1和SPAN都是一样的。在H1下的,“不行”是什么意思?加载规则定位不到?有没有报错?发个报错截图。如果没有报错,而是定位到了另一个H1下的text,那么就是定位不准,要想别的技巧,比如,用上定位标志映射
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 23:22