21#
wangyong 版主 发表于 2016-1-15 22:21:12 | 只看该作者
你的规则名是什么?
举报 使用道具
22#
yaohangsay 初级会员 发表于 2016-1-15 22:22:27 | 只看该作者
wangyong 发表于 2016-1-15 22:21
你的规则名是什么?

抓取所有厂商信息
举报 使用道具
23#
wangyong 版主 发表于 2016-1-15 22:24:23 | 只看该作者
关键内容必须要有,但是这个内容必须是每页都会出现的内容。
举报 使用道具
24#
yaohangsay 初级会员 发表于 2016-1-15 22:26:03 | 只看该作者
wangyong 发表于 2016-1-15 22:24
关键内容必须要有,但是这个内容必须是每页都会出现的内容。

关键内容就是厂商的名字,这个100%每页都会有的,抓取的主要内容就是这个
举报 使用道具
25#
wangyong 版主 发表于 2016-1-15 22:38:40 | 只看该作者
我加载你这个规则的时候就是厂商名字报错了说找不到节点,我重新映射了一下还做了一次定位标志映射,而且你整理箱顶节点选的定为标志也不对,看看这两篇定位标志相关的教程吧http://www.gooseeker.com/doc/article-132-1.html,原因是规则做的不适应。
举报 使用道具
26#
Fuller 管理员 发表于 2016-1-15 22:41:09 | 只看该作者
你这个规则主要问题是
1)没有设置关键内容
2)应该映射给拿货地址的定位标志映射给了 厂家信息,这是不对的,厂家信息 代表整个容器,应该选择代表整个容器的那个div,如果有合适的class或者id,那就映射给容器

抓多个店铺的话,要做样例复制映射,还有一个更简单的方法,用定位标志映射,因为每个代表店铺信息的DIV块都含有class=store,把这个class映射给 厂家信息。就能抓多样例。

可能你既没做样例复制映射,也没做定位标志映射,也抓取了多样例,这是因为MS谋数台自动选择class=store。

这个网页需要避免的问题:好几个P都有相同的class=detmsg,很容易造成抓乱了,可能都会去抓第一个detmsg中的内容。避免方法是设置好定位首选项,参看:http://www.gooseeker.com/doc/thread-939-1-1.html
举报 使用道具
27#
yaohangsay 初级会员 发表于 2016-1-15 22:41:14 | 只看该作者
wangyong 发表于 2016-1-15 22:38
我加载你这个规则的时候就是厂商名字报错了说找不到节点,我重新映射了一下还做了一次定位标志映射,而且你 ...

行,我明天再重新研究研究,多谢您这么晚了解释,谢谢

早点休息
举报 使用道具
28#
yaohangsay 初级会员 发表于 2016-1-16 16:54:18 | 只看该作者
Fuller 发表于 2016-1-15 22:41
你这个规则主要问题是
1)没有设置关键内容
2)应该映射给拿货地址的定位标志映射给了 厂家信息,这是不对 ...

呃,我看来半天,您的意思应该是说我的抓取规则定义的问题,但是如果是这样的话,那应该只是抓出来的东西是错误的呀

但是现在的问题是:抓出来的东西是我想要的,但是死活就是不翻页,也不能说是不翻页,是翻几页就停了

至于如何停的,停在哪里,我是一点头绪都没有

另外我看了您的回复,之前我没有做样例复制,现在把样例复制也做了一下,但是没有任何用,还是翻几页就停下来了

我最主要问题是不翻页导致无法抓取全部信息,而不是抓取的内容有问题。
举报 使用道具
29#
yaohangsay 初级会员 发表于 2016-1-16 17:00:22 | 只看该作者
wangyong 发表于 2016-1-15 22:38
我加载你这个规则的时候就是厂商名字报错了说找不到节点,我重新映射了一下还做了一次定位标志映射,而且你 ...

我按您的研究了一下,发现我的这个例子并不适合用定位标志,因为存在相同的的标志值,然后我又做了一下样例复制,但是问题依旧

奇怪的是,之前我曾经也针对这个网站做过一个差不多的抓取规则,运行起来没有问题,但是现在做这个就不行了

百思不得其解呀
举报 使用道具
30#
Fuller 管理员 发表于 2016-1-16 21:36:29 | 只看该作者
yaohangsay 发表于 2016-1-16 17:00
我按您的研究了一下,发现我的这个例子并不适合用定位标志,因为存在相同的的标志值,然后我又做了一下样 ...

可以下载这个规则:http://www.gooseeker.com/doc/thread-1310-1-1.html

主要解决的问题:
1)使用网页上的特定字符作为定位标志,自定义XPath,比如,QQ这个抓取内容,根据“腾讯”这个词作为定位标志
2)要打开DS打数机的 高级-〉终点标志-〉按内容。因为翻页到最后停不下来,就根据重复内容强行终止
3)没有用样例复制,而是用定位标志映射抓取多样例
4)厂家名,有些class=storename,有些class=storename_b,所以要自定义xpath
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 03:48