11#
Fuller 管理员 发表于 2017-4-17 19:16:08 | 只看该作者
lucky半杯 发表于 2017-4-17 18:57
我觉得第一步做规则,需要设置样例复制,不然一页只能抓第一个,我的就是这样

...

你这个网页上要采集的内容不是列表,没有必要做样例复制。如果你要采集商品列表,那就需要
举报 使用道具
12#
lucky半杯 中级会员 发表于 2017-4-17 19:21:35 | 只看该作者
Fuller 发表于 2017-4-17 19:16
你这个网页上要采集的内容不是列表,没有必要做样例复制。如果你要采集商品列表,那就需要
...

我继需要店铺信用,又需要悬浮窗口的内容。我采集出错了,二个规则都应该样例复制。


举报 使用道具
13#
Fuller 管理员 发表于 2017-4-17 19:44:13 | 只看该作者
lucky半杯 发表于 2017-4-17 19:21
我继需要店铺信用,又需要悬浮窗口的内容。我采集出错了,二个规则都应该样例复制。

我看了你的规则,文具店铺 这一级没错,只用一个样例复制,抓取多个店铺的基本信息,而连续悬浮本身就是能连续把所有店铺的信息都采集一遍的,你的动作的定位xpath也正确,能够定位到所有20个店铺

但是,你做第二级的时候,用了嵌套整理箱,似乎没有必要,为什么要这么做呢?
举报 使用道具
14#
lucky半杯 中级会员 发表于 2017-4-17 20:28:19 | 只看该作者
Fuller 发表于 2017-4-17 19:44
我看了你的规则,文具店铺 这一级没错,只用一个样例复制,抓取多个店铺的基本信息,而连续悬浮本身就是 ...

我这个是错的,我以为不会影响。再请问,我抓取的时候不是二级规则形成的XML如何和第一级对接,不有相应的字符段,2个EXCLE合并VLOOP不了

举报 使用道具
15#
Fuller 管理员 发表于 2017-4-17 21:03:36 | 只看该作者
lucky半杯 发表于 2017-4-17 20:28
我这个是错的,我以为不会影响。再请问,我抓取的时候不是二级规则形成的XML如何和第一级对接,不有相应 ...

这确实个棘手的问题,在《xml文件结构》罗列了所有字段,这种情况需要使用actionno那个字段,第二级的结果文件中这个字段表示第几个动作,还要用上clueid和时间戳,才能更精确地对准两级
举报 使用道具
16#
lucky半杯 中级会员 发表于 2017-4-17 22:21:26 | 只看该作者
Fuller 发表于 2017-4-17 21:03
这确实个棘手的问题,在《xml文件结构》罗列了所有字段,这种情况需要使用actionno那个字段,第二级的结 ...

所以,,,,。。
我该怎么做,懵逼。。。。。

举报 使用道具
17#
Fuller 管理员 发表于 2017-4-17 23:08:14 | 只看该作者
lucky半杯 发表于 2017-4-17 22:21
所以,,,,。。
我该怎么做,懵逼。。。。。

拿起一个第二级的结果文件,看到它的clueid=aaaa,actionno=3,那么用这个clueid去到第一级中找结果文件,一定会有一个结果文件,而且这个结果文件中有多个店铺,根据actionno=3,找到第三个店铺,那么就把第二级的结果与第一级的结果文件中的第三个店铺联系起来
举报 使用道具
18#
lucky半杯 中级会员 发表于 2017-4-18 12:12:23 | 只看该作者
Fuller 发表于 2017-4-17 23:08
拿起一个第二级的结果文件,看到它的clueid=aaaa,actionno=3,那么用这个clueid去到第一级中找结果文件 ...

我第一级:文具店铺,第二级:店铺的信息。采集到的数据有问题,但是我规则没错啊,能不能帮忙看看,悬浮的数据很多全是重复的

举报 使用道具
19#
lucky半杯 中级会员 发表于 2017-4-18 12:18:54 | 只看该作者
Fuller 发表于 2017-4-17 23:08
拿起一个第二级的结果文件,看到它的clueid=aaaa,actionno=3,那么用这个clueid去到第一级中找结果文件 ...

悬浮也要样例复制吗


举报 使用道具
20#
lucky半杯 中级会员 发表于 2017-4-18 12:22:43 | 只看该作者
Fuller 发表于 2017-4-17 23:08
拿起一个第二级的结果文件,看到它的clueid=aaaa,actionno=3,那么用这个clueid去到第一级中找结果文件 ...

我看抓取过程中,每个悬浮动作都出现了,但是就是没抓取到数据?

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-9 18:42