我要抓取OPPO在各省市设的店面地址信息,网址为:http://www.oppo.com/cn/shops
其中有下拉框要选择省份以及城市即可,我做了两个连续动作,两个规则,第一个规则中包含两个选择省份及城市的连续动作,第二个规则中抓取信息。
问题是总是在抓了几个省份以后就开始重复抓信息,而且每次重新开始以后重复的省份都不同,不知道是什么问题???
我的规则名为:“OPPO网点抓取1”以及“OPPO网点抓取2”
我感觉应该是第一层规则出的问题~请大神们帮我看看!
谢谢啦!
举报 使用道具
| 回复

共 28 个关于本帖的回复 最后回复于 2016-12-14 11:22

沙发
Fuller 管理员 发表于 2016-12-8 21:42:26 | 只看该作者
我做了如下修改:


第一个动作,选择高级设置,最重要的是不要必做,另外,我让“起点”从2开始,因为第一个是“请选择”,没有意义。最后,两个动作都做了2秒的延时。

最重要的是必做的设置方法。
举报 使用道具
板凳
xiaobuwowo1993 初级会员 发表于 2016-12-8 21:57:56 | 只看该作者
Fuller 发表于 2016-12-8 21:42
我做了如下修改:

谢谢!我试试,还有一个问题,就是有的页面选择了以后没有信息,于是就会匹配失败,可是失败了以后打数机就自动跳出了,说没有线索了,我就又要重头开始,可是重头开始了以后还是一样的死循环,一会又匹配失败了,这怎么办??
举报 使用道具
地板
Fuller 管理员 发表于 2016-12-8 21:58:25 | 只看该作者
第二个规则还有个问题,类型和电话都抓成一样的了



这是因为类型和电话对应的DOM节点都有相同的@class='gi lap-one-fifth',抓取内容就混了,可以参看《用父节点的class做映射可以防止子节点有相同class造成的抓取混乱》,用其父节点给这两个抓取内容作定位标志映射,就能跳过去他们自己的相同的@class值
举报 使用道具
5#
xiaobuwowo1993 初级会员 发表于 2016-12-8 22:05:51 | 只看该作者
Fuller 发表于 2016-12-8 21:58
第二个规则还有个问题,类型和电话都抓成一样的了

恩恩好的,还想问我一般有两台电脑,两个电脑都会跑爬虫,但是我在一个电脑上的爬虫在另一个电脑上的谋数台搜不到,每次都要重新写,我不太清楚怎么能把同一个账号下已经写好的规则导入到另一个机子上使用~谢谢~
举报 使用道具
6#
Fuller 管理员 发表于 2016-12-8 22:15:38 | 只看该作者
xiaobuwowo1993 发表于 2016-12-8 22:05
恩恩好的,还想问我一般有两台电脑,两个电脑都会跑爬虫,但是我在一个电脑上的爬虫在另一个电脑上的谋数 ...

只要账号相同肯定能搜到相同的规则
举报 使用道具
7#
Fuller 管理员 发表于 2016-12-8 22:16:31 | 只看该作者
xiaobuwowo1993 发表于 2016-12-8 21:57
谢谢!我试试,还有一个问题,就是有的页面选择了以后没有信息,于是就会匹配失败,可是失败了以后打数机 ...

第二级匹配失败不会造成中断,会超时以后把这个没有内容的网页跳过
举报 使用道具
8#
xiaobuwowo1993 初级会员 发表于 2016-12-9 09:48:29 | 只看该作者
Fuller 发表于 2016-12-8 22:15
只要账号相同肯定能搜到相同的规则

我可以在“我的集搜客”的规则管理上面搜到,但是在谋数台中搜规则就是搜不到,这是什么情况??
举报 使用道具
9#
Fuller 管理员 发表于 2016-12-9 09:56:47 | 只看该作者
xiaobuwowo1993 发表于 2016-12-9 09:48
我可以在“我的集搜客”的规则管理上面搜到,但是在谋数台中搜规则就是搜不到,这是什么情况?? ...

用通配符*试试,比如,*abc* ,看看能否搜到
举报 使用道具
10#
xiaobuwowo1993 初级会员 发表于 2016-12-9 10:13:48 | 只看该作者
Fuller 发表于 2016-12-8 21:42
我做了如下修改:

非常感谢~但是我刚刚又试了一遍,前面都按照省份城市抓取的很好,可是到了河南省商丘市就又开始重复抓取了。。。于是我就直接关闭了打数机,下次再开始的时候又要激活全部线索重新来一次,不知道又到哪个省市开始重复抓取~到底是什么原因~求大神解答~~~~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 17:30