11#
xiaobuwowo1993 初级会员 发表于 2016-12-9 10:15:35 | 只看该作者
Fuller 发表于 2016-12-9 09:56
用通配符*试试,比如,*abc* ,看看能否搜到

搜不到,我用通配符*都搜不到
举报 使用道具
12#
xiaobuwowo1993 初级会员 发表于 2016-12-9 10:47:52 | 只看该作者
Fuller 发表于 2016-12-8 22:16
第二级匹配失败不会造成中断,会超时以后把这个没有内容的网页跳过

这个匹配失败已经好了,它可以自动跳过啦,您能看看我现在的规则吗,我在想是不是翻页的问题,因为商丘是有3页,但是循环一直在第一页上,可是问题上商丘之前的许多省市也有多页,都抓取的没有问题,反正就是总会不定点的到哪一个省市开始循环,每次循环的位置还不一样,很奇怪,我把翻页的规则重新写了一下,看教程有抓取翻页的href作为下级线索弄的,请您再帮我看看~跪谢!
举报 使用道具
13#
Fuller 管理员 发表于 2016-12-9 11:37:23 | 只看该作者
xiaobuwowo1993 发表于 2016-12-9 10:47
这个匹配失败已经好了,它可以自动跳过啦,您能看看我现在的规则吗,我在想是不是翻页的问题,因为商丘是 ...

我看了你的规则,已经不是连续翻页了,而是做成了下级线索。如果做成下级线索,不要用第四页那个页码,这样会漏掉很多,应该用那个>>号的href作下级线索。

我看到你的第二级规则还是没有抓取到电话
举报 使用道具
14#
Fuller 管理员 发表于 2016-12-9 11:41:41 | 只看该作者
我再测试一下试试翻页是否有问题。如果遇到重复循环,可以在DS打数级上用菜单 高级-》终点标志-》重复内容 ,遇到重复内容就会中断
举报 使用道具
15#
xiaobuwowo1993 初级会员 发表于 2016-12-9 11:49:21 | 只看该作者
Fuller 发表于 2016-12-9 11:41
我再测试一下试试翻页是否有问题。如果遇到重复循环,可以在DS打数级上用菜单 高级-》终点标志-》重复内容  ...

重复内容我设置了,没有用,就一直循环一个地方的几条内容
举报 使用道具
16#
xiaobuwowo1993 初级会员 发表于 2016-12-9 11:53:10 | 只看该作者
Fuller 发表于 2016-12-9 11:37
我看了你的规则,已经不是连续翻页了,而是做成了下级线索。如果做成下级线索,不要用第四页那个页码,这 ...

哦哦,这个问题我还没有来得及解决,其实电话号码这个字段不是很重要,我就给忽略了,现在就是想解决一下怎么可以不让他们循环,把所有的店面都抓下来(店名,类型,地址)就行
举报 使用道具
17#
Fuller 管理员 发表于 2016-12-9 11:57:03 | 只看该作者
河南省的我都抓完了,没有遇到重复,现在都到黑龙江了
举报 使用道具
18#
xiaobuwowo1993 初级会员 发表于 2016-12-9 13:21:12 | 只看该作者
Fuller 发表于 2016-12-9 11:57
河南省的我都抓完了,没有遇到重复,现在都到黑龙江了

就是每次都不一样,有的时候是河南省出问题,有的时候北京都会出问题。。。我都想让你发我你抓的了那我的规则还能咋改,现在还是错的。。。
举报 使用道具
19#
xiaobuwowo1993 初级会员 发表于 2016-12-9 13:48:02 | 只看该作者
Fuller 发表于 2016-12-9 11:57
河南省的我都抓完了,没有遇到重复,现在都到黑龙江了


你看,现在又开始在铜仁重复了,而且只重复了前两条,我就不知道是什么问题??
举报 使用道具
20#
Fuller 管理员 发表于 2016-12-9 14:58:37 | 只看该作者
这是我的第二级,你的问题应该是出在第二级上


爬虫路线



你照着这个做一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 16:53