主题:“智联卓聘简历搜索”

     加载的时候显示“再调度、匹配失败”

智联卓聘使用猎头登陆:3051376@qq.com 密码:xxxx
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2018-9-16 20:29

沙发
hct380 初级会员 发表于 2017-2-7 19:57:50 | 只看该作者
账号打错:38051376@qq.com
举报 使用道具
板凳
Fuller 管理员 发表于 2017-2-7 20:01:24 | 只看该作者
我把密码删除了,我帮你看看这个规则的问题
举报 使用道具
地板
Fuller 管理员 发表于 2017-2-7 20:17:13 | 只看该作者
你要进入第二层采集简历详细内容,应该使用层级采集,而不应该使用连续点击。连续动作是用于网址不变的情形,采下来的网址不能用于做层级采集,才直接用连续动作。针对这个网页,做点击以后会弹出一个新窗口,如果用连续动作的话,在第一级定义动作那里需要勾上“飞掠模式”。但是,这个是有独立的下级网址的,就不用用连续动作。

因为有连续动作,做了点击以后肯定会出现规则不匹配。

我测试了,第一级采集规则可以运行,不会出现规则不匹配。但是你的规则中的翻页规则加载不了,不知道你是怎样定义的。这是一个标准的记号线索
举报 使用道具
5#
hct380 初级会员 发表于 2017-2-8 10:53:26 | 只看该作者
谢谢,层级我做好了,翻页也做好了,因为翻页没有条件限制,我第一层翻了10页就停止了,每页30是个简历,一共应该有300个简历。但是第二层单独运行只有8,9个简历,这中间有什么问题?
举报 使用道具
6#
hct380 初级会员 发表于 2017-2-8 10:54:49 | 只看该作者
第二层统计线索是9个
举报 使用道具
7#
Fuller 管理员 发表于 2017-2-8 12:06:59 | 只看该作者
hct380 发表于 2017-2-8 10:54
第二层统计线索是9个

打开结果文件(XML文件)看看,每一页抓取到的下级网址是不是都一样的?如果网址都一样,就会把重复的过滤掉。我估计是网址一样造成的
举报 使用道具
8#
hct380 初级会员 发表于 2017-2-8 12:25:26 | 只看该作者
怎么样的过滤重复?没太明白,举个例子
举报 使用道具
9#
Fuller 管理员 发表于 2017-2-8 12:33:32 | 只看该作者
导入到excel中,过滤重复内容还是很容易的。最简单的排排序,重复的都会紧挨在一起,手工删了就行了。关键还是要找出来重复的原因,看看是否规则没有做好
举报 使用道具
10#
Fuller 管理员 发表于 2017-2-8 12:34:17 | 只看该作者
我估计是第一级规则没有做好,采集到的网址都是重复的,所以,建议你打开第一级规则的采集结果文件,看看为第二级采集的网址是否正确
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 13:05