层级采集只能采集一条二级网页信息

ayaya1212

为什么招行官网的招聘信息层级采集只能采集一条二级网页的信息，求教大神为我解答

网址是：http://career.cmbchina.com/Social/Default.aspx
一级规则主题名是：招行官网招聘
二级规则主题名是：招行官网招聘具体

xandy · 发表于 2016-12-21 16:46:07

看了你的规则，线索上没有多大问题，我运行了你的两个规则，都可以顺利将数据采集下来。
你的规则2，在运行之间先统计下线索，比如下图：
待抓取有66条，那么集搜的时候输入的线索数要大于等于66，默认是1，采集的时候当然只会采一个页面了。
ps：你的规则1，所属机构、工作地点、发布时间采集的内容都是一样的，这个你要再调整下你的规则。

xandy · 发表于 2016-12-21 16:51:48

本帖最后由 xandy 于 2016-12-21 17:27 编辑

规则1：将整理箱定位偏好修改为”偏好class"
你将“职位名称”、“所属机构”、“工作地点“、”发布时间”都做了高级设置，这个习惯不好，其实没有必要，只要将相应的内容的#text()节点映射给采集字段就可以了。

ayaya1212 · 发表于 2016-12-21 17:19:31

xandy 发表于 2016-12-21 16:51
规则1：将定位偏好修改为”偏好class"
你将“职位名称”、“所属机构”、“工作地点“、”发布时间”都做了 ...

我明明对不同的内容作了映射，但是一测试，采集结果就变成一样的了，这是为什么啊？

xandy · 发表于 2016-12-21 17:21:08

本帖最后由 xandy 于 2016-12-21 17:28 编辑

ayaya1212 发表于 2016-12-21 17:19
我明明对不同的内容作了映射，但是一测试，采集结果就变成一样的了，这是为什么啊？

上面跟你说了修改意见了，将整理箱定位偏好修改为”偏好class"。
原来默认是“偏好id”，偏好不同，采集规则也会相应的做调整。
参看：《修改整理箱的首选项为绝对定位》

ayaya1212 · 发表于 2016-12-21 18:19:06

xandy 发表于 2016-12-21 17:21
上面跟你说了修改意见了，将整理箱定位偏好修改为”偏好class"。
原来默认是“偏好id”，偏好不同，采集规 ...

好的，非常感谢

层级采集只能采集一条二级网页信息

共 5 个关于本帖的回复最后回复于 2016-12-21 18:19

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

层级采集只能采集一条二级网页信息

共 5 个关于本帖的回复 最后回复于 2016-12-21 18:19

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2016-12-21 18:19