为什么招行官网的招聘信息层级采集只能采集一条二级网页的信息,求教大神为我解答

网址是:http://career.cmbchina.com/Social/Default.aspx
一级规则主题名是:招行官网招聘
二级规则主题名是:招行官网招聘具体


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-12-21 18:19

沙发
xandy 论坛元老 发表于 2016-12-21 16:46:07 | 只看该作者
看了你的规则,线索上没有多大问题,我运行了你的两个规则,都可以顺利将数据采集下来。
你的规则2,在运行之间先统计下线索,比如下图:
待抓取有66条,那么集搜的时候输入的线索数要大于等于66,默认是1,采集的时候当然只会采一个页面了。
ps:你的规则1,所属机构、工作地点、发布时间采集的内容都是一样的,这个你要再调整下你的规则。

举报 使用道具
板凳
xandy 论坛元老 发表于 2016-12-21 16:51:48 | 只看该作者
本帖最后由 xandy 于 2016-12-21 17:27 编辑

规则1:将整理箱定位偏好修改为”偏好class"
你将“职位名称”、“所属机构”、“工作地点“、”发布时间”都做了高级设置,这个习惯不好,其实没有必要,只要将相应的内容的#text()节点映射给采集字段就可以了。
举报 使用道具
地板
ayaya1212 初级会员 发表于 2016-12-21 17:19:31 | 只看该作者
xandy 发表于 2016-12-21 16:51
规则1:将定位偏好修改为”偏好class"
你将“职位名称”、“所属机构”、“工作地点“、”发布时间”都做了 ...

我明明对不同的内容作了映射,但是一测试,采集结果就变成一样的了,这是为什么啊?


举报 使用道具
5#
xandy 论坛元老 发表于 2016-12-21 17:21:08 | 只看该作者
本帖最后由 xandy 于 2016-12-21 17:28 编辑
ayaya1212 发表于 2016-12-21 17:19
我明明对不同的内容作了映射,但是一测试,采集结果就变成一样的了,这是为什么啊?

上面跟你说了修改意见了,将整理箱定位偏好修改为”偏好class"。
原来默认是“偏好id”,偏好不同,采集规则也会相应的做调整。
参看:《修改整理箱的首选项为绝对定位
举报 使用道具
6#
ayaya1212 初级会员 发表于 2016-12-21 18:19:06 | 只看该作者
xandy 发表于 2016-12-21 17:21
上面跟你说了修改意见了,将整理箱定位偏好修改为”偏好class"。
原来默认是“偏好id”,偏好不同,采集规 ...

好的,非常感谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 01:52