本帖最后由 geekfan 于 2018-6-28 12:41 编辑

我想爬取拉勾网的这些标签数据, 在这个页面:https://www.lagou.com/jobs/list_java?labelWords=&fromSearch=true&suginput=



我在内容映射后,勾选了高级设置-> 文本内容,然后点击测试, 成功抓取了第一个职位的5个标签:  



但是当我想用样例复刻抓取这个页面所有标签时,再点击测试


发现抓取的数据不是标签, 而是其它数据


我抓取单个职位的标签成功了, 但是用样例复刻抓取整个页面的标签, 抓到的却是别的数据, 有可能是因为每个职位的标签数量不同(有的职位打了5个标签,有的职位打了1个标签),导致样例复刻失败。


请问各位前辈, 如果要抓取拉勾的职位标签, 该怎么做样例复刻呢?


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-6-28 18:05

bowieD 金牌会员 发表于 2018-6-28 14:36:09 | 显示全部楼层
本帖最后由 bowieD 于 2018-6-28 14:40 编辑

嵌套样例复制》参考这个嵌套样例复制教程,标签做第一层样例复制,职位做第二层样例复制,就能把每个职位的标签完整的抓下来。

举报 使用道具
geekfan 初级会员 发表于 2018-6-28 17:52:55 | 显示全部楼层
bowieD 发表于 2018-6-28 14:36
《嵌套样例复制》参考这个嵌套样例复制教程,标签做第一层样例复制,职位做第二层样例复制,就能把每个职位 ...

非常感谢, 解决了这个问题  



但是还有一个小问题想请教您, 我是先对内层做样例复刻, 然后做外层样例复刻的,  

但是发现外层样例复刻覆盖了内层样例复刻 --- 就是当我做完外层样例复刻, 发现内层整理箱的样例1/  样例2 对应的代码行数变得和外层整理箱的样例代码行数一样了~~  

请问, 前辈, 这个是正常现象吗?  


因为最后标签虽然都抓出来了, 但是标签被重复抓取了好多遍, 导致抓取的标签冗余量太大, 我在想是不是我的嵌套样例复刻操作有问题~~  

如有错误, 还望前辈斧正



举报 使用道具
bowieD 金牌会员 发表于 2018-6-28 18:05:14 | 显示全部楼层
本帖最后由 bowieD 于 2018-6-28 18:07 编辑
geekfan 发表于 2018-6-28 17:52
非常感谢, 解决了这个问题  

应该是样例复制没做好,只要内容映射第一个职位里的第一个标签,然后再对这个字段做嵌套样例复制就可以了,这样不会有重复的标签出现。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:22