本帖最后由 piggy_ljj 于 2018-1-12 11:46 编辑

主题名是“智联招聘_ljj二级”
真的找不到公司介绍的内容节点...没法做映射
而且尝试抓取了一下 1个页面对应3个xml

360截图20180112112616322.jpg (245.84 KB, 下载次数: 663)

360截图20180112112616322.jpg

360截图20180112112633543.jpg (230.43 KB, 下载次数: 662)

360截图20180112112633543.jpg
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-1-12 14:15

沙发
yangwenge 金牌会员 发表于 2018-1-11 21:52:43 | 只看该作者
是这个规则吗?怎么我加载规则里面是采集的职位信息,没有连续动作?
举报 使用道具
板凳
piggy_ljj 中级会员 发表于 2018-1-11 22:13:00 | 只看该作者
yangwenge 发表于 2018-1-11 21:52
是这个规则吗?怎么我加载规则里面是采集的职位信息,没有连续动作?

现在有了 您再看一下谢谢!
设了连续动作之后工作岗位、公司名称、月薪、发布日期都不对了
举报 使用道具
地板
数据集二期 中级会员 发表于 2018-1-12 09:42:30 | 只看该作者
1,抓取内容不对是因为你映射的节点不对,要采集什么就映射什么。
2,你的连续动作的xptah不对,能定位到两个节点,这样的话爬虫就不知道该点击哪个,
3,这个“公司介绍”页签下面的信息就算不点击也能采集,因为在网页标签窗口中可以找到“公司介绍”页签下的节点。找到这些节点直接做映射就可以了。
举报 使用道具
5#
wangyong 版主 发表于 2018-1-12 10:10:08 | 只看该作者
这个网页不要做点击,公司介绍的数据就直接在当前网页上
举报 使用道具
6#
piggy_ljj 中级会员 发表于 2018-1-12 11:47:25 | 只看该作者
找不到公司介绍下的节点...而且一个网页为啥有3个xml...
举报 使用道具
7#
yangwenge 金牌会员 发表于 2018-1-12 14:15:03 | 只看该作者
1,先将连续动作删除,这个页面可以不需要点击就能定位到公司介绍;

2,采集到3个xml看是不是之前采集的。
举报 使用道具
8#
数据集二期 中级会员 发表于 2018-1-12 14:15:58 | 只看该作者
piggy_ljj 发表于 2018-1-12 11:47
找不到公司介绍下的节点...而且一个网页为啥有3个xml...

1,一个网页有三个xml应该是你采集了多次。2,公司的节点可以点击切换到“公司介绍”模块,再点击公司介绍模块里面的内容做映射。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 19:59