规则名:中国农大_工学院_detail

请问我在爬取多iframe数据时,我新建了多个整理箱,但是最终爬取显示规则匹配失败,为什么?
能否提供一下多整理箱采集数据的流程,谢谢
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-5-20 18:42

沙发
Fuller 管理员 发表于 2020-5-20 11:35:11 | 只看该作者
多整理箱与单整理箱在定义规则流程方面没有区别,我加载分析一下你的规则看看
举报 使用道具
板凳
Fuller 管理员 发表于 2020-5-20 11:48:18 | 只看该作者


红框里面的iframe的id每次加载网页都变,所以,规则的定位偏好不能是偏好id,应该是 只用class,或者绝对定位。只用class的话,规则适应性要好一些。你可以试试

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
mikejnp1 初级会员 发表于 2020-5-20 11:57:43 | 只看该作者
Fuller 发表于 2020-5-20 11:48
红框里面的iframe的id每次加载网页都变,所以,规则的定位偏好不能是偏好id,应该是 只用class,或者绝对 ...

您好,如果我这里设置只用class的话,后面三个整理箱的内容都成了第一个整理箱里的“简历”,请问如何解决?
举报 使用道具
5#
Fuller 管理员 发表于 2020-5-20 12:28:56 | 只看该作者
mikejnp1 发表于 2020-5-20 11:57
您好,如果我这里设置只用class的话,后面三个整理箱的内容都成了第一个整理箱里的“简历”,请问如何解 ...

我看了一下这个网页,还没有很好的可选的定位标志,只能采用绝对定位了
举报 使用道具
6#
mikejnp1 初级会员 发表于 2020-5-20 17:53:41 | 只看该作者
Fuller 发表于 2020-5-20 12:28
我看了一下这个网页,还没有很好的可选的定位标志,只能采用绝对定位了
...

您好,我设定绝对定位后发现爬取内容为空白,请看看我那里出了问题,谢谢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
Fuller 管理员 发表于 2020-5-20 18:41:08 | 只看该作者
mikejnp1 发表于 2020-5-20 17:53
您好,我设定绝对定位后发现爬取内容为空白,请看看我那里出了问题,谢谢
...

采用绝对定位以后,可能很多网页都不适应了。目前看来,这个网站很难采,自动生成的规则不够灵活,处理不了这种情况
举报 使用道具
8#
mikejnp1 初级会员 发表于 2020-5-20 18:42:55 | 只看该作者
Fuller 发表于 2020-5-20 18:41
采用绝对定位以后,可能很多网页都不适应了。目前看来,这个网站很难采,自动生成的规则不够灵活,处理不 ...

好的,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-22 07:22