17 24807

页面结构

newmonica 于 2019-8-8 10:01 发表 [复制链接]
页面结构中存在iframe结构的网页如何爬取?
举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2019-8-12 10:34

Fuller 管理员 发表于 2019-8-8 10:30:14 | 显示全部楼层
有没有iframe都不影响,集搜客会统一处理,你看不出来
举报 使用道具
Fuller 管理员 发表于 2019-8-8 10:31:01 | 显示全部楼层
但是有个要求,同一个整理箱的内容只能从同一个iframe中提取,如果你要提取的内容来自多个iframe,必须分成多个整理箱。定义规则的时候会提示
举报 使用道具
newmonica 初级会员 发表于 2019-8-8 10:58:09 | 显示全部楼层
但是可能是每个网页iframe引用的是不同网站的信息,所以失败率特别高,想问一下这种怎么爬取?
举报 使用道具
Fuller 管理员 发表于 2019-8-8 12:18:44 | 显示全部楼层
newmonica 发表于 2019-8-8 10:58
但是可能是每个网页iframe引用的是不同网站的信息,所以失败率特别高,想问一下这种怎么爬取?
...

失败率高跟跨iframe关系不大。总体原则是:尽量用上定位标志映射:https://www.gooseeker.com/doc/article-344-1.html
举报 使用道具
newmonica 初级会员 发表于 2019-8-8 14:03:11 | 显示全部楼层
Fuller 发表于 2019-8-8 12:18
失败率高跟跨iframe关系不大。总体原则是:尽量用上定位标志映射:https://www.gooseeker.com/doc/articl ...

每一个信息里面的iframe内的div的class都是不一样的,这个用id??而且id属性也是空的,如果用绝对定位测试就是空的

举报 使用道具
Fuller 管理员 发表于 2019-8-8 18:58:36 | 显示全部楼层
newmonica 发表于 2019-8-8 14:03
每一个信息里面的iframe内的div的class都是不一样的,这个用id??而且id属性也是空的,如果用绝对定位测 ...

iframe中的内容完全没有id或者class?

另外,包含iframe节点的网页,在iframe节点上有没有class或者id?或者它的祖先节点有没有?如果有的话,定位偏好选择偏好class或者id,那么就能保证DS打数机首先能从大网页上精确定位出来iframe节点;然后,如果iframe内部的内容也有class或者id,定位标志选择的好的话,就能进一步精确定位iframe内部的内容。

注意:定位iframe节点和定位iframe内部的内容所用的方法不一样。定位iframe内部的内容,可以用上整理箱上做的定位标志映射。而定位iframe节点本身,只能靠工作台上的“定位”按钮,设置好某种偏好,就是尽量不要设置绝对定位
举报 使用道具
newmonica 初级会员 发表于 2019-8-9 08:24:48 | 显示全部楼层
这个昨天都试过了,应该是不能爬取 ,每个iframe是来自不同的网站,所以内部结构是不同的,没法进行规则定义
举报 使用道具
Fuller 管理员 发表于 2019-8-9 08:52:30 | 显示全部楼层
newmonica 发表于 2019-8-9 08:24
这个昨天都试过了,应该是不能爬取 ,每个iframe是来自不同的网站,所以内部结构是不同的,没法进行规则定 ...

公开的网站吗?如果是公开的网站,你把任务名称发出来,我加载分析一下试试
举报 使用道具
newmonica 初级会员 发表于 2019-8-9 09:30:51 | 显示全部楼层
这个网站需要账号登录才能查看,而且存在反爬取,快放弃了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 07:05