快捷导航
17 696

页面结构

newmonica 于 2019-8-8 10:01 发表 [复制链接]
Fuller 管理员 发表于 2019-8-9 11:22:52 | 显示全部楼层
newmonica 发表于 2019-8-9 09:30
这个网站需要账号登录才能查看,而且存在反爬取,快放弃了

实在不行的话,找到要抓取内容的那个iframe的网址,单独在浏览器加载这个网址,直接采集。

如果网站有访问限制的话,这种直接使用iframe网址的方法不行,但是,大部分网站没有这个限制
举报 使用道具
newmonica 初级会员 发表于 2019-8-9 14:23:12 | 显示全部楼层
但是每个网址都不一样这样就需要不同的规则
举报 使用道具
Fuller 管理员 发表于 2019-8-9 15:12:39 | 显示全部楼层
newmonica 发表于 2019-8-9 14:23
但是每个网址都不一样这样就需要不同的规则

本来就应该有各自的规则。就是iframe放在同一个网页,必须给每个iframe创建各自的整理箱
举报 使用道具
newmonica 初级会员 发表于 2019-8-9 16:19:07 | 显示全部楼层
那我要采19万条数据需要定义最少好几万的规则,这个就不太好了吧
举报 使用道具
Fuller 管理员 发表于 2019-8-9 18:58:22 | 显示全部楼层
newmonica 发表于 2019-8-9 16:19
那我要采19万条数据需要定义最少好几万的规则,这个就不太好了吧

定义规则以后,通过添加网址的方式,就可以采集很多网页:https://www.gooseeker.com/doc/thread-667-1-1.html

可能你对这个软件的操作过程没有理解,应该先按照先后顺序看初级教程:https://www.gooseeker.com/tuto/tutorial.html

采集iframe本来是很容易的事,如果从一个网页上的3个iframe采集数据,那么定义的规则里面要创建3个整理箱,每个iframe对应一个自己的整理箱
举报 使用道具
newmonica 初级会员 发表于 2019-8-12 08:48:22 | 显示全部楼层
Fuller 发表于 2019-8-9 18:58
定义规则以后,通过添加网址的方式,就可以采集很多网页:https://www.gooseeker.com/doc/thread-667-1-1 ...

我不是这意思,我的意思是   每个网页里边有一个iframe但是这每个iframe结构都不相同,不是说一个网页有几个iframe的问题,就是 你定义的规则适合这个网页的 这个iframe,但不匹配下一个网页的iframe。。。。。


举报 使用道具
Fuller 管理员 发表于 2019-8-12 10:24:36 | 显示全部楼层
newmonica 发表于 2019-8-12 08:48
我不是这意思,我的意思是   每个网页里边有一个iframe但是这每个iframe结构都不相同,不是说一个网页有 ...

如果内容的结构没有任何共性,那么就没法定义一个公用的模板
举报 使用道具
newmonica 初级会员 发表于 2019-8-12 10:34:15 | 显示全部楼层
对的 ,所以这样就放弃了  
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 摘取泉港区政府工作报告中的数字遇到的问题
  • 调度设置参数说明
  • 集搜客网络爬虫软件实现自动网页截屏
  • 怎样使用搜狐新闻搜索列表快捷工具抓取关键
  • 用于清洗文本内容的Excel函数公式

热门用户

GMT+8, 2019-9-16 08:11