GooSeeker -- 网页抓取/信息提取软件、服务和技术知识库

请进新网站


MetaSeeker应用领域

网页抓取/信息提取/数据抽取软件工具包MetaSeeker V5.0.1正式发布,在线版免费下载和使用,源代码可阅读。Firefox 39.x 的配套版本已经发布(下载Firefox 39.0.3),如果使用中遇到问题请联系我们。自推出以来,深受喜爱,主要应用领域:

  • 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天24小时每周7天无人值守自主调度的周期性批量采集,加上断点续传和软件看门狗(Watch Dog),确保您高枕无忧
  • 移动互联网:手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容,DataScraper实时高效地采集内容,输出富含语义元数据的XML格式的抓取结果文件,确保自动化的数据集成和加工,跨越小尺寸屏幕展现和高精准信息检索的障碍。手机互联网不是Web的子集而是全部,由MetaSeeker架设桥梁
  • 企业竞争情报采集/数据挖掘:俗称商业智能(Business Intelligence),噪音信息滤除、结构化转换,确保数据的准确性和时效性,独有的广域分布式架构,赋予DataScraper无与伦比的情报采集渗透能力,AJAX/Javascript动态页面、服务器动态网页、静态页面、各种鉴权认证机制,一视同仁。在微博网站数据采集和舆情监测领域远远领先其它产品。

您需要同时从大量网站上采集内容吗?
您需要应对目标网站页面结构频繁变化吗?
您拥有一个工作组需要协同抓取网站内容吗?
您不断编写网站内容提取规则感觉很烦吗?

MetaStudio,语义标注和网站内容采集规则自动化生成工具,全图形化界面,免编程自动生成数据抽取和格式化规则,采用多项专利技术,强力锁定目标网站的内容结构,应对网页结构变化,助力用户业务的持续发展。

MetaSeeker重大特色

  • MetaStudio是网页数据抓取规则编辑器,免编程,只需要在图形界面上的点选和标注,规则自动生成
  • MetaStudio是网页数据抓取规则管理器,语义结构和抓取规则是个知识库,规则生成不再是单程票,可以持续修改,适应业务发展需求
  • DataScraper是定题网络爬虫,单批量、周期性、无人值守多种运行模式,基于软件看门狗的故障保护
  • DataScraper是网络内容格式化工具,输出富含语义元数据的结构化数据抓取结果(XML文件),二维表和树形内容结构同时支持,确保强大的语义表述能力
  • DataScraper是高渗透力信息采集器,AJAX/javascript、动态内容、鉴权认证都不是障碍(不总是)
  • MetaSeeker是高协同开源商业情报采集网络,跨地域分布式、动态IP地址、用户接入线带宽,与部署在中心机房的使用固定IP的解决方案相比,运营成本大大降低。

GooSeeker发布的重要软件工具

  • MetaStudio:网站内容语义标注和网页数据提取规则生成工具,也是协同性网站内容语义结构管理工具
  • DataScraper:定题/聚焦网络爬虫、网页数据提取和格式化工具,可组成跨地域分布式协同性信息采集网络
  • MetaCamp:(仅限企业版)互联网内容的语义结构知识库,MetaSeeker用户权限管理和协同管理服务器
  • DataStore:(仅限企业版)网页数据提取规则数据库
  • SliceSearch:(受限发布)异构数据对象综合搜索引擎,可以快速部署垂直搜索、综合搜索、对象搜索、实时搜索、手机推荐引擎等,实现了专利的精准搜索方法
  • SliceProfile:互联网舆情监测和企业竞争情报分析系统,将自动化web数据采集、自动中文文本处理和检索、自然语言处理(NLP)、数据挖掘和统计分析集成在一起,已经为消费电子、汽车、卫浴、金融等领域的多个企业客户部署了该系统。