DataScraper从Web采集的数据存成XML文件,放在$HOME/DataScraperWorks/<主题名>/ 目录下,也就是说每个主题都有一个专门的目录。由于同一个目录下文件个数受限,所以,当Web数据采集结果文件数量达到一定数字后,在当前主题子目录下再建一层子目录,循环往复。目录结构如下:
请注意:GooSeeker网络爬虫软件从V5开始进行了大规模改版,这个文档的内容主要针对老版本,新版本用户仍然可以参考。
调度文件的参数含义没有变化,只是请注意词汇的变化,罗列如下:
DataScraper从网络上采集的数据存成XML文件,放在$HOME/DataScraperWorks/<主题名>/ 目录下,目录结构参见网络数据采集结果文件目录。下面以主题demo_iframe的采集结果文件为例说明文件结构。
信息提取工作流指令文件用来驱动DataScraper的工作流引擎,该文件记录了为完成某个主题的Web信息提取任务所有需要的工作流处理器和执行顺序。该文件是一个XML文件,文件名后缀是.profile.xml。下面是一个例子:
信息结构识别规则文件,也称为DSD文件,用于检验目标页面是否符合本主题下某个信息结构。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中,文件名后缀是.dsd.xml。文件结构解释如下:
线索提取指令文件也称为SCE文件,用于从目标页面中提取线索。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中,文件名后缀是.sce.xml。文件结构解释如下:
数据结构指令文件,也称为GEM文件,该文件是对信息提取(网页抓取/抽取)结果的数据结构的描述。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中,文件名后缀是.gem.xml。文件结构解释如下: