技术内幕

中信信用卡网络危机信息监测方案图

Mon, 09/20/2010 - 14:21 — Fuller

技术内幕

Login to post comments

中信信用卡网络危机信息监测系统规格说明书

本文总结了中信信用卡网络危机信息监测系统的功能规格，读者可以在网站http://www.sos360.com上体验该网络危机信息监测系统

技术内幕

Read more

Web数据采集结果目录结构

DataScraper从Web采集的数据存成XML文件，放在$HOME/DataScraperWorks/<主题名>/ 目录下，也就是说每个主题都有一个专门的目录。由于同一个目录下文件个数受限，所以，当Web数据采集结果文件数量达到一定数字后，在当前主题子目录下再建一层子目录，循环往复。目录结构如下：

技术内幕

Read more

周期性网页抓取调度文件

新版本的变化

请注意：GooSeeker网络爬虫软件从V5开始进行了大规模改版，这个文档的内容主要针对老版本，新版本用户仍然可以参考。

调度文件的参数含义没有变化，只是请注意词汇的变化，罗列如下：

技术内幕

Read more

网络数据采集结果文件格式

DataScraper从网络上采集的数据存成XML文件，放在$HOME/DataScraperWorks/<主题名>/ 目录下，目录结构参见网络数据采集结果文件目录。下面以主题demo_iframe的采集结果文件为例说明文件结构。

技术内幕

Read more

索引指令文件

本页详细讲解索引指令文件的结构

技术内幕

信息提取工作流指令文件

信息提取工作流指令文件用来驱动DataScraper的工作流引擎，该文件记录了为完成某个主题的Web信息提取任务所有需要的工作流处理器和执行顺序。该文件是一个XML文件，文件名后缀是.profile.xml。下面是一个例子：

技术内幕

Login to post comments
Read more

信息结构识别规则文件

信息结构识别规则文件，也称为DSD文件，用于检验目标页面是否符合本主题下某个信息结构。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中，文件名后缀是.dsd.xml。文件结构解释如下：

技术内幕

Login to post comments
Read more

线索提取指令文件

线索提取指令文件也称为SCE文件，用于从目标页面中提取线索。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中，文件名后缀是.sce.xml。文件结构解释如下：

技术内幕

Login to post comments
Read more

数据结构指令文件

数据结构指令文件，也称为GEM文件，该文件是对信息提取(网页抓取/抽取)结果的数据结构的描述。该文件存储在DataStore服务器的目录$CATALINE/work/DataStore/context/extraction/config/<主题名>/中，文件名后缀是.gem.xml。文件结构解释如下：

技术内幕

Login to post comments
Read more

新版本的变化

切换语言