Data Extraction Workflow File

Data Extraction Workflow File, driving DataScraper's workflow engine, records required workflow processors in sequence for extracting data from the Web pages belonging to a specific theme. The file is in format of XML whose name is suffixed with .profile.xml. The following is a example:

<?xml version="1.0"?>

<geometa-session-profile>

<theme>theme-name</theme>

<class>com.geometa.spider.processor.MigrateWorksBucket</class>

</processor>

<class>com.geometa.spider.processor.FetchSpiderClue</class>

</processor>

<class>com.geometa.spider.processor.LoadHtmlPage</class>

</processor>

<class>com.geometa.spider.processor.FindDataSchema_Plain</class>

</processor>

<class>com.geometa.spider.processor.ExtractWebNodeData_Simp</class>

</processor>

<class>com.geometa.spider.processor.ValidateExtraction</class>

</processor>

<class>com.geometa.spider.processor.SaveFile_Simp</class>

</processor>

<class>com.geometa.spider.processor.ExtractSpiderClue_Simp</class>

</processor>

<class>com.geometa.spider.processor.ConfirmSpiderClue_Simp</class>

</processor>

<class>com.geometa.spider.processor.CleanWorksBucket</class>

</processor>

</geometa-session-profile>

GooSeeker

Data Extraction Workflow File

Languages