怎样使用网页内容抓取软件DataScraper生成的数据抽取结果文件？

问：如果使用网页内容抓取软件DataScraper将某个论坛网站上的所有论坛会话/主题抽取了下来，DataScraper生成了很多信息提取结果文件（XML文件），我准备在我的网站上将这些论坛会话恢复出来，保持原来的会话过程和顺序不变，应该怎样处理信息提取结果文件？

答：打开某个信息提取结果XML文件，可以看到最前面有几个重要的字段：clueid, fullpath, theme, middle，使用这几个字段就可以确定哪些文件关联在一起。如果翻页提取（某个讨论主题跟帖很多，分成多页显示），每一页产生一个XML文件，但是clueid是不变的，fullpath是被提取页面的完整的URL地址，如果目标网站翻页方法是使用javascript代码实现的，这个fullpath可能不变，但是，大部分情况下翻页是通过普通超链接实现的，每一页都有一个URL地址，此时fullpath是变化的。theme和middle就是使用语义结构定义和信息提取规则生成工具软件MetaStudio创建信息结构时命名的主题名和辅名，这些信息能够将信息提取结果文件组织在一起，如果需要将论坛讨论会话过程完全恢复，还需要判断XML文件产生的时间，这样可以按顺序恢复讨论会话，也可以在论坛上提取每个跟帖的时间，用于恢复会话时间顺序

GooSeeker

怎样使用网页内容抓取软件DataScraper生成的数据抽取结果文件？

切换语言