问:如果使用网页内容抓取软件DataScraper将某个论坛网站上的所有论坛会话/主题抽取了下来,DataScraper生成了很多信息提取结果文件(XML文件),我准备在我的网站上将这些论坛会话恢复出来,保持原来的会话过程和顺序不变,应该怎样处理信息提取结果文件?
答:打开某个信息提取结果XML文件,可以看到最前面有几个重要的字段:clueid, fullpath, theme, middle,使用这几个字段就可以确定哪些文件关联在一起。如果翻页提取(某个讨论主题跟帖很多,分成多页显示),每一页产生一个XML文件,但是clueid是不变的,fullpath是被提取页面的完整的URL地址,如果目标网站翻页方法是使用javascript代码实现的,这个fullpath可能不变,但是,大部分情况下翻页是通过普通超链接实现的,每一页都有一个URL地址,此时fullpath是变化的。theme和middle就是使用语义结构定义和信息提取规则生成工具软件MetaStudio创建信息结构时命名的主题名和辅名,这些信息能够将信息提取结果文件组织在一起,如果需要将论坛讨论会话过程完全恢复,还需要判断XML文件产生的时间,这样可以按顺序恢复讨论会话,也可以在论坛上提取每个跟帖的时间,用于恢复会话时间顺序