DataScraper如何跳过继续提取 | GooSeeker

DataScraper如何跳过继续提取

Sat, 07/17/2010 - 08:26 — redplus

当目标页面出现一个提示信息（比方说你要查找的信息不存在或是其他），其内容格式跟我定义的信息结构不相符时，发现DataScraper就停在那了，不能继续下条线索的提取，在日志文件里面发现以下提示：
DataScraperEngine handleLoadEvent DEBUG: load has been caught

请问这个问题可以解决吗？该如何设置参数？

Web信息提取

Login to post comments

Sun, 07/18/2010 - 12:08 — Fuller

如果设置了延长模式就要等到超时

如果没有设置延长模式，当看到那条日志信息时，DataScraper就会报：Suitable Data Schema Cannot be Found错误，并将线索状态设置成unknownschema，然后就跳过这个线索

如果设置延长模式，就得等到超时，超时时间可以在周期性提取指令文件中设置。如果想尽快跳过该线索，而且假设不相符的网页的信息结构都一样，那么找一个作为样本页面，为它定义一个信息结构，其主题名与正常网页的主题名一致，而middle name不同

Login to post comments

Sun, 07/18/2010 - 14:22 — redplus

不是很明白

周期性提取指令文件哪个参数表示超时？

谢谢

Login to post comments

Sun, 07/18/2010 - 14:33 — Fuller

loadTimeout是超时参数

该参数说明：http://www.gooseeker.com/cn/node/technology/files/pss

Login to post comments

Sun, 07/18/2010 - 18:41 — redplus

谢谢

O(∩_∩)O~

Login to post comments