假设A主题是一个Url列表,其目标主题是B,用来提取链接页面的详细信息。一段时间后,A主题的Url列表发生了变化,这个时候,如何提取最新的内容,完整的步骤应该是什么?
我的做法是: 修改周期性指定提取文件,重置A主题线索,可以抓取到最新的Url列表。但重置B主题后,发现这个里面的线索是上次的,而不是根据A主题来的线索,该如何解决?
在周期性指令文件中,用renewClue激活主题A,主题A的crawl参数:updateClue设置成false,就不会已经提取过的主题B的网页激活了。另外,主题B不要执行renewClue步骤,主题B的需要提取的线索只靠主题A的crawl步骤获得。
tks
重复抓取时一般只重置列表主题
在周期性指令文件中,用renewClue激活主题A,主题A的crawl参数:updateClue设置成false,就不会已经提取过的主题B的网页激活了。另外,主题B不要执行renewClue步骤,主题B的需要提取的线索只靠主题A的crawl步骤获得。
谢谢
tks