关于周期提取的问题

你好,现在想请问一个问题:就是对于三级层次提取,第一级是人名列表,第二级是每个人所写得博客列表,第三级才是博文,这样的三级层次的周期提取,处在中间级的博客列表的自动更新是针对每一个人都有的,还是说只是针对第一个啊。我设置的是重复三次就停止,也就是说这个重复三次指的是每一个人的列表重复三次,还只是针对整个第二级的主题的所有列表的重复三次啊。谢谢。

每个线索重复三次

不是整个主题重复三次

再问个

最近发现每次打开datascraper开始自动提取时,总线索数自己减少了,为什么呢。第一次的总线索数是900多,第二次变成了800多,这次只有700多了,请问为什么会这样呢?谢谢了。

线索的状态是什么

主要有这些状态: 1, start, 2, fetched, 3, unknownschema, 4, 其它

这些加起来应该数量不变. 如果你在抓取, start状态的应该不断减少

对于周期提取的影响

恩,总和是没变,unknownschema的增加了。那这个对周期性提取有影响吗,周期性提取的线索重复三次中也包括unknownschema的重复吗,也就是说是针对所有线索的每个线索进行更新检测的吗?

没有找到合适的抓取规则

出现unknown状态, 说明没有合适的抓取规则,那就需要研究一下是不是定义的抓取规则没有通用性。

unknown状态是最需要关注的状态,这是不好的状态

谢谢

谢啦,再去研究研究,哈哈。

谢谢

哦,谢谢。知道了,又长知识了,哈哈。