再次运行主题的问题

成功运行了主题,“线索状态”第一次“start”比如线索数量为“20799”,运行完后再看线索统计就变成了“start”线索数量为0,“其它”一栏变成了“20799”,请教这是什么意思呢?这个时候提取就什么也提取不到,请问如何第二次运行主题?另外去活和激活是什么作用呢?谢谢

网页抓取都成功了

如果主题是自己创建的,如果发现所有线索都处于“其它”状态,那表示网页抓取全部成功了。全部成功的线索不能通过界面激活它们,界面上的激活操作只能将不成功的激活到“start”状态。要重新激活已经抓取完的线索,需要在crontab.xml中设置,参看周期性抓取调度文件,执行一次激活一批,每批数量有限制。

如果前2级线索都是一

如果前2级线索都是一样的,只有第三级线索和最后的页面要提取的内容不一样,是不是第一和第二级线索也不能通过界面激活,而是必须去crontab.xml中设置?

各级之间都是隔离的

各级之间的线索都是隔离管理的,即使两级使用相同网页地址,也是两个不同线索,必要的话需要每级都激活。

也可以只激活第一级,第一级再次抓取后,会生成第二级的线索,相当于激活

假如第一级主题叫schem

假如第一级主题叫schema-1, 目标主题叫schema-2,都已经成功提取过,如果现在我删掉schema-1,重新做一个同样的,设置目标主题仍然为schema-2,那么提取schema-1会激活schema-2么?曾经碰到的情况好像是schema-2又要识别,所以相当于从头再来

第二级能够激活

第二级不用重新识别,定义信息结构的时候,每级之间没有先后顺序