能否不要抓重复的网址呢?

我设定好线索去抓网页的东西,发现一个困惑:
被抓的页面内,包含的线索,有可能含有刚才抓取过的页面网址。
这样出现的极端现象就是:两个页面反复交替抓取,这显然是不合适的。
怎么杜绝此现象呢?请帮助解答,多谢!

防止重复抓取网页

采用周期性自动抓取时,可以在crontab.xml文件中为这个主题设置updateClue=false,这样就不会将已经抓取过的线索激活了