我设定好线索去抓网页的东西,发现一个困惑: 被抓的页面内,包含的线索,有可能含有刚才抓取过的页面网址。 这样出现的极端现象就是:两个页面反复交替抓取,这显然是不合适的。 怎么杜绝此现象呢?请帮助解答,多谢!
采用周期性自动抓取时,可以在crontab.xml文件中为这个主题设置updateClue=false,这样就不会将已经抓取过的线索激活了
防止重复抓取网页
采用周期性自动抓取时,可以在crontab.xml文件中为这个主题设置updateClue=false,这样就不会将已经抓取过的线索激活了