许多网站的链接通过工具直接得到的形式是http://www.***.com/profile/*****形式,但是也有部分网站直接得到的链接形式是/profile/***,缺少前边的域名,请问在这种情况下怎么根据第一层得到的线索继续进行抓取?
不影响分层抓取,MetaSeeker生成线索的时候自动补全。
如果不全的网址作为内容抓取下来,而不生成线索,那么MetaSeeker不不全,需要自己在入库的时候不全
MetaSeeker自动补足网址
不影响分层抓取,MetaSeeker生成线索的时候自动补全。
如果不全的网址作为内容抓取下来,而不生成线索,那么MetaSeeker不不全,需要自己在入库的时候不全