集搜客GooSeeker网络爬虫
标题:
采集到相对网址,要怎么解决?
[打印本页]
作者:
Smile爱分享
时间:
2016-12-9 11:53
标题:
采集到相对网址,要怎么解决?
采集到相对网址,要怎么解决?
作者:
ym
时间:
2016-12-9 11:57
本帖最后由 ym 于 2017-8-17 19:15 编辑
1、最安全的方法是后期导入到excel里再补全域名的部分,操作参考
《如何手工补上网址的域名部分》
2、可以在规则里对抓网址的标签自定义xpath,利用concat()函数补全域名,这种采集下来就会有完整的网址,但是如果补充的域名部分有错,就会导致采集到的网址都错误,所以,不是很保险的做法,操作参考
《自定义xpath:精确采集》
、
《xpath常用函数用法》
3、如果是抓网址作为下级线索,是不影响下级主题的采集,因为爬虫会自动给下级主题补全域名部分,操作参考
《采网址做层级采集》
欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/)
Powered by Discuz! X3.2