微博爬虫问题

yanland

求问爬url时只能爬到短url，真实的url还需要在前面加个weibo.com 怎么破

ym · 发表于 2016-9-9 17:02:46

网站本来就是用的相对网址，抓下来就是相对网址，如果想要抓下来是完整的网址，需要对它自定义xpath补全域名，参考自定义xpath教程http://www.gooseeker.com/doc/thread-701-1-1.html

另外，对它设置下级线索，那么给下级规则生成线索时会自动补全域名的，是不会影响采集的，下级规则是打开正确的网页来采数据的。

微博爬虫问题

共 1 个关于本帖的回复最后回复于 2016-9-9 17:02

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

微博爬虫问题

共 1 个关于本帖的回复 最后回复于 2016-9-9 17:02

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2016-9-9 17:02