抓取href 复制样例后 获取到的后面部分都是相对路径?
而前几个抓取到的显示正常,为绝对路径。请各位亲帮忙指导一下,这样会不会影响后续的操作,以及应该作何调整才可以完整获取绝对路径。十分感谢。
以下附上测试结果截图和网址链接。




举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-4-3 16:14

沙发
Fuller 管理员 发表于 2017-4-3 16:02:25 | 只看该作者
好奇怪,刚才我无操作,把一个下级网页点开了,采集到的就是绝对网址了
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-3 16:07:53 | 只看该作者
我又测试了一些,发现确实是这样的,鼠标点过的链接,就变成绝对地址了,看来爬虫采集的时候只能采集到相对地址
举报 使用道具
地板
龙的心的心 新手上路 发表于 2017-4-3 16:09:42 | 只看该作者
Fuller 发表于 2017-4-3 16:07
我又测试了一些,发现确实是这样的,鼠标点过的链接,就变成绝对地址了,看来爬虫采集的时候只能采集到相对 ...

采集到相对网址会不会影响后续的数据采集?
举报 使用道具
5#
龙的心的心 新手上路 发表于 2017-4-3 16:10:46 | 只看该作者
http://hotels.ctrip.com/hotel/beijing1#ctm_ref=ctr_hp_sb_lst
举报 使用道具
6#
Fuller 管理员 发表于 2017-4-3 16:14:12 | 只看该作者

手工做定位标志映射,选择那个大家都有的标志,而避开@class='hotel_stars04',就能防止MS谋数台生成规则的时候自动使用后者作为标志,否则只能采集到4星级的酒店
举报 使用道具
7#
Fuller 管理员 发表于 2017-4-3 16:14:39 | 只看该作者
龙的心的心 发表于 2017-4-3 16:09
采集到相对网址会不会影响后续的数据采集?

生成下级线索的时候会自动补齐网址
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 09:33