抓url的时候,metastudio都把 & 符号转成了 & 导致url没法解析,求高手帮忙支招。
网页 http://s.taobao.com/search?spm=1.1000386.220544.1.yaFlhw&q=%B3%A4%D0%E4t... 只要这种url地址里面的&都转换成 了& 产生的url如下:/search?promote=0&tab=all&q=%B3%A4%D0%E4t%D0%F4+%C5%AE&source=tbsy&style=grid#J_relative 求帮助
要抓取网页上的哪个url?翻页的那个还是某个按钮的?
最好能够将wrongurl这个信息结构重新映射一下,如果能够加载,我就可以看到您想抓哪个网址
帮我再看看,他这个url抓出来后没法访问的
您的这个抓取淘宝店铺的主题没有问题,抓到的URL要作为字符串内容存入XML文件的时候自动将&符号转义成&了。同时您为这个信息属性设置了clue和url特性,那么每次抓取的时候都要生成新线索,您可以测试一下,生成的新线索的网址没有问题,可以被抓取。
如果你要用程序处理抓取结果XML文件,需要程序作转义恢复。
请帖出来您抓取的网页是哪个。最好告诉我主题名
主题名字是wrongurl
网页 http://s.taobao.com/search?spm=1.1000386.220544.1.yaFlhw&q=%B3%A4%D0%E4t...
只要这种url地址里面的&都转换成 了&
产生的url如下:/search?promote=0&tab=all&q=%B3%A4%D0%E4t%D0%F4+%C5%AE&source=tbsy&style=grid#J_relative
求帮助
这个主题加载不了
要抓取网页上的哪个url?翻页的那个还是某个按钮的?
最好能够将wrongurl这个信息结构重新映射一下,如果能够加载,我就可以看到您想抓哪个网址
恩,我重新定义过了
帮我再看看,他这个url抓出来后没法访问的
存XML时要转义
您的这个抓取淘宝店铺的主题没有问题,抓到的URL要作为字符串内容存入XML文件的时候自动将&符号转义成&了。同时您为这个信息属性设置了clue和url特性,那么每次抓取的时候都要生成新线索,您可以测试一下,生成的新线索的网址没有问题,可以被抓取。
如果你要用程序处理抓取结果XML文件,需要程序作转义恢复。
哪个目标网页
请帖出来您抓取的网页是哪个。最好告诉我主题名