本帖最后由 skykate 于 2016-10-23 17:40 编辑
蚂蜂窝社区爬取用户足迹时,主题名为:user_information_Mafengwo-TS
网页结构出现两种情况,附网址:http://www.mafengwo.cn/path/5327755.html
一种情况是浏览地点已完善,另外一种情况是地点待完善;我想爬取城市数据,即图片上的文字;上述情况导致了两种不同的网页结构;
只做一种内容映射时,只能爬取到一种结构的数据;但依照MS谋数台生成的XPath语句,写成xxx|xxx的格式时,导致爬取结果全部为第一个样例的城市;
可能是我自定义的XPath语句有问题吗?我是根据MS谋数台自动生成的xpath进行书写的:
具体如下:
我写了两种,结果都是一样的://*[@class='_j_cityitem']/div[position()=2]/dl/dt/a/div[position()=2]/div[position()=2]/h3/span/text()|//*[@class='_j_cityitem']/div[position()=2]/dl/dt/a/div[position()=2]/p/text()
第二种://*[@class='txt']/h3/span[position()=1]/text()|//*[@class='vertical']/p/text()
是不是没有写兄弟节点的相关信息?
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 8 个关于本帖的回复 最后回复于 2016-10-25 11:08