|
问题1,这种不是结构化的网页节点,只能使用定义xpath,通过定位“类型”标签和下一个**标签,截取两者之间的节点内容,就是“类型”的值了,具体如下图
抓取内容表达式xpath:
- substring-before(substring-after(//*[@id='info'],//*[@class='pl' and contains(.,'类型')]),//*[@class='pl' and contains(.,'类型')]/following-sibling::span[@class])
复制代码
问题2,这种定位失败的,跟问题1是一样的情况,也是要通过xpath来采集的,但是像演员这种信息,是有唯一属性节点的,这种做定位标志映射就可以准确采集了
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 1 个关于本帖的回复 最后回复于 2020-3-31 18:46