|
假设所有的网址都是有类似这样的结构: xxxx.pdf,那么就可以用自定义xpath,使用contains()过滤网址
第一步,正常做内容映射:用那个a元素的@href属性做映射
第二步,点击“测试”按钮,查看规则,找到那个抓取内容的xpath,下图红框里面的,只要双引号内部的内容,拷贝出来
第三步,编辑xpath,因为所有的网址是这样结尾的:xxxx.pdf,那么就写一个很通用的xpath。自定义xpath的时候,xpath的起点不要变。
这是内容映射以后得到的网址:following-sibling::div[position()=1]//*[@class='image-caption']/p/a/@href
起点是这个div节点:following-sibling::div
这个起点不要改变,而是改变后面的内容。要想通用,就使用//,表示一个节点下的任意一层都是备选节点,那么,写成这样:
following-sibling::div//a/@href[contains(., '.pdf')]
表示在起点下面的任意一层的a节点,如果a节点的@href属性含有.pdf字符串,就是要采集的内容。把上述xpath拷入下面的界面,就定义好了
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 2 个关于本帖的回复 最后回复于 2022-3-8 16:38