|
至于为什么总是抓取第一条,是因为你用的自定义xpath不正确,比如- //*[@class='WB_text W_f14'][1]
复制代码
会比较严重干扰自动生成的规则。本来要求自定义xpath的定位起点应该相对于一个区域块节点,这个区域块节点就是一条微博的div,而你用的//是从整个html开始匹配的,而且在整个html中找到一个集合,然后只选择第一个。这样的规则只能采集第一条
把自定义xpath改掉吧。先不用自定义xpath,用内容映射,等自动生成了规则,再把它的定位表达式拷贝出来进行编辑,定位起点一般是 ./ 开始,就是相对于它的容器节点开始。自动生成的xpath可能开头是*//*这种,可以替换成 .//*
|
|
共 15 个关于本帖的回复 最后回复于 2021-11-26 15:36