主题名:WOA
网址是:https://www.whisky-onlineauctions.com/previous-auctions/

需要抓取该拍卖网站每年、每期的拍卖纪录。
具体情况:加载后自动显示2018年部分,将2018年节点设为当前位置,2017年设为下一位置,DS抓取显示成功,但是只抓取了2018和2017,无法继续翻到2016及之后。
请问大牛~这是什么问题,怎么解决喃?


其他尝试:
尝试过连续动作,但是不知道是操作不当,还是功能不支持,无法点击2017后,抓取2017年内每期列表,再点击2016、并抓取2016年内每期列表,如此类推;
也没办法用定位线索,用2017-2012分别创立线索,用 Li 节点定位,均显示定位失败;
由于没有固定翻页记号,也无法使用记号线索。

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-3-27 09:29

沙发
Fuller 管理员 发表于 2018-3-24 09:31:34 | 只看该作者


我稍微改动了一下,就能点击,看上图,我用LI内部的SPAN做相对线索映射。也就是说这个网页只能监听到SPAN上的点击动作,而LI上不监听。通常的原则是:尽量选择最内部的“元素”节点,不能是text,也不能是attributes下的属性,只能是元素节点。点击最内部的节点,外面的监听一定能听到内部的。

但是虽然能够翻到2017,但是后面的翻不了,点击查看规则,就能看到翻页规则是
  1. //*[@class='padates']/ul/li[count(./span)>0 and count(following-sibling::li[position()=1 and @class='li-clear li-year-2017']/span)>0 and @class='li-clear li-year-2018 yearactive']
复制代码
可见,2017,2018写到规则中了,就无法翻到2016了。只能通过手工修改规则的方法来解决这个问题,但是一定要注意步骤的顺序,因为手工修改的规则会被自动生成的规则覆盖掉的。
第一步:做好各种映射,存规则
第二步:点击查看规则,手工修改规则,把这个xpath改成
  1. //*[@class='padates']/ul/li[count(./span)>0 and count(following-sibling::li[position()=1 and contains(@class, 'li-clear li-year)']/span)>0 and contains(@class, 'yearactive')]
复制代码
用contains函数,而不是用=号

第三步:点击“保存修改”按钮,手工修改的内容就保存了

如果未来再次点击“存规则”按钮,手工修改的就会被覆盖掉,又得手工修改,并且“保存修改”



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Huilin 初级会员 发表于 2018-3-26 17:19:35 | 只看该作者
谢谢Fuller!超详细!(*^▽^*)
举报 使用道具
地板
Huilin 初级会员 发表于 2018-3-26 19:02:31 | 只看该作者
我按照指示重修了规则,不过出现了两个问题:

1,第一次修改之后,保存的时候出现了类似于无法定位的情况,建议我冻结页面。我刷新页面结构之后冻结页面,重修再修改并保存,就发现相对线索2的两个位置节点SPAN的编号变了,371变为372,378也变为380。但是再重新存一次,又变回了371和378,不知道这个是否影响?

2,修改完毕之后进行DS打数,抓取完2018年后无法翻页,也不结束,一直卡在2018年页面超过5分钟。
举报 使用道具
5#
bowieD 金牌会员 发表于 2018-3-27 09:29:56 | 只看该作者
本帖最后由 bowieD 于 2018-3-27 09:34 编辑

如果用翻页比较复杂的话,可以用连续动作去点击,xpath这么写 //*[contains(@class,'li-clear li-year')]/span,额外延时设置为3,连续动作的目标主题名对应当前主题名,亲测有效

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-7-12 06:38