本帖最后由 Wei_AA25 于 2022-2-22 10:13 编辑

任務名稱:VN-遊覽業

問題:使用此網頁進行資料蒐集工作,但在此頁面進行樣例複製功能會無效
1.使用偏好class => 抓不到任何資料
2.絕對定位 => 只抓的到第一筆資訊

有線上詢問過客服,客服說明可至此處提出詢問~
在煩請技術人員協助!
謝謝!
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2022-2-22 13:48

沙发
Fuller 管理员 发表于 2022-2-21 16:36:32 | 只看该作者
用第一条内容生成规则,可以看到xpath中给A节点加了一个position()限定


再看第一条数据的DOM,可以看到第一条有两个A,爬虫生成规则的时候,遇到有多个相同节点的时候,就要限定一下。


为了避免这种情况发生,要么采用自定义xpath,在自定义xpath中把[position() = 2]删除。
还有一个方法:给抓取内容做上定位映射,给整理箱也做上定位映射,而不用样例映射,这样就可以选用第二条数据作为样例定义规则,第二条没有两个A,就不会出现问题。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Fuller 管理员 发表于 2022-2-21 16:37:45 | 只看该作者
我刚才测试了,使用第二种方法:定位映射,但是再次加载规则的时候会重新选用第一条数据作为样例。看来还是用第一个方案更好:自定义xpath
举报 使用道具
地板
Wei_AA25 中级会员 发表于 2022-2-22 09:59:19 | 只看该作者
Fuller 发表于 2022-2-21 16:37
我刚才测试了,使用第二种方法:定位映射,但是再次加载规则的时候会重新选用第一条数据作为样例。看来还是 ...

早上好!我稍微找了一下教程,沒有看到新版如何設置自訂義Xpath
想請問我要如何在新版做此操作呢 ?
举报 使用道具
5#
Fuller 管理员 发表于 2022-2-22 11:13:06 | 只看该作者
Wei_AA25 发表于 2022-2-22 09:59
早上好!我稍微找了一下教程,沒有看到新版如何設置自訂義Xpath
想請問我要如何在新版做此操作呢 ?
...

第一步:拿到爬虫自动生成的xpath,拷贝出来,做一些修改。注意:xpath最前面假设是这样开头的 .// ,开头的内容不要修改
  


第二步:在这里输入自定义xpath


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
Wei_AA25 中级会员 发表于 2022-2-22 11:56:20 | 只看该作者
Fuller 发表于 2022-2-22 11:13
第一步:拿到爬虫自动生成的xpath,拷贝出来,做一些修改。注意:xpath最前面假设是这样开头的 .// ,开头 ...

您好!

我修改完成後,測試內容是空白的xpath內容修改為:.//*[@class='tencty col-xs-12 col-lg-12 col-md-12 col-sm-12']/a/h3
不曉得這樣是否為正確的




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
Fuller 管理员 发表于 2022-2-22 12:07:59 | 只看该作者
Wei_AA25 发表于 2022-2-22 11:56
您好!

我修改完成後,測試內容是空白的xpath內容修改為:.//*[@class='tencty col-xs-12 col-lg-12 col- ...

我这里测试是好的,我给整理箱的最顶层容器做了定位映射,没有使用样例映射

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
Wei_AA25 中级会员 发表于 2022-2-22 13:48:27 | 只看该作者
Fuller 发表于 2022-2-22 12:07
我这里测试是好的,我给整理箱的最顶层容器做了定位映射,没有使用样例映射

...

感謝教學!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 苹果mac电脑安装集搜客网络爬虫软件失败的
  • 下载支持win7的集搜客网络爬虫软件
  • 遇到“无法识别的应用”告警怎么办?
  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词

热门用户

GMT+8, 2024-7-27 11:06