快捷导航
本帖最后由 Wei_AA25 于 2022-2-22 10:13 编辑

任務名稱:VN-遊覽業

問題:使用此網頁進行資料蒐集工作,但在此頁面進行樣例複製功能會無效
1.使用偏好class => 抓不到任何資料
2.絕對定位 => 只抓的到第一筆資訊

有線上詢問過客服,客服說明可至此處提出詢問~
在煩請技術人員協助!
謝謝!
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2022-2-22 13:48

Fuller 管理员 发表于 2022-2-21 16:36:32 | 显示全部楼层
用第一条内容生成规则,可以看到xpath中给A节点加了一个position()限定
生成的规则.png

再看第一条数据的DOM,可以看到第一条有两个A,爬虫生成规则的时候,遇到有多个相同节点的时候,就要限定一下。
两个A节点.png

为了避免这种情况发生,要么采用自定义xpath,在自定义xpath中把[position() = 2]删除。
还有一个方法:给抓取内容做上定位映射,给整理箱也做上定位映射,而不用样例映射,这样就可以选用第二条数据作为样例定义规则,第二条没有两个A,就不会出现问题。
定位615.png
举报 使用道具
Fuller 管理员 发表于 2022-2-21 16:37:45 | 显示全部楼层
我刚才测试了,使用第二种方法:定位映射,但是再次加载规则的时候会重新选用第一条数据作为样例。看来还是用第一个方案更好:自定义xpath
举报 使用道具
Wei_AA25 中级会员 发表于 2022-2-22 09:59:19 | 显示全部楼层
Fuller 发表于 2022-2-21 16:37
我刚才测试了,使用第二种方法:定位映射,但是再次加载规则的时候会重新选用第一条数据作为样例。看来还是 ...

早上好!我稍微找了一下教程,沒有看到新版如何設置自訂義Xpath
想請問我要如何在新版做此操作呢 ?
举报 使用道具
Fuller 管理员 发表于 2022-2-22 11:13:06 | 显示全部楼层
Wei_AA25 发表于 2022-2-22 09:59
早上好!我稍微找了一下教程,沒有看到新版如何設置自訂義Xpath
想請問我要如何在新版做此操作呢 ?
...

第一步:拿到爬虫自动生成的xpath,拷贝出来,做一些修改。注意:xpath最前面假设是这样开头的 .// ,开头的内容不要修改
   测试规则36.png


第二步:在这里输入自定义xpath
自定义007.png

举报 使用道具
Wei_AA25 中级会员 发表于 2022-2-22 11:56:20 | 显示全部楼层
Fuller 发表于 2022-2-22 11:13
第一步:拿到爬虫自动生成的xpath,拷贝出来,做一些修改。注意:xpath最前面假设是这样开头的 .// ,开头 ...

您好!

我修改完成後,測試內容是空白的xpath內容修改為:.//*[@class='tencty col-xs-12 col-lg-12 col-md-12 col-sm-12']/a/h3
不曉得這樣是否為正確的

image.jpg


举报 使用道具
Fuller 管理员 发表于 2022-2-22 12:07:59 | 显示全部楼层
Wei_AA25 发表于 2022-2-22 11:56
您好!

我修改完成後,測試內容是空白的xpath內容修改為:.//*[@class='tencty col-xs-12 col-lg-12 col- ...

我这里测试是好的,我给整理箱的最顶层容器做了定位映射,没有使用样例映射
定位741.png
举报 使用道具
Wei_AA25 中级会员 发表于 2022-2-22 13:48:27 | 显示全部楼层
Fuller 发表于 2022-2-22 12:07
我这里测试是好的,我给整理箱的最顶层容器做了定位映射,没有使用样例映射

...

感謝教學!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系
  • 知乎话题文本分词后的共词矩阵怎样引入词语

热门用户

GMT+8, 2024-2-28 22:07