如題
參考了此篇教程:https://www.gooseeker.com/doc/article-533-1.html
測試時始終無法將第一筆以外之資料一併抓取
在煩請管理員協助QQ
規則名稱:MY-Address
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2022-8-12 10:17

沙发
Fuller 管理员 发表于 2022-8-11 15:39:58 | 只看该作者

1. 用红框那个dom节点做定位映射,映射给A1, A2,。。。EMAIL所有这些抓取内容,这样定位每个抓取内容时就会使用这个指定的标志
2. 用下面两个箭头指向的TR做样例映射
3. 设置成偏好id

我用如上方案已经能采集到多行了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Wei_AA25 中级会员 发表于 2022-8-12 09:51:04 | 只看该作者
Fuller 发表于 2022-8-11 15:39
1. 用红框那个dom节点做定位映射,映射给A1, A2,。。。EMAIL所有这些抓取内容,这样定位每个抓取内容时 ...

管理員您好:

非常感謝您的回覆!
定位映射我原先的設定是其原始DOM節點的ID內容
可以抓到正確內容但沒有辦法樣例複製
想請問這是甚麼原理呢~~~
我想記錄一下^^!
举报 使用道具
地板
Fuller 管理员 发表于 2022-8-12 10:17:26 | 只看该作者
Wei_AA25 发表于 2022-8-12 09:51
管理員您好:

非常感謝您的回覆!

如果不做手工指定的定位映射,那么爬虫软件会根据设定的“偏好id”或者“偏好class”自动找一个,是从最近的一个祖先DOM节点上找。

如果class或者id中含有唯一性的数字,比如,第一行内容的class是 xxx_1,第二行是 xxx_2,那么自动选用这个class的话就不合适,就只能采集到这一条数据。

这个时候,就可以手工指定一个定位标志,避开自动选择的这个不合适的标志。

点击“测试”按钮以后,除了看采集结果以外,可以点击“采集规则”tab,看生成的xpath,这是一个XSLT文件,如果能理解这个编程语言的话,可以帮助找出规则的问题,主要看生成的xpath,是否选用了不合适的class或者id




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 04:03