11#
Fuller 管理员 发表于 2020-2-14 16:19:25 | 只看该作者
gracewlh 发表于 2020-2-14 15:11
麻烦您帮我看看规则 ke产品文字信息采集 ,怎么修改?



第一步:整理箱定义成这个样子,做内容映射,所有抓取内容都用同一个TD做内容映射。再点击“定位”按钮,选择绝对定位,因为表头的class不一样,防止有干扰。如果翻页到下一页绝对定位不适合,可以在这个整理箱上定义一层子箱子,就像你一开始定义的那样。给最外层用上定位标志映射,就是把代表整张表的那个table做定位标志映射,划定一下范围

注意,前两个抓取内容勾上关键内容,其他不能勾,因为每一行可能没有其他抓取内容

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
Fuller 管理员 发表于 2020-2-14 16:20:37 | 只看该作者

第二步,做样例复制,用最前面两个tr

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
13#
Fuller 管理员 发表于 2020-2-14 16:21:19 | 只看该作者


第三步,查看数据规则,可以看到这么一个表格,规则很简单,每个抓取内容都是一个td

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
14#
Fuller 管理员 发表于 2020-2-14 16:23:09 | 只看该作者


第四步,自定义xpath。就是第一个抓取内容不用修改,其他的都要重新定义

他们的定位表达式都一样
  1. td[1]
复制代码
抓取内容表达式不一样,第一个td是td[1],其他抓取内容依次往后推td[3], td[4], td[5]....

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
15#
Fuller 管理员 发表于 2020-2-14 16:24:59 | 只看该作者


排到new-in,他的抓取内容xpath就是这样了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
16#
Fuller 管理员 发表于 2020-2-14 16:32:59 | 只看该作者


最后结果是这样的,第一个和第二个tr采集到的数据有点怪,后面的产品信息就正常了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-22 20:35