11#
Fuller 管理员 发表于 2020-2-14 16:19:25 | 只看该作者
gracewlh 发表于 2020-2-14 15:11
麻烦您帮我看看规则 ke产品文字信息采集 ,怎么修改?



第一步:整理箱定义成这个样子,做内容映射,所有抓取内容都用同一个TD做内容映射。再点击“定位”按钮,选择绝对定位,因为表头的class不一样,防止有干扰。如果翻页到下一页绝对定位不适合,可以在这个整理箱上定义一层子箱子,就像你一开始定义的那样。给最外层用上定位标志映射,就是把代表整张表的那个table做定位标志映射,划定一下范围

注意,前两个抓取内容勾上关键内容,其他不能勾,因为每一行可能没有其他抓取内容
举报 使用道具
12#
Fuller 管理员 发表于 2020-2-14 16:20:37 | 只看该作者

第二步,做样例复制,用最前面两个tr
举报 使用道具
13#
Fuller 管理员 发表于 2020-2-14 16:21:19 | 只看该作者


第三步,查看数据规则,可以看到这么一个表格,规则很简单,每个抓取内容都是一个td
举报 使用道具
14#
Fuller 管理员 发表于 2020-2-14 16:23:09 | 只看该作者


第四步,自定义xpath。就是第一个抓取内容不用修改,其他的都要重新定义

他们的定位表达式都一样
  1. td[1]
复制代码
抓取内容表达式不一样,第一个td是td[1],其他抓取内容依次往后推td[3], td[4], td[5]....
举报 使用道具
15#
Fuller 管理员 发表于 2020-2-14 16:24:59 | 只看该作者


排到new-in,他的抓取内容xpath就是这样了
举报 使用道具
16#
Fuller 管理员 发表于 2020-2-14 16:32:59 | 只看该作者


最后结果是这样的,第一个和第二个tr采集到的数据有点怪,后面的产品信息就正常了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 10:25