快捷导航
主题:京东商品一级
京东商品二级
京东商品三级

举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2019-4-12 22:43

Fuller 管理员 发表于 2019-4-10 22:07:28 | 显示全部楼层
第三级根本没有必要采集商品名字,因为在其他级都采集到了,如果要采集,不要跟评论信息放在一起,有两个方案:
方案一:商品名字放在一个整理箱,评论信息放在一个整理箱
方案二:像下图一样,评论放在一个子箱子中

原因是:商品名字与评论在网页上离的太远了,他们是在DOM树的两个大分支上。如果他们并排放在一起抓取,那么,爬虫先定位到商品名字,然后评论信息那几项都是参照商品名字的位置进行定位,而商品名字和评论详细之间离得太远,每个网页可能会在这之间放不同结构的内容,会影响规则的适应性。
区域20190410220100.png

我把评论信息放在一个子箱子中,然后给每个抓取内容和容器节点都做上定位标志映射,每个定位标志映射就会在网页上划定一个范围,这样就会很精准。具体参看教程《定位标志精确采集范围
举报 使用道具
七七七七月 初级会员 发表于 2019-4-11 17:44:19 | 显示全部楼层
我如果不采集 商品名称  评论我就不知道是评论的那个商品
举报 使用道具
七七七七月 初级会员 发表于 2019-4-11 17:45:50 | 显示全部楼层
现在的问题是  三级的数据不是跟二级的数据同步的出现的  二级已经爬了一千多  三级也是只有很少的几十个数据
举报 使用道具
Fuller 管理员 发表于 2019-4-11 18:46:21 | 显示全部楼层
七七七七月 发表于 2019-4-11 17:44
我如果不采集 商品名称  评论我就不知道是评论的那个商品

即使不放在一起,比如,放在两张表中,但是他们都有共同的fullpath字段,也就是网址,根据这个可以匹配在一起
举报 使用道具
Fuller 管理员 发表于 2019-4-11 18:47:38 | 显示全部楼层
七七七七月 发表于 2019-4-11 17:45
现在的问题是  三级的数据不是跟二级的数据同步的出现的  二级已经爬了一千多  三级也是只有很少的几十个数 ...

第二级用连贯抓取跳到第三级,正常的话,不会给第三级生成线索,从第二级开始,一口气将第三级的也抓了。

如果你是看到结果数据少,那说明规则不合适,漏数据了
举报 使用道具
七七七七月 初级会员 发表于 2019-4-11 22:00:07 | 显示全部楼层
那我这个是哪里出了问题  漏了特别多数据
举报 使用道具
Fuller 管理员 发表于 2019-4-12 08:26:24 | 显示全部楼层
七七七七月 发表于 2019-4-11 22:00
那我这个是哪里出了问题  漏了特别多数据

光看你一个样本页面上的规则,看起来规则很好,但是不知道在哪个网页上会不适应。建议采取两个措施:
1,用上定位标志映射,这样生成的规则中就会避免很多position函数,不定点定位,适应性就好很多,如下图
2,导出数据以后,excel表中有个fullpath字段,等规则加载到工作台上以后,在地址栏输入这个网址,然后选择菜单 规则-》刷新页面结构,再选择 规则-》分析页面,看看有什么问题

定位20190412082301.png
举报 使用道具
七七七七月 初级会员 发表于 2019-4-12 14:24:09 | 显示全部楼层
您好  我现在的数据  二级20条  三级就会出10条甚至不出   这个该怎么解决
举报 使用道具
七七七七月 初级会员 发表于 2019-4-12 14:24:31 | 显示全部楼层
是哪里出了问题了吗  是不是规则的问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 摘取泉港区政府工作报告中的数字遇到的问题
  • 调度设置参数说明
  • 集搜客网络爬虫软件实现自动网页截屏
  • 怎样使用搜狐新闻搜索列表快捷工具抓取关键
  • 用于清洗文本内容的Excel函数公式

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-7-18 00:44