快捷导航
1.b高血压医生列表

                                                                        2.b高血压医生列表_个人                       

3.b高血压医生列表_个人_信息主页

                                                                        4.b高血压医生列表_个人_信息主页二级



                       
我的这几个主题都是层级抓取,2、3、4我用的样本页面都是http://www.haodf.com/doctor/DE4r08xQdKSLBZmGIpMEBi1InoYl.htm,现在我抓到4这一级了,我这一级的抓取字段想调整一下,但是鉴于之前用的样本页面http://www.haodf.com/doctor/DE4r08xQdKSLBZmGIpMEBi1InoYl.htm无这个字段,所以我想在这一级改样本页面,同时在新的样本页面增加一个字段,字段就是【是否有医生照片】(抓取IMG的src,如果有就是有照片,无就是没有照片)。请问这种层级抓取中,这样换样本页面会有影响吗,会不会要整体重新抓,会不会这一级的线索数不对之类的问题

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-10-2 17:27

Fuller 管理员 发表于 2017-10-2 17:27:15 | 显示全部楼层
采用这样的步骤
1,加载老的规则
2,在url输入框中输入新样本页面,回车
3,选择菜单规则-〉刷新页面结构,再选择菜单 规则-〉分析页面
4,如果分析成功,就修改整理箱,增加抓取内容
5,存规则

不影响抓取。但是,如果这些内容都入到会员中心库里,导出的时候会有问题。因为字段多了,所以,要先把现有的内容都导出了再修改
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 爬wish等瀑布流网站时使用清除老数据功能
  • 从淘宝的买家评论中,能挖掘出什么有用的信
  • 连续动作:如何把抓到的信息与动作步骤对应
  • 淘宝开店运营十大攻略
  • 深圳市咨询投诉分析

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-10-20 14:57