快捷导航
1.b高血压医生列表

                                                                        2.b高血压医生列表_个人                       

3.b高血压医生列表_个人_信息主页

                                                                        4.b高血压医生列表_个人_信息主页二级



                       
我的这几个主题都是层级抓取,2、3、4我用的样本页面都是http://www.haodf.com/doctor/DE4r08xQdKSLBZmGIpMEBi1InoYl.htm,现在我抓到4这一级了,我这一级的抓取字段想调整一下,但是鉴于之前用的样本页面http://www.haodf.com/doctor/DE4r08xQdKSLBZmGIpMEBi1InoYl.htm无这个字段,所以我想在这一级改样本页面,同时在新的样本页面增加一个字段,字段就是【是否有医生照片】(抓取IMG的src,如果有就是有照片,无就是没有照片)。请问这种层级抓取中,这样换样本页面会有影响吗,会不会要整体重新抓,会不会这一级的线索数不对之类的问题

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-10-2 17:27

Fuller 管理员 发表于 2017-10-2 17:27:15 | 显示全部楼层
采用这样的步骤
1,加载老的规则
2,在url输入框中输入新样本页面,回车
3,选择菜单规则-〉刷新页面结构,再选择菜单 规则-〉分析页面
4,如果分析成功,就修改整理箱,增加抓取内容
5,存规则

不影响抓取。但是,如果这些内容都入到会员中心库里,导出的时候会有问题。因为字段多了,所以,要先把现有的内容都导出了再修改
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 百度推广后台数据DIY
  • 采集表单中的input动态内容
  • 采用刷新动作实现手机页面采集
  • 通过划定滚轮范围实现精确点击手机页面
  • 放大或者缩小页面便于采集手机网页内容

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-12-18 18:46