1.b高血压医生列表

                                                                        2.b高血压医生列表_个人                       

3.b高血压医生列表_个人_信息主页

                                                                        4.b高血压医生列表_个人_信息主页二级



                       
我的这几个主题都是层级抓取,2、3、4我用的样本页面都是http://www.haodf.com/doctor/DE4r08xQdKSLBZmGIpMEBi1InoYl.htm,现在我抓到4这一级了,我这一级的抓取字段想调整一下,但是鉴于之前用的样本页面http://www.haodf.com/doctor/DE4r08xQdKSLBZmGIpMEBi1InoYl.htm无这个字段,所以我想在这一级改样本页面,同时在新的样本页面增加一个字段,字段就是【是否有医生照片】(抓取IMG的src,如果有就是有照片,无就是没有照片)。请问这种层级抓取中,这样换样本页面会有影响吗,会不会要整体重新抓,会不会这一级的线索数不对之类的问题

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-10-2 17:27

沙发
Fuller 管理员 发表于 2017-10-2 17:27:15 | 只看该作者
采用这样的步骤
1,加载老的规则
2,在url输入框中输入新样本页面,回车
3,选择菜单规则-〉刷新页面结构,再选择菜单 规则-〉分析页面
4,如果分析成功,就修改整理箱,增加抓取内容
5,存规则

不影响抓取。但是,如果这些内容都入到会员中心库里,导出的时候会有问题。因为字段多了,所以,要先把现有的内容都导出了再修改
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-25 12:30