我有问题请教大神,我用层级抓取抓客车等级数据,第一层抓每个车型网址,第二层抓每个车型的参数表,各车型参数表两列,28行不等,且有的参数为空,总车型数约4883,遇到两类问题:1.全部抓下来后,用xml合成后变成了两列,4883*28/27/26行的文件,请问如何可以转置成一个车型一行的数据库;
2.为了解决上述问题,我在抓二级数据时,尝试在整理箱中仅抓几个关键参数,但由于有的参数有文本,有的参数直接为空,都没法做内容映射,请问有什么解决方法?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-12-9 18:23

沙发
wangyong 版主 发表于 2016-12-9 16:12:40 | 只看该作者
规则名和网页链接发一下
举报 使用道具
板凳
hooan2006 初级会员 发表于 2016-12-9 18:12:08 | 只看该作者
规则名:Bus_rank_first,和Bus_rank_second,抓取网页链接:http://www.ztauto.com/index.php?g=Search&a=search
举报 使用道具
地板
hooan2006 初级会员 发表于 2016-12-9 18:12:57 | 只看该作者
wangyong 发表于 2016-12-9 16:12
规则名和网页链接发一下

规则名:Bus_rank_first,和Bus_rank_second,抓取网页链接:http://www.ztauto.com/index.php?g=Search&a=search

举报 使用道具
5#
wangyong 版主 发表于 2016-12-9 18:23:55 | 只看该作者
按照现在second规则的做法,只能先将数据采下来再清洗转置
如果只抓取重要参数的话,就不做样例复制每个,抓取内容都做做映射
例如,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-26 06:08