20 38279

样例复制后无法保存规则

12325445 于 2016-7-14 10:24 发表 [复制链接]
各位大神,今天抓取时遇到问题
目标网站:http://www.rong360.com/licai-net/
抓取目标:宝宝类理财产品数据信息
主题为:融360宝宝理财产品
问题:进行样例复制后,无法保存抓取规则、测试抓取结果异常
单一样例抓取测试结果:
<融360宝宝理财>
    <item>
        <产品名称>余额宝</产品名称>
        <发行机构>支付宝</发行机构>
        <目前资金规模>8163.12亿元</目前资金规模>
        <昨日万份收益>0.65元</昨日万份收益>
        <七日年化收益>2.44%</七日年化收益>
    </item>
</融360宝宝理财>
复制样例后抓取测试结果:
<融360宝宝理财>
    <item>
        <产品名称>余额宝</产品名称>
        <发行机构>支付宝</发行机构>
        <目前资金规模>8163.12亿元</目前资金规模>
        <昨日万份收益>
                </昨日万份收益>
        <七日年化收益>8163.12亿元</七日年化收益>
    </item>
    <item>
        <产品名称>现金快线</产品名称>
        <发行机构>工银瑞信基金</发行机构>
        <目前资金规模>1529.06亿元</目前资金规模>
        <昨日万份收益>
                </昨日万份收益>
        <七日年化收益>1529.06亿元</七日年化收益>
    </item>
    <item>
        <产品名称>好买储蓄罐</产品名称>
        <发行机构>好买基金</发行机构>
        <目前资金规模>1529.06亿元</目前资金规模>
        <昨日万份收益>
                </昨日万份收益>
        <七日年化收益>1529.06亿元</七日年化收益>
    </item>
    <item>
        <产品名称>掌柜钱包</产品名称>
        <发行机构>兴业银行</发行机构>
        <目前资金规模>690.33亿元</目前资金规模>
        <昨日万份收益>
                </昨日万份收益>
        <七日年化收益>690.33亿元</七日年化收益>
    </item>
    <item>
        <产品名称>华夏活期通</产品名称>
        <发行机构>华夏基金</发行机构>
        <目前资金规模>641.00亿元</目前资金规模>
        <昨日万份收益>
                </昨日万份收益>
        <七日年化收益>641.00亿元</七日年化收益>
    </item>
    <item>
        <产品名称>百度百赚</产品名称>
        <发行机构>百度</发行机构>
        <目前资金规模>641.00亿元</目前资金规模>
        <昨日万份收益>
                </昨日万份收益>
        <七日年化收益>641.00亿元</七日年化收益>
    </item>
    <item>
        <产品名称>零钱宝(汇)</产品名称>
        <发行机构>苏宁</发行机构>
        <目前资金规模>394.09亿元</目前资金规模>
        <昨日万份收益>
                </昨日万份收益>
        <七日年化收益>394.09亿元</七日年化收益>
    </item>
    <item>
        <产品名称>汇添富现金宝</产品名称>
        <发行机构>汇添富基金</发行机构>
        <目前资金规模>394.09亿元</目前资金规模>
        <昨日万份收益>
                </昨日万份收益>
        <七日年化收益>394.09亿元</七日年化收益>
    </item>

单一样例抓取规则,测试结果

单一样例抓取规则,测试结果
举报 使用道具
| 回复

共 20 个关于本帖的回复 最后回复于 2016-7-26 17:46

ym 版主 发表于 2016-7-14 10:51:55 | 显示全部楼层
把你做了样例复制后点击保存的截图发出来,无法保存都会有原因提示的
举报 使用道具
ym 版主 发表于 2016-7-14 10:55:36 | 显示全部楼层
另外,你做样例复制后,抓到的信息有漏掉,也有重复的,说明这些信息的dom结构是相同的,爬虫程序默认选择第一个结构的信息,这样就会有重复或空的信息,解决方法是修改整理箱的定位,操作见http://www.gooseeker.com/doc/thread-984-1-1.html
举报 使用道具
12325445 初级会员 发表于 2016-7-15 11:05:09 | 显示全部楼层
ym 发表于 2016-7-14 10:55
另外,你做样例复制后,抓到的信息有漏掉,也有重复的,说明这些信息的dom结构是相同的,爬虫程序默认选择 ...

好的,我试试,谢谢~~~~
举报 使用道具
12325445 初级会员 发表于 2016-7-15 11:31:12 | 显示全部楼层
ym 发表于 2016-7-14 10:51
把你做了样例复制后点击保存的截图发出来,无法保存都会有原因提示的

点击保存后没有任何提示,就是没有响应,不做样例复制就可以进行保存,会提示保存成功
举报 使用道具
Fuller 管理员 发表于 2016-7-15 11:48:13 | 显示全部楼层
12325445 发表于 2016-7-15 11:31
点击保存后没有任何提示,就是没有响应,不做样例复制就可以进行保存,会提示保存成功 ...

你用的GooSeeker爬虫是作为火狐插件这个版本吗?

如果是,请选择火狐菜单:工具-》web开发者-》浏览器控制台。然后再点击保存,看看在浏览器控制台窗口中有没有出现红色的错误。请截个图看看,以便帮助我们判断错误
举报 使用道具
Fuller 管理员 发表于 2016-7-15 11:49:30 | 显示全部楼层
很有可能是做内容映射的时候,选择的节点不全是来自于第一个样例,比如,有些抓取内容来自样例1,有些抓取内容来自样例2,那么就做不了样例复制
举报 使用道具
12325445 初级会员 发表于 2016-7-15 13:42:46 | 显示全部楼层
Fuller 发表于 2016-7-15 11:49
很有可能是做内容映射的时候,选择的节点不全是来自于第一个样例,比如,有些抓取内容来自样例1,有些抓取 ...

我看了下,我复制的样例属于同一个节点下啊

点击保存后错误提示

点击保存后错误提示
举报 使用道具
12325445 初级会员 发表于 2016-7-15 13:47:33 | 显示全部楼层
Fuller 发表于 2016-7-15 11:49
很有可能是做内容映射的时候,选择的节点不全是来自于第一个样例,比如,有些抓取内容来自样例1,有些抓取 ...

图片中每个样例节点TR,都是数据同一个TBODY的...
我测试的时候都是可以抓到的,如下,所以对无法保存规则这件事还是有些疑惑
<融360>
        <item>
                <产品名称>余额宝</产品名称>
                <目前资金规模>8163.12亿元</目前资金规模>
                <发行机构>支付宝</发行机构>
                <昨日万份收益>0.65元</昨日万份收益>
                <七日年化收益率>2.42%</七日年化收益率>
        </item>
        <item>
                <产品名称>现金快线</产品名称>
                <目前资金规模>1529.06亿元</目前资金规模>
                <发行机构>工银瑞信基金</发行机构>
                <昨日万份收益>0.74元</昨日万份收益>
                <七日年化收益率>2.65%</七日年化收益率>
        </item>
        <item>
                <产品名称>好买储蓄罐</产品名称>
                <目前资金规模>1529.06亿元</目前资金规模>
                <发行机构>好买基金</发行机构>
                <昨日万份收益>0.74元</昨日万份收益>
                <七日年化收益率>2.65%</七日年化收益率>
        </item>
        <item>
                <产品名称>掌柜钱包</产品名称>
                <目前资金规模>690.33亿元</目前资金规模>
                <发行机构>兴业银行</发行机构>
                <昨日万份收益>0.72元</昨日万份收益>
                <七日年化收益率>2.91%</七日年化收益率>
        </item>
        <item>
                <产品名称>华夏活期通</产品名称>
                <目前资金规模>641.00亿元</目前资金规模>
                <发行机构>华夏基金</发行机构>
                <昨日万份收益>0.62元</昨日万份收益>
                <七日年化收益率>2.47%</七日年化收益率>
        </item>
        <item>
                <产品名称>百度百赚</产品名称>
                <目前资金规模>641.00亿元</目前资金规模>
                <发行机构>百度</发行机构>
                <昨日万份收益>0.62元</昨日万份收益>
                <七日年化收益率>2.47%</七日年化收益率>
        </item>
        <item>
                <产品名称>零钱宝(汇)</产品名称>
                <目前资金规模>394.09亿元</目前资金规模>
                <发行机构>苏宁</发行机构>
                <昨日万份收益>0.68元</昨日万份收益>
                <七日年化收益率>2.58%</七日年化收益率>
        </item>
        <item>
                <产品名称>汇添富现金宝</产品名称>
                <目前资金规模>394.09亿元</目前资金规模>
                <发行机构>汇添富基金</发行机构>
                <昨日万份收益>0.68元</昨日万份收益>
                <七日年化收益率>2.58%</七日年化收益率>
        </item>
        <item>
                <产品名称>民生如意宝(汇)</产品名称>
                <目前资金规模>394.09亿元</目前资金规模>
                <发行机构>民生银行</发行机构>
                <昨日万份收益>0.68元</昨日万份收益>
                <七日年化收益率>2.58%</七日年化收益率>
        </item>
        <item>
                <产品名称>微财富存钱罐</产品名称>
                <目前资金规模>394.09亿元</目前资金规模>
                <发行机构>新浪微财富</发行机构>
                <昨日万份收益>0.68元</昨日万份收益>
                <七日年化收益率>2.58%</七日年化收益率>
        </item>

样例复制节点

样例复制节点
举报 使用道具
ym 版主 发表于 2016-7-15 15:13:47 | 显示全部楼层
你主题名是什么?我帮你看看规则,你之前写的主题名是错的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 16:57