11#
sodme007 新手上路 发表于 2017-2-10 20:02:39 | 只看该作者
本帖最后由 sodme007 于 2017-2-10 22:00 编辑

我试了好几次,用火狐和Goo自带浏览器都不行,第二个开始采集就没有
就算按你说的没有保存成功,我测试的时候总是有做映射的,为什么测试的时候就不行呢
举报 使用道具
12#
Fuller 管理员 发表于 2017-2-10 21:05:20 | 只看该作者
sodme007 发表于 2017-2-10 20:02
gzh_q呢?我试了好几次,用火狐和Goo自带浏览器都不行,第二个开始这个采集就没有
gzh_al就算按你说的没有 ...


你的整理箱上只做了内容映射,没有做定位标志映射,规则的适应性有限。定位标志映射可以让采集更加精准,而且适应度高。

如果没有做定位标志映射,爬虫会自动找定位标志。这个网页挺奇怪,首先你不能选择id作为定位标志,因为每个gzh-name对接的节点的@id都不一样,所以,只能采集到第一个,也就是用来做规则的那个。其次也不能用@class,因为第一个的class与其他的不一样,其他都是@class='account',但是第一个的是@class='account acchover'。所以,点击“定位”按钮,选择“绝对定位”就能解决这个问题。但是绝对定位的适应性最差。


但是这个网页没有很适合的定位标志可用,可以像下图那样做个有两层的嵌套的整理箱,最顶上那层用一个定位映射划定一下网页范围,在第二层那个容器节点上做样例复制,这样的绝对定位是在指定网页范围内容的绝对定位,适应性好一些。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
13#
sodme007 新手上路 发表于 2017-2-10 22:00:41 | 只看该作者
本帖最后由 sodme007 于 2017-2-11 00:08 编辑

后续小问题
举报 使用道具
14#
sodme007 新手上路 发表于 2017-2-11 00:16:28 | 只看该作者
本帖最后由 sodme007 于 2017-2-11 00:18 编辑
Fuller 发表于 2017-2-10 21:05
你的整理箱上只做了内容映射,没有做定位标志映射,规则的适应性有限。定位标志映射可以让采集更加精准 ...

<?xml version="1.0" encoding="UTF-8"?>

<gzh_q1>
        <item>
                <划定范围>
                        <item>
                                <name>
AKOKO曲奇故事
</name>
                                <read>2293</read>
                                <gzh-name>吃惑集结号</gzh-name>
                                <time>2017-1-26</time>
                        </item>
                        <item>
                                <name/>
                                <read/>
                                <gzh-name/>
                                <time/>
                        </item>
                        <item>
                                <name>
网红曲奇Akoko背后的树大学姐
</name>
                                <read>10538</read>
                                <gzh-name>浙江树人大学</gzh-name>
                                <time>2016-12-14</time>
                        </item>
                        <item>
                                <name>
AKOKO曲奇2017年春节放假通知
</name>
                                <read>1368</read>
                                <gzh-name>AKOKO手工曲奇</gzh-name>
                                <time>2017-1-11</time>
                        </item>
                        <item>
                                <name>
AKOKO曲奇获奖名单忍痛公布!
</name>
                                <read>356</read>
                                <gzh-name>吃在盐城</gzh-name>
                                <time>2017-1-4</time>
                        </item>
                        <item>
                                <name/>
                                <read/>
                                <gzh-name>上海吃喝玩乐fun</gzh-name>
                                <time/>
                        </item>
                        <item>
                                <name>
日销3000盒的网红曲奇AKOKO空降苍南了!(内含福利)
</name>
                                <read>7663</read>
                                <gzh-name>苍南百事通</gzh-name>
                                <time>2016-11-8</time>
                        </item>
                        <item>
                                <name>
这份AKOKO网红曲奇,我为你准备了一年.
</name>
                                <read>4666</read>
                                <gzh-name>食尚揭阳</gzh-name>
                                <time>2017-1-4</time>
                        </item>
                        <item>
                                <name>
一个开始卖akoko曲奇的girl
</name>
                                <read>130</read>
                                <gzh-name>一群人的朝圣</gzh-name>
                                <time>3天前</time>
                        </item>
                        <item>
                                <name>
进入AKOKO曲奇的美食联盟,乐享新体验……
</name>
                                <read>4</read>
                                <gzh-name>A美食新滋味</gzh-name>
                                <time>1天前</time>
                        </item>
                </划定范围>
        </item>
</gzh_q1>



1,这是按照Fuller 老师的方法测试出来,红色的地方直接空了,哪里出问题了呢?重编了一次还是这样2,一共有590条搜索内容,但是翻页搜索之后得到的数据只有200多条


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
15#
Fuller 管理员 发表于 2017-2-11 09:49:01 | 只看该作者

像我在12楼说的,gzh-name不能用定位标志映射


另外,划定范围所用的定位标志使用那个news-list比较合适,是代表网页区域的最近的标志。
举报 使用道具
16#
sodme007 新手上路 发表于 2017-2-11 14:00:54 | 只看该作者
Fuller 发表于 2017-2-11 09:49
像我在12楼说的,gzh-name不能用定位标志映射

<?xml version="1.0" encoding="UTF-8"?>

<gzh_q1>
        <item>
                <划定范围>
                        <item>
                                <name>AKOKO曲奇故事</name>
                                <read>2293</read>
                                <gzh-name>吃惑集结号</gzh-name>
                                <time>2017-1-26</time>
                        </item>
                        <item>
                                <name/>
                                <read/>
                                <gzh-name/>
                                <time/>
                        </item>
                        <item>
                                <name>网红曲奇Akoko背后的树大学姐</name>
                                <read>10555</read>
                                <gzh-name>浙江树人大学</gzh-name>
                                <time>2016-12-14</time>
                        </item>
                        <item>
                                <name>AKOKO曲奇2017年春节放假通知</name>
                                <read>1373</read>
                                <gzh-name>AKOKO手工曲奇</gzh-name>
                                <time>2017-1-11</time>
                        </item>
                        <item>
                                <name>AKOKO曲奇获奖名单忍痛公布!</name>
                                <read>358</read>
                                <gzh-name>吃在盐城</gzh-name>
                                <time>2017-1-4</time>
                        </item>
                        <item>
                                <name/>
                                <read/>
                                <gzh-name/>
                                <time/>
                        </item>
                        <item>
                                <name>这份AKOKO网红曲奇,我为你准备了一年.</name>
                                <read>4667</read>
                                <gzh-name>食尚揭阳</gzh-name>
                                <time>2017-1-4</time>
                        </item>
                        <item>
                                <name>日销3000盒的网红曲奇AKOKO空降苍南了!(内含福利)</name>
                                <read>7663</read>
                                <gzh-name>苍南百事通</gzh-name>
                                <time>2016-11-8</time>
                        </item>
                        <item>
                                <name>网红曲奇Akoko放大招了!【情人节主题铁盒】限量发售!</name>
                                <read>6814</read>
                                <gzh-name>TimeOut天津</gzh-name>
                                <time>2017-2-3</time>
                        </item>
                        <item>
                                <name>试吃179  最近超火爆的网红曲奇Akoko登陆天津!已开通网络预售!</name>
                                <read>3818</read>
                                <gzh-name>天津美食指南</gzh-name>
                                <time>2017-1-4</time>
                        </item>
                </划定范围>
        </item>
</gzh_q1>

1,gzh-name已经改为内容映射,定位标志也用news-list了,但是还是出现这样的情况。

2,在使用之前保存的翻页的时候出现这个问题,是啥原因


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
17#
Fuller 管理员 发表于 2017-2-11 14:58:08 | 只看该作者
sodme007 发表于 2017-2-11 14:00
AKOKO曲奇故事
                                2293
                                吃惑集结号



这个网页还会变,要多做些约束。
1,给三个抓取内容作了定位标志映射,看红色箭头
2,为gzh-name做了自定义xpath,自定义xpath写的时候要注意起始节点,一个抓取内容的xpath是相对于整理箱对应的节点开始写的。所以,先不写自定义xpath,只做内容映射,等生成了抓取规则以后,根据自动生成的xpath的定位起始节点编写自定义xpath,更多材料在教程首页搜索“自定义xpath

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
18#
Fuller 管理员 发表于 2017-2-11 15:02:02 | 只看该作者


翻页用的是记号线索,定位映射和记号映射如上图

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
19#
sodme007 新手上路 发表于 2017-2-11 23:13:49 | 只看该作者
Fuller 发表于 2017-2-11 15:02
翻页用的是记号线索,定位映射和记号映射如上图

<?xml version="1.0" encoding="UTF-8"?>

<gzh_q1>
        <item>
                <划定范围>
                        <item>
                                <name>AKOKO曲奇故事</name>
                                <read>2293</read>
                                <gzh-name>吃惑集结号</gzh-name>
                                <time>2017-1-26</time>
                        </item>
                        <item>
                                <name/>
                                <read>10937</read>
                                <gzh-name>广州饮食汇</gzh-name>
                                <time>1天前</time>
                        </item>
                        <item>
                                <name>mark新年最佳伴手礼,AKOKO网红曲奇</name>
                                <read>14208</read>
                                <gzh-name>吃货联盟</gzh-name>
                                <time>2017-1-4</time>
                        </item>
                        <item>
                                <name>网红曲奇Akoko背后的树大学姐</name>
                                <read>10555</read>
                                <gzh-name>浙江树人大学</gzh-name>
                                <time>2016-12-14</time>
                        </item>
                        <item>
                                <name>AKOKO曲奇2017年春节放假通知</name>
                                <read>1373</read>
                                <gzh-name>AKOKO手工曲奇</gzh-name>
                                <time>2017-1-11</time>
                        </item>
                        <item>
                                <name>AKOKO曲奇获奖名单忍痛公布!</name>
                                <read>358</read>
                                <gzh-name>吃在盐城</gzh-name>
                                <time>2017-1-4</time>
                        </item>
                        <item>
                                <name/>
                                <read>2713</read>
                                <gzh-name>上海吃喝玩乐fun</gzh-name>
                                <time>3天前</time>
                        </item>
                        <item>
                                <name>日销3000盒的网红曲奇AKOKO空降苍南了!(内含福利)</name>
                                <read>7663</read>
                                <gzh-name>苍南百事通</gzh-name>
                                <time>2016-11-8</time>
                        </item>
                        <item>
                                <name>这份AKOKO网红曲奇,我为你准备了一年.</name>
                                <read>4667</read>
                                <gzh-name>食尚揭阳</gzh-name>
                                <time>2017-1-4</time>
                        </item>
                        <item>
                                <name>网红曲奇Akoko放大招了!【情人节主题铁盒】限量发售!</name>
                                <read>6814</read>
                                <gzh-name>TimeOut天津</gzh-name>
                                <time>2017-2-3</time>
                        </item>
                </划定范围>
        </item>
</gzh_q1>




按照老师的设置,但是那个name抓取不到




启动爬数据出现这个。初次启动爬数据只抓取了300个,但是一共有590条



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
20#
Fuller 管理员 发表于 2017-2-11 23:44:32 | 只看该作者
sodme007 发表于 2017-2-11 23:13
AKOKO曲奇故事
                                2293
                                吃惑集结号

原因是name那个抓取内容映射的节点不对,换一下映射节点。

没有线索了那个提示,用完整这句话放到教程首页做搜索,能找到答案:http://www.gooseeker.com/tuto/tutorial.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-24 10:09