10 17476

层级和翻页抓取如何实现

Madzero 于 2015-9-29 16:48 发表 [复制链接]
比如说,我想要抓取所有页面上(如图1)的美食信息(图2)然后,有一部分信息在第二级链接网页里边,我如何实现在完整地翻页采集之后在实现层级抓取,因为有一个关系我搞不清楚,单独做翻页抓取的时候,会自己新建线索,在单独做层级抓取的时候,在做了第二级链接的映射是,会自动生成一个线索,那这两个线索同时存在于一个规则之中会怎么样?

图1

图1

图2

图2
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2016-12-28 12:47

gooseeker_info 金牌会员 发表于 2015-9-29 16:56:44 | 显示全部楼层
假设第一级主题名是A,在MS谋数台的“爬虫路线”工作台上,做了一个翻页线索,因为是连贯翻页,那么主题名还是A

同时,在“创建规则”工作台上,给一个抓取内容设置了“下级线索”,那么会在“爬虫路线”工作台上自动生成一条线索,应该起个主题名B,那么A是第一级,B是第二级

两个线索互不影响
举报 使用道具
ym 版主 发表于 2015-9-29 16:57:15 | 显示全部楼层
这是由目标主题名来决定的,翻页线索的目标主题是当前规则(层级抓取中通常是第一级),那么翻页的网址就会生成给当前规则;
而层级抓取中下级线索的目标主题是下一级主题,那么抓到的网址就会生成给下一级,二者可以在同一个规则里设置,互不影响。
举报 使用道具
meicairen 高级会员 发表于 2016-12-28 10:53:28 | 显示全部楼层
同上问题,逻辑明白,但是还是执行不了翻页,贴出规则,特此求助:
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >
<xsl:template match="/">
<商户列表>
<xsl:apply-templates select="//*[@id='shop-all-list']/ul/li[position()>=1 and count(.//*[@class='tit']/a/h4/text())>0 and count(.//*[@class='tit']/a/@href)>0]" mode="商户列表"/>
</商户列表>
</xsl:template>


<xsl:template match="//*[@id='shop-all-list']/ul/li[position()>=1 and count(.//*[@class='tit']/a/h4/text())>0 and count(.//*[@class='tit']/a/@href)>0]" mode="商户列表">
<item>
<商户名>
<xsl:value-of select="*//*[@class='tit']/a/h4/text()"/>
<xsl:value-of select="*[@class='tit']/a/h4/text()"/>
<xsl:if test="@class='tit'">
<xsl:value-of select="a/h4/text()"/>
</xsl:if>
</商户名>
<二级详情>
<xsl:value-of select="*//*[@class='tit']/a/@href"/>
<xsl:value-of select="*[@class='tit']/a/@href"/>
<xsl:if test="@class='tit'">
<xsl:value-of select="a/@href"/>
</xsl:if>
</二级详情>
</item>
</xsl:template>
</xsl:stylesheet>
举报 使用道具
xandy 论坛元老 发表于 2016-12-28 10:55:04 | 显示全部楼层
meicairen 发表于 2016-12-28 10:53
同上问题,逻辑明白,但是还是执行不了翻页,贴出规则,特此求助:

主题名贴出来
举报 使用道具
meicairen 高级会员 发表于 2016-12-28 10:56:36 | 显示全部楼层
以下是相关编辑规则图片
1.png
2.png
3.png
举报 使用道具
meicairen 高级会员 发表于 2016-12-28 11:02:28 | 显示全部楼层

路标列表_商户详情
举报 使用道具
xandy 论坛元老 发表于 2016-12-28 11:13:36 | 显示全部楼层
meicairen 发表于 2016-12-28 11:02
路标列表_商户详情

你的规则并没有问题,我执行了你的规则,翻页正常,生成的下级线索也是正常的。
样本网址有两页,正常翻了两页。

16-12-28 大众点评采集.jpg
2页列表商品给下级生成的线索,也是没有问题的。
16-12-28 大众点评采集2.jpg


举报 使用道具
meicairen 高级会员 发表于 2016-12-28 11:21:48 | 显示全部楼层
奇怪了,按说规则是没有问题的,但是为什么我到打数机上就执行不了
举报 使用道具
xandy 论坛元老 发表于 2016-12-28 11:25:58 | 显示全部楼层
meicairen 发表于 2016-12-28 11:21
奇怪了,按说规则是没有问题的,但是为什么我到打数机上就执行不了

采集的时候把DS打数机开到最大,好好检查一下规则之间的关系,目标主题名好好检查下。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 18:02