比如说,我想要抓取所有页面上(如图1)的美食信息(图2)然后,有一部分信息在第二级链接网页里边,我如何实现在完整地翻页采集之后在实现层级抓取,因为有一个关系我搞不清楚,单独做翻页抓取的时候,会自己新建线索,在单独做层级抓取的时候,在做了第二级链接的映射是,会自动生成一个线索,那这两个线索同时存在于一个规则之中会怎么样?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2016-12-28 12:47

沙发
gooseeker_info 金牌会员 发表于 2015-9-29 16:56:44 | 只看该作者
假设第一级主题名是A,在MS谋数台的“爬虫路线”工作台上,做了一个翻页线索,因为是连贯翻页,那么主题名还是A

同时,在“创建规则”工作台上,给一个抓取内容设置了“下级线索”,那么会在“爬虫路线”工作台上自动生成一条线索,应该起个主题名B,那么A是第一级,B是第二级

两个线索互不影响
举报 使用道具
板凳
ym 版主 发表于 2015-9-29 16:57:15 | 只看该作者
这是由目标主题名来决定的,翻页线索的目标主题是当前规则(层级抓取中通常是第一级),那么翻页的网址就会生成给当前规则;
而层级抓取中下级线索的目标主题是下一级主题,那么抓到的网址就会生成给下一级,二者可以在同一个规则里设置,互不影响。
举报 使用道具
地板
meicairen 高级会员 发表于 2016-12-28 10:53:28 | 只看该作者
同上问题,逻辑明白,但是还是执行不了翻页,贴出规则,特此求助:
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >
<xsl:template match="/">
<商户列表>
<xsl:apply-templates select="//*[@id='shop-all-list']/ul/li[position()>=1 and count(.//*[@class='tit']/a/h4/text())>0 and count(.//*[@class='tit']/a/@href)>0]" mode="商户列表"/>
</商户列表>
</xsl:template>


<xsl:template match="//*[@id='shop-all-list']/ul/li[position()>=1 and count(.//*[@class='tit']/a/h4/text())>0 and count(.//*[@class='tit']/a/@href)>0]" mode="商户列表">
<item>
<商户名>
<xsl:value-of select="*//*[@class='tit']/a/h4/text()"/>
<xsl:value-of select="*[@class='tit']/a/h4/text()"/>
<xsl:if test="@class='tit'">
<xsl:value-of select="a/h4/text()"/>
</xsl:if>
</商户名>
<二级详情>
<xsl:value-of select="*//*[@class='tit']/a/@href"/>
<xsl:value-of select="*[@class='tit']/a/@href"/>
<xsl:if test="@class='tit'">
<xsl:value-of select="a/@href"/>
</xsl:if>
</二级详情>
</item>
</xsl:template>
</xsl:stylesheet>
举报 使用道具
5#
xandy 论坛元老 发表于 2016-12-28 10:55:04 | 只看该作者
meicairen 发表于 2016-12-28 10:53
同上问题,逻辑明白,但是还是执行不了翻页,贴出规则,特此求助:

主题名贴出来
举报 使用道具
6#
meicairen 高级会员 发表于 2016-12-28 10:56:36 | 只看该作者
以下是相关编辑规则图片

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
meicairen 高级会员 发表于 2016-12-28 11:02:28 | 只看该作者

路标列表_商户详情
举报 使用道具
8#
xandy 论坛元老 发表于 2016-12-28 11:13:36 | 只看该作者
meicairen 发表于 2016-12-28 11:02
路标列表_商户详情

你的规则并没有问题,我执行了你的规则,翻页正常,生成的下级线索也是正常的。
样本网址有两页,正常翻了两页。


2页列表商品给下级生成的线索,也是没有问题的。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
meicairen 高级会员 发表于 2016-12-28 11:21:48 | 只看该作者
奇怪了,按说规则是没有问题的,但是为什么我到打数机上就执行不了
举报 使用道具
10#
xandy 论坛元老 发表于 2016-12-28 11:25:58 | 只看该作者
meicairen 发表于 2016-12-28 11:21
奇怪了,按说规则是没有问题的,但是为什么我到打数机上就执行不了

采集的时候把DS打数机开到最大,好好检查一下规则之间的关系,目标主题名好好检查下。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 05:47