21#
sodme007 新手上路 发表于 2017-2-12 00:33:45 | 只看该作者
本帖最后由 sodme007 于 2017-2-12 00:35 编辑
Fuller 发表于 2017-2-11 23:44
原因是name那个抓取内容映射的节点不对,换一下映射节点。

没有线索了那个提示,用完整这句话放到教程首 ...
Fuller 发表于 2016-5-25 10:54
要抓的每个网页都记录一个状态,“等待抓取”和“抓取完”,抓完以后还想重新抓取,那么需要激活它。在这里 ...


<gzh_q1>
        <item>
                <划定范围>
                        <item>
                                <name>
AKOKO曲奇故事
</name>
                                <read>2293</read>
                                <gzh-name>吃惑集结号</gzh-name>
                                <time>2017-1-26</time>
                        </item>
                        <item>
                                <name/>
                                <read>10937</read>
                                <gzh-name>广州饮食汇</gzh-name>
                                <time>1天前</time>
                        </item>
                        <item>
                                <name>


只有H3和A这2个可以做内容映射,我都试过了,第二条的name还是出不来


检索了2次,每次检索的数量都不一样,第一次是391,少了79个name的内容,第二次是250少了51个name的内容,而实际是有590条,为什么会少?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
22#
Fuller 管理员 发表于 2017-2-12 10:36:46 | 只看该作者

好奇怪,我测试的可以,你点击“测试”按钮以后,点击输出窗口的“数据规则”页签,我看看你生成的数据规则
举报 使用道具
23#
sodme007 新手上路 发表于 2017-2-12 11:32:35 | 只看该作者
Fuller 发表于 2017-2-12 10:36
好奇怪,我测试的可以,你点击“测试”按钮以后,点击输出窗口的“数据规则”页签,我看看你生成的数据规 ...

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >
<xsl:template match="/">
<gzh_q1>
<xsl:apply-templates select="//*[@class='news-list' and count(./li[position()>=1 and count(./div[position()=2]/h3/a)>0 and count(.//*[@class='s1'])>0 and count(././/a[contains(@class,'account')]/text())>0])>0]" mode="gzh_q1"/>
</gzh_q1>
</xsl:template>



<xsl:template match="li[position()>=1]" mode="划定范围">
<item>
<name>
<xsl:value-of select="div[position()=2]/h3/a"/>
</name>
<read>
<xsl:value-of select="*//*[@class='s1']"/>
<xsl:value-of select="*[@class='s1']"/>
</read>
<gzh-name>
<xsl:value-of select=".//a[contains(@class,'account')]/text()"/>
</gzh-name>
<time>
<xsl:value-of select="*//*[@class='s2']/text()"/>
<xsl:value-of select="*[@class='s2']/text()"/>
<xsl:if test="@class='s2'">
<xsl:value-of select="text()"/>
</xsl:if>
</time>
</item>
</xsl:template>

<xsl:template match="//*[@class='news-list' and count(./li[position()>=1 and count(./div[position()=2]/h3/a)>0 and count(.//*[@class='s1'])>0 and count(././/a[contains(@class,'account')]/text())>0])>0]" mode="gzh_q1">
<item>
<划定范围>
<xsl:apply-templates select="li[position()>=1]" mode="划定范围"/>
</划定范围>
</item>
</xsl:template>
</xsl:stylesheet>

举报 使用道具
24#
Fuller 管理员 发表于 2017-2-12 15:33:34 | 只看该作者



有图的时候会影响,那么就给name既做内容映射,也做定位标志映射,就不会受图的影响了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
25#
sodme007 新手上路 发表于 2017-2-12 15:58:20 | 只看该作者
Fuller 发表于 2017-2-12 15:33
有图的时候会影响,那么就给name既做内容映射,也做定位标志映射,就不会受图的影响了
...



解决办法是不是
1,通过爬虫群减缓采集速度,为爬虫群设置调度参数,即线索间等待最短时间和线索间等待最长时间。
2,通过清理cookies

这个爬虫要怎么弄啊?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
26#
scraper 论坛元老 发表于 2017-2-12 17:55:47 | 只看该作者
sodme007 发表于 2017-2-12 15:58
解决办法是不是
1,通过爬虫群减缓采集速度,为爬虫群设置调度参数,即线索间等待最短时间和线索间等待 ...

你说的2点都正确, 还可以加上一条: 换ip
这几条组合起来一起用

举报 使用道具
27#
Fuller 管理员 发表于 2017-2-12 18:07:54 | 只看该作者
sodme007 发表于 2017-2-12 15:58
解决办法是不是
1,通过爬虫群减缓采集速度,为爬虫群设置调度参数,即线索间等待最短时间和线索间等待 ...

清理cookie的方法请在教程首页搜索“清理Cookie”
举报 使用道具
28#
sodme007 新手上路 发表于 2017-2-12 19:40:27 | 只看该作者
Fuller 发表于 2017-2-12 18:07
清理cookie的方法请在教程首页搜索“清理Cookie”

1,通过爬虫群减缓采集速度,为爬虫群设置调度参数,即线索间等待最短时间和线索间等待最长时间。


这个要怎么做?
举报 使用道具
29#
Fuller 管理员 发表于 2017-2-12 20:28:21 | 只看该作者
sodme007 发表于 2017-2-12 19:40
1,通过爬虫群减缓采集速度,为爬虫群设置调度参数,即线索间等待最短时间和线索间等待最长时间。

教程首页搜索“放慢速度”
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 09:31