本帖最后由 sodme007 于 2017-2-10 13:57 编辑

规则名gzh_q和gzh_al,设置完抓取内容,做完样例复制映射后,测试时出现2个问题。一个是只能抓取一个样例,另一个是抓取4个内容,其中一个只出现抓取1次,之后便没有在被抓取


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 28 个关于本帖的回复 最后回复于 2017-2-12 20:28

沙发
xandy 论坛元老 发表于 2017-2-10 14:14:02 | 只看该作者
规则名gzh_q测试没有问题,你应该修改过了。
规则名gzh_al没有做样例复制,所以只抓了第一个样例,参看教程:《采集列表数据
另外要抓到每页的信息的话要设置翻页,参看教程:《翻页采集列表
举报 使用道具
板凳
sodme007 新手上路 发表于 2017-2-10 14:23:59 | 只看该作者
xandy 发表于 2017-2-10 14:14
规则名gzh_q测试没有问题,你应该修改过了。
规则名gzh_al没有做样例复制,所以只抓了第一个样例,参看教程 ...

如果没有做样例复制,怎么会有这个?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
sodme007 新手上路 发表于 2017-2-10 14:26:27 | 只看该作者
本帖最后由 sodme007 于 2017-2-10 21:58 编辑
xandy 发表于 2017-2-10 14:14
规则名gzh_q测试没有问题,你应该修改过了。
规则名gzh_al没有做样例复制,所以只抓了第一个样例,参看教程 ...

<?xml version="1.0" encoding="UTF-8"?>

<gzh_q1>
        <item>
                <name>
</name>
                <read>2293</read>
                <gzh-name>吃惑集结号</gzh-name>
                <time>2017-1-26</time>
        </item>
        <item>
                <name>
</name>
                <read>4</read>
                <gzh-name/>
                <time>1天前</time>
        </item>
        <item>
                <name>
</name>
                <read>1354</read>
                <gzh-name/>
                <time>2017-1-11</time>
        </item>
        <item>
                <name>
</name>
                <read>2672</read>
                <gzh-name/>
                <time>1天前</time>
        </item>
        <item>
                <name>
</name>


这是第一个规则gzh_q,  <gzh-name/>这个采集在第二个就没有了
举报 使用道具
5#
xandy 论坛元老 发表于 2017-2-10 14:27:11 | 只看该作者
sodme007 发表于 2017-2-10 14:23
如果没有做样例复制,怎么会有这个?

做了样例复制才会有这个
举报 使用道具
6#
sodme007 新手上路 发表于 2017-2-10 14:29:46 | 只看该作者
xandy 发表于 2017-2-10 14:27
做了样例复制才会有这个

我一开始的截图就已经说明我做了样例复制
举报 使用道具
7#
xandy 论坛元老 发表于 2017-2-10 14:46:49 | 只看该作者
本帖最后由 xandy 于 2017-2-10 14:48 编辑
sodme007 发表于 2017-2-10 14:29
我一开始的截图就已经说明我做了样例复制


测试检测你没有做,你重新修改规则吧

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
xandy 论坛元老 发表于 2017-2-10 14:50:49 | 只看该作者
sodme007 发表于 2017-2-10 14:26
曲奇故事

                2293


测试你的“gzh_q”规则,并没有出现漏抓现象,如上图所示。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
sodme007 新手上路 发表于 2017-2-10 17:51:12 | 只看该作者
本帖最后由 sodme007 于 2017-2-10 21:59 编辑


还是不行
举报 使用道具
10#
ym 版主 发表于 2017-2-10 18:09:13 | 只看该作者
本帖最后由 ym 于 2017-2-10 18:10 编辑

gzh_al的确是没做样例复制或者是映射了错的样例节点而没有保存成功。
最关键的是gzh_al和gzh_q都是采集搜狗的关键词搜索页面,是相同的网页结构,可以套用一个规则,所以,你只要把不同关键词的搜索网址添加到gzh_q规则里,就可以批量采集,不用对每个关键词搜索页面都做一个规则,往规则里添加网址的操作见《如何管理规则的线索》
对于刚入门的人,请看完《从入门到精确》章节的教程。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 04:14