每次抓取出现问题，都要重新抓取

APP3515220059

用列表和内容抓取的方法，在用抓取列表时，总是出现掉线，或停止。如何重启时不再重复下载已经有的数据？每次都是下载到一半就断了，然后重新下。

shengchengx · 发表于 2018-4-10 14:12:24

查看下采集到的结果文件，查看一下最后一个xml文件中的pageno是几；如果网页翻页的时候网址链接会发生变化，那就直接把断掉的那一页的链接重新添加一下线索，让他继续采集；如果网页翻页的时候链接不会发生变化的话，就需要使用连续动作点击或者输入页码进行跳转，从而继续采集。

yangwenge · 发表于 2018-4-10 14:12:30

使用的数据DIY还是自己制作的规则？

APP3515220059 · 发表于 2018-4-10 19:11:44

yangwenge 发表于 2018-4-10 14:12
使用的数据DIY还是自己制作的规则？

自己做的，总是出现，电脑也没断网，也没有休眠。莫名其妙的就停了，还没有故障，重新起又得从头来。

APP3515220059 · 发表于 2018-4-10 19:13:09

shengchengx 发表于 2018-4-10 14:12
查看下采集到的结果文件，查看一下最后一个xml文件中的pageno是几；如果网页翻页的时候网址链接会发生变化 ...

是直接在制定规则的时候吗？还是断掉后？断掉后的话，在哪里？没看到啊

Fuller · 发表于 2018-4-10 21:15:07

APP3515220059 发表于 2018-4-10 19:13
是直接在制定规则的时候吗？还是断掉后？断掉后的话，在哪里？没看到啊
...

在采集后的结果文件里面看，结果文件的位置参看教程：https://www.gooseeker.com/doc/article-327-1.html

结果文件的内容参看教程：https://www.gooseeker.com/doc/article-352-1.html 。在这里能找到pageno的字段，就知道在哪里段了。在realpath中可以看到断掉时的网址。如果每个分页都有独立的网址，那么可以把断掉的网址加入到规则中，就能从断掉的地方开始。

添加网址的说明在这里：https://www.gooseeker.com/doc/thread-667-1-1.html

共 5 个关于本帖的回复最后回复于 2018-4-10 21:15

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页