用列表和内容抓取的方法,在用抓取列表时,总是出现掉线,或停止。如何重启时不再重复下载已经有的数据?每次都是下载到一半就断了,然后重新下。
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-4-10 21:15

沙发
shengchengx 金牌会员 发表于 2018-4-10 14:12:24 | 只看该作者
查看下采集到的结果文件,查看一下最后一个xml文件中的pageno是几;如果网页翻页的时候网址链接会发生变化,那就直接把断掉的那一页的链接重新添加一下线索,让他继续采集;如果网页翻页的时候链接不会发生变化的话,就需要使用连续动作点击或者输入页码进行跳转,从而继续采集。
举报 使用道具
板凳
yangwenge 金牌会员 发表于 2018-4-10 14:12:30 | 只看该作者
使用的数据DIY还是自己制作的规则?
举报 使用道具
地板
APP3515220059 新手上路 发表于 2018-4-10 19:11:44 | 只看该作者
yangwenge 发表于 2018-4-10 14:12
使用的数据DIY还是自己制作的规则?

自己做的,总是出现,电脑也没断网,也没有休眠。莫名其妙的就停了,还没有故障,重新起又得从头来。
举报 使用道具
5#
APP3515220059 新手上路 发表于 2018-4-10 19:13:09 | 只看该作者
shengchengx 发表于 2018-4-10 14:12
查看下采集到的结果文件,查看一下最后一个xml文件中的pageno是几;如果网页翻页的时候网址链接会发生变化 ...

是直接在制定规则的时候吗?还是断掉后?断掉后的话,在哪里?没看到啊
举报 使用道具
6#
Fuller 管理员 发表于 2018-4-10 21:15:07 | 只看该作者
APP3515220059 发表于 2018-4-10 19:13
是直接在制定规则的时候吗?还是断掉后?断掉后的话,在哪里?没看到啊
...

在采集后的结果文件里面看,结果文件的位置参看教程:https://www.gooseeker.com/doc/article-327-1.html

结果文件的内容参看教程:https://www.gooseeker.com/doc/article-352-1.html 。在这里能找到pageno的字段,就知道在哪里段了。在realpath中可以看到断掉时的网址。如果每个分页都有独立的网址,那么可以把断掉的网址加入到规则中,就能从断掉的地方开始。

添加网址的说明在这里:https://www.gooseeker.com/doc/thread-667-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 22:32