集搜客GooSeeker网络爬虫

标题: 抓取全文失败,而且爬取的数据是重复的 [打印本页]

作者: xzhang    时间: 2022-3-29 09:03
标题: 抓取全文失败,而且爬取的数据是重复的
我的任务是 zlib_sub ,在下载全文的时候,建立了一个单击动作,但是全文还是没有抓取下来,而且其他的数据爬取了两份重复的,PageContentDir目录下生成了2个目录,里面的文件是重复的。请问是什么原因?

作者: Fuller    时间: 2022-3-29 09:29
我看你定义了点击动作,那么在整理箱那里就不要为“全文”勾上下载文件
作者: xzhang    时间: 2022-3-29 10:20
我去掉勾选下载文件后,还是一样的生成重复的2个目录,而且全文还是无法下载下来
作者: xzhang    时间: 2022-3-29 10:34
Fuller 发表于 2022-3-29 09:29
我看你定义了点击动作,那么在整理箱那里就不要为“全文”勾上下载文件

我去掉勾选下载文件后,还是一样的生成重复的2个目录,而且全文还是无法下载下来

作者: Fuller    时间: 2022-3-29 16:04
xzhang 发表于 2022-3-29 10:34
我去掉勾选下载文件后,还是一样的生成重复的2个目录,而且全文还是无法下载下来
...

生成两个结果文件是正常的,一个是点击前的,一个是点击后的。
很奇怪,我的电脑几天前下载成功过,今天不行了。我使用老版本爬虫,能下载,但是现在我已经没有下载配额可以测试更多了。


老版本爬虫软件的下载网址:https://www.gooseeker.com/pro/product.html

可以试试老版本





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2