我的任务是 zlib_sub ,在下载全文的时候,建立了一个单击动作,但是全文还是没有抓取下来,而且其他的数据爬取了两份重复的,PageContentDir目录下生成了2个目录,里面的文件是重复的。请问是什么原因?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2022-3-29 16:04

沙发
Fuller 管理员 发表于 2022-3-29 09:29:27 | 只看该作者
我看你定义了点击动作,那么在整理箱那里就不要为“全文”勾上下载文件
举报 使用道具
板凳
xzhang 高级会员 发表于 2022-3-29 10:20:30 | 只看该作者
我去掉勾选下载文件后,还是一样的生成重复的2个目录,而且全文还是无法下载下来
举报 使用道具
地板
xzhang 高级会员 发表于 2022-3-29 10:34:01 | 只看该作者
Fuller 发表于 2022-3-29 09:29
我看你定义了点击动作,那么在整理箱那里就不要为“全文”勾上下载文件

我去掉勾选下载文件后,还是一样的生成重复的2个目录,而且全文还是无法下载下来
举报 使用道具
5#
Fuller 管理员 发表于 2022-3-29 16:04:31 | 只看该作者
xzhang 发表于 2022-3-29 10:34
我去掉勾选下载文件后,还是一样的生成重复的2个目录,而且全文还是无法下载下来
...

生成两个结果文件是正常的,一个是点击前的,一个是点击后的。
很奇怪,我的电脑几天前下载成功过,今天不行了。我使用老版本爬虫,能下载,但是现在我已经没有下载配额可以测试更多了。


老版本爬虫软件的下载网址:https://www.gooseeker.com/pro/product.html

可以试试老版本
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 21:35