这个文件下载链接是“网址+/zydown.aspx?km=yuwenkj&hm=MAqPnw&hz=4dc2b18bd944”这样的,正常浏览的时候点击就直接下载了,不会弹出保存弹窗。
尝试过:
1、在连接上直接设置下载文件,结果下载的是.html文件
2、设置点击动作,结果是采集失败,但在下载文件夹里有.html文件。



不知道是点击动作xpath设置错误,还是什么原因
现在都不知道该办
样本页面链接:http://www.well1000.cn/xiazai/yuwen/178401.html
举报 使用道具
| 回复

共 23 个关于本帖的回复 最后回复于 2021-6-29 23:08

沙发
Fuller 管理员 发表于 2021-6-27 22:24:49 | 只看该作者
你的规则名字是什么?
举报 使用道具
板凳
Fuller 管理员 发表于 2021-6-27 22:33:44 | 只看该作者
我刚才测试了一下,用点击动作是有问题,明天我让开发检查一下
举报 使用道具
地板
BigMax 中级会员 发表于 2021-6-27 22:47:10 | 只看该作者
Fuller 发表于 2021-6-27 22:33
我刚才测试了一下,用点击动作是有问题,明天我让开发检查一下

感谢大佬,规则名是:资源详情
举报 使用道具
5#
Fuller 管理员 发表于 2021-6-28 10:07:26 | 只看该作者
BigMax 发表于 2021-6-27 22:47
感谢大佬,规则名是:资源详情

我测试了你的规则,在连续动作那里,目标任务名改成当前任务名就行了。
我发现最新版的数据管家软件点击没有效果,可以用老版的网络爬虫软件运行这个规则。老版的下载网址是:https://www.gooseeker.com/pro/product.html
界面变化挺大,运行方法也不太一样,这里有教程:https://www.gooseeker.com/doc/article-326-1.html 。运行完成后,下载的文件放在了“下载”文件夹

你可以先用老版运行,新版要修改这个问题估计需要很长时间

举报 使用道具
6#
Fuller 管理员 发表于 2021-6-28 11:23:53 | 只看该作者
刚才我又测试了一下,点击动作那里不要勾模拟点击就能下载成功,放在DownloadDir中,同时还会产生一个这次下载的描述文件


举报 使用道具
7#
BigMax 中级会员 发表于 2021-6-28 16:30:21 | 只看该作者
Fuller 发表于 2021-6-28 11:23
刚才我又测试了一下,点击动作那里不要勾模拟点击就能下载成功,放在DownloadDir中,同时还会产生一个这次 ...

太好了,感谢大佬指点
举报 使用道具
8#
BigMax 中级会员 发表于 2021-6-28 19:11:47 | 只看该作者
Fuller 发表于 2021-6-28 11:23
刚才我又测试了一下,点击动作那里不要勾模拟点击就能下载成功,放在DownloadDir中,同时还会产生一个这次 ...

大佬,我试了新老版本都不行,只下载了.html文件

1、新版本,我取消设置了模拟点击,”动作后续执行“设置了本任务名,只是任务管理中显示网址采集成功了(之前是采集失败),.html文件会存在我设置的文件夹中;

然后我又把”定义采集“中整理箱里的链接取消设置下载文件,就没有任何下载文件了,连.html文件都没有了。就是说下载文件的关键设置是”定义采集“中整理箱里的链接设置下载文件,不是“设置动作”的点击下载链接。





2、老版本,不管怎么设置都没有任何文件下载下来

ps:集搜客用了三年了,不是不会用


举报 使用道具
9#
Fuller 管理员 发表于 2021-6-28 20:11:50 | 只看该作者
BigMax 发表于 2021-6-28 19:11
大佬,我试了新老版本都不行,只下载了.html文件

1、新版本,我取消设置了模拟点击,”动作后续执行“设 ...

点击下载存的位置不在你的截图那里,看我上一个回帖
举报 使用道具
10#
BigMax 中级会员 发表于 2021-6-28 20:29:18 | 只看该作者
Fuller 发表于 2021-6-28 20:11
点击下载存的位置不在你的截图那里,看我上一个回帖

我知道,两个位置都没有

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 00:01