本帖最后由 thursdayrain 于 2021-12-29 15:29 编辑

你好,我要下载这个网页https://xeno-canto.org/explore?dir=0&order=xc上的MP3文件,
任务名:鸟鸣


现在有两个问题:

1,翻页总是不对


2. 文件已经可以下载了,但是爬虫自动下载的文件名字是英文的,我手工下载的文件名字是中文的。需要文件名字是中文的,要怎么设置?

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2021-12-29 15:58

沙发
Fuller 管理员 发表于 2021-12-29 15:56:01 | 只看该作者

你的规则加载以后,在爬虫路线工作台上点击测试按钮,可以看到生成的翻页规则,可以看到“Next”这个词后面有空格。因为网页上的空格数量可能会变化,就会影响到规则,所以,要删除空格。不要勾选完全匹配,就可以编辑标志值,就可以把后面的空格删除
举报 使用道具
板凳
Fuller 管理员 发表于 2021-12-29 15:58:06 | 只看该作者
因为你在规则中勾了下载文件,是根据网址现在文件的,网址中的文件名如果有中文,就会出现中文。

通过点击是不一样的,点击的时候,实际上是跳到了另一个网址,那个网址有中文。

如果用点击启动下载,速度就会很慢,因为一个个做点击。如果是勾选了下载文件,是一批一起下载,速度就很快
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 15:40