快捷导航
本帖最后由 thursdayrain 于 2021-12-29 15:29 编辑

你好,我要下载这个网页https://xeno-canto.org/explore?dir=0&order=xc上的MP3文件,
任务名:鸟鸣


现在有两个问题:

1,翻页总是不对


2. 文件已经可以下载了,但是爬虫自动下载的文件名字是英文的,我手工下载的文件名字是中文的。需要文件名字是中文的,要怎么设置?

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2021-12-29 15:58

Fuller 管理员 发表于 2021-12-29 15:56:01 | 显示全部楼层
翻页18.png
你的规则加载以后,在爬虫路线工作台上点击测试按钮,可以看到生成的翻页规则,可以看到“Next”这个词后面有空格。因为网页上的空格数量可能会变化,就会影响到规则,所以,要删除空格。不要勾选完全匹配,就可以编辑标志值,就可以把后面的空格删除
举报 使用道具
Fuller 管理员 发表于 2021-12-29 15:58:06 | 显示全部楼层
因为你在规则中勾了下载文件,是根据网址现在文件的,网址中的文件名如果有中文,就会出现中文。

通过点击是不一样的,点击的时候,实际上是跳到了另一个网址,那个网址有中文。

如果用点击启动下载,速度就会很慢,因为一个个做点击。如果是勾选了下载文件,是一批一起下载,速度就很快
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 在Jupyter Notebook中将分词结果转换成数组
  • 在Jupyter Notebook中使用word2vec和k-mean
  • 网络评价对水产品线上销量影响的实证分析—
  • “中坚青年”压力与动力转化的—以高校青年
  • “抖音”短视频文本里的新生代婆媳关系

热门用户

GMT+8, 2022-1-20 04:26