加入收藏 | 设为首页 | 会员中心 | 我要投稿 南通站长网 (https://www.0513zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

纯PyTorch语音工具包开源

发布时间:2021-03-25 15:56:15 所属栏目:外闻 来源:互联网
导读:音处理技术的进步,是人工智能改变大众的生活的重要一环。深度学习技术的兴起,也让这一领域近年来得到了长足的发展。在过往,该领域的主要方法是为不同的任务开发不同的工具包,对于使用者来说,学习各个工具包需要大量时间,还可能涉及到学习不同的编程语

音处理技术的进步,是人工智能改变大众的生活的重要一环。深度学习技术的兴起,也让这一领域近年来得到了长足的发展。在过往,该领域的主要方法是为不同的任务开发不同的工具包,对于使用者来说,学习各个工具包需要大量时间,还可能涉及到学习不同的编程语言,熟悉不同的代码风格和标准等。现在,这些任务大多可以用深度学习技术来实现。

此前,开发者常用的语音工具有 Kaldi、ESPNet、CMU Sphinx、HTK 等,它们各有各的不足之处。以 Kaldi 为例,它依赖大量的脚本语言,而且核心算法使用 C++ 编写,再加上可能需要改变各种神经网络的结构。即便是拥有丰富经验的工程师,在调试的时候也会经历巨大的痛苦。

秉承着让语音开发者更轻松的原则,Yoshua Bengio 团队成员 Mirco Ravanelli 等人曾经开发了一个试图继承 Kaldi 的效率和 PyTorch 的灵活性的开源框架——PyTorch-Kaldi,但据开发成员本人认为「还不够完善」。

所以,在一年多前, Mirco Ravanelli 宣布要打造一款新的一体化语音工具包 SpeechBrain。该项目于近日正式开源,鉴于上述背景,SpeechBrain 诞生的主要宗旨是:够简单、够灵活、对用户友好。

来说,SpeechBrain 有以下几大亮点:

  • 开发团队与 HuggingFace 集成一些预训练模型,这些模型具备可运行推理的接口。如果 HuggingFace 模型不可用,团队会提供一个 Google Drive 文件夹,包含所有对应的实验结果;
  • 使用 PyTorch 数据并行或分布式数据并行来进行多 GPU 训练和推理;
  • 混合精度,加快训练速度;
  • 透明且完全可自定义的数据输入和输出 pipeline。SpeechBrain 遵循 PyTorch 数据加载器和数据集样式,使用户能够自定义 I / O pipeline。

快速安装

目前开发者可以通过 PyPI 安装 SpeechBrain,此外还可以使用本地安装来运行实验和修改 / 自定义工具包。

SpeechBrain 支持基于 Linux 的发行版和 macOS(且针对 Windows 用户也提供了相应解决方案:
SpeechBrain 支持 CPU 和 GPU,但对于大多数 recipe 而言,训练期间必须使用 GPU。需要注意的是,必须正确安装 CUDA 才能使用 GPU。

(编辑:南通站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读