OpenAI 开源的Whisper体验

近期有一个需求，类似于数字人，用户用语音控制进行菜单跳转，甚至于进行分析。

当用户对着麦克风进行说话的时候，要解析出来用户想干什么。当然好多付费的接口可以实现，但基于互联网免费的思路，当然要查找一翻。

Whisper 是用于自动语音识别 (ASR) 和语音翻译的预训练模型。 Whisper 模型经过 68 万小时的标记数据训练，表现出强大的泛化能力，无需进行微调即可推广到许多数据集和领域。

写的很强大，HuggingFace上有搭建好的模型当然要试用一下了，效果还不错，中文的解析正确率也挺高的，下面是接口请求方式。

百搭

搜索此博客

OpenAI 开源的Whisper体验

标签

评论

发表评论

此博客中的热门博文

Wireguard 部署应用

Docker-Compose 安装 PolarDB

Docker-Compose 安装 Portainer