跳至主要内容

OpenAI 开源的Whisper体验



近期有一个需求,类似于数字人,用户用语音控制进行菜单跳转,甚至于进行分析。

当用户对着麦克风进行说话的时候,要解析出来用户想干什么。当然好多付费的接口可以实现,但基于互联网免费的思路,当然要查找一翻。

Whisper 是用于自动语音识别 (ASR) 和语音翻译的预训练模型。 Whisper 模型经过 68 万小时的标记数据训练,表现出强大的泛化能力,无需进行微调即可推广到许多数据集和领域。

写的很强大,HuggingFace上有搭建好的模型当然要试用一下了,效果还不错,中文的解析正确率也挺高的,下面是接口请求方式。







评论

此博客中的热门博文

Docker-Compose 安装 PolarDB

 version: '3.1' services:   polardb:     container_name: polardb     restart: always     image: polardb/polardb_pg_local_instance     ports:       - 5432:5432     networks:       - net_db     environment:       TZ: Asia/Shanghai     volumes:       - ./polardb:/var/polardb networks:   net_db:     external: true

Docker-Compose 安装 Portainer

 version: '3.1' services: portainer: image: portainer/portainer-ce:latest container_name: portainer hostname: portainer restart: always volumes: - "/var/run/docker.sock:/var/run/docker.sock" - "./portainer_data:/data" - "./portainer_cn:/public" environment: TZ: Asia/Shanghai LANG: en_US.UTF-8 ports: - "9001:9000" networks:      - net_db networks: net_db: external: true

Docker-Compose 安装 xxl-job-admin

 version: '3' services:  xxl-job-admin:    image: xuxueli/xxl-job-admin:2.3.0    restart: always    container_name: xxl-job-admin    #environment:    #  PARAMS: '--spring.datasource.url= jdbc:mysql://192.168.1.110:3305/xxl_job?useUnicode=true&characterEncoding=UTF-8&autoReconnect=true&serverTimezone=Asia/Shanghai&useSSL=false --spring.datasource.username=root --spring.datasource.password=123456'    ports:      - 80:8080    networks:      - net_db    volumes:      - ./data/applogs:/data/applogs networks:  net_db:    external: true