OpenAI Whisper语音识别文本在线体验及本地部署

斌仔 分类:
文章字数 1243 字 阅读时间 6 分钟
🤖 由 Gemini 生成的文章摘要
此内容根据文章生成,并经过人工审核,仅用于文章内容的解释与总结

Whisper 是什么

Whisper 是 OpenAI 开发并开源的一个自动语音识别(ASR)系统。该模型基于从网络上收集的 680,000 小时多语种和多任务监督数据进行训练,具有极高的准确性,并且支持多种语言的识别。Whisper 使用了 Transformer 架构,能够处理各种复杂的音频条件,如不同的背景噪声水平、说话者的口音和语速等。

whisper语音识别
whisper语音识别

Whisper 可以做什么

在语音转录方面,Whisper可以将音频转换为文字,方便记录和整理。 此外,Whisper 还可以用于语音助手、智能客服和在线教育等领域,为用户提供更加智能和高效的服务。 为了方便开发者使用,OpenAI 还提供了详细的文档和推理代码。 开发者可以根据自己的需求对模型进行微调,以适应特定领域的应用。

Whisper 在线体验

Hugging Face 体验地址,如果打不开请使用富强上网

Whisper-WebUI

Whisper-WebUIWhisper Webui - Hugging Face 体验地址)基于 Gradio 的 Whisper 浏览器界面。您可以将其用作简易字幕生成器!

CapsWriter-Offline

HaujetZhao/CapsWriter-Offline : CapsWriter 的离线版,一个好用的 PC 端的语音输入工具

  1. 完全离线、无限时长、低延迟、高准确率、中英混输、自动阿拉伯数字、自动调整中英间隔
  2. 热词功能:可以在 hot-en.txt hot-zh.txt hot-rule.txt 中添加三种热词,客户端动态载入
  3. 日记功能:默认每次录音识别后,识别结果记录在 年份/月份/日期.md ,录音文件保存在 年份/月份/assets
  4. 关键词日记:识别结果若以关键词开头,会被记录在 年份/月份/关键词-日期.md,关键词在 keywords.txt 中定义
  5. 转录功能:将音视频文件拖动到客户端打开,即可转录生成 srt 字幕
  6. 服务端、客户端分离,可以服务多台客户端
  7. 编辑 config.py ,可以配置服务端地址、快捷键、录音开关……

Whisper

Whisper 高性能 GPGPU 推理 OpenAI 的 Whisper 自动语音识别 (ASR) 模型,是 whisper.cpp 实现的 Windows 移植。

Faster Whisper transcription with CTranslate2

faster-whisper 是使用 CTranslate2 对 OpenAI 的 Whisper 模型的重新实现,CTranslate2 是用于 Transformer 模型的快速推理引擎。

与 openai/whisper 相比,在相同精度下,这种实现方式的速度最多可提高 4 倍,同时使用的内存更少。在 CPU 和 GPU 上进行 8 位量化后,效率还能进一步提高。

video-subtitle-master

buxuku/video-subtitle-master : 批量为视频生成字幕,并可将字幕翻译成其它语言。这是一个客户端工具, 跨平台支持 mac 和 windows 系统

distil-whisper

huggingface/distil-whisper 语音识别 Whisper 的精馏变体。速度快 6 倍,体积小 50%,单词错误率在 1%以内。

Buzz

Buzz 可以在个人电脑上离线转录和翻译音频。由 OpenAI 的 Whisper 支持。

  • 支持系统:Mac、Win

Voice Recognition to Text Tool

Voice Recognition to Text Tool 是一个离线运行的本地语音识别转文字工具,基于 fast-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。

fast-whisper 开源模型有 base/small/medium/large-v3, 内置base模型,base->large-v3识别效果越来越好,但所需计算机资源也更多,根据需要可自行下载后解压到 models 目录下即可。

  • 支持系统:Win

Chenyme-AAVT

Chenyme-AAVT: 这是一个全自动(音频)视频翻译项目。利用Whisper识别声音,AI大模型翻译字幕,最后合并字幕视频,生成翻译后的视频。

  • 支持识别和翻译多种语言
  • 支持 全流程本地化、免费化部署
  • 支持对视频 一键生成博客内容、营销图文
  • 支持 自动化翻译、二次修改字幕、预览视频
  • 支持开启 GPU 加速、VAD 辅助、FFmpeg 加速
  • 支持使用 ChatGPT、Claude、Gemini、DeepSeek 等众多大模型翻译引擎

其他推荐

2024年6款免费且准确的语音转文本工具推荐

非常感激每一位打赏的朋友!

支付宝扫码支持
微信扫码支持

扫一扫,请博主喝咖啡☕

文章作者: 斌仔
文章链接: https://www.wangdu.site/software/ai/2150.html
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 文武科技柜

相关推荐

共有 0 条评论