OpenAI Whisper 模型现已在 Microsoft 的 Azure OpenAI 服务和 Azure AI 语音服务中提供

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

微软 OpenAI 服务 OpenAI Whisper

早在 XNUMX 月,微软 公布 OpenAI Whisper 模型即将推出 Azure OpenAI 服务。 上周五,微软宣布 OpenAI Whisper 模型现已可供使用 Azure OpenAI 服务和 Azure AI Speech 服务的客户使用。

OpenAI 耳语模型是一个神经网络,可以执行 57 种语言的语音识别和翻译任务。 它是在从网络收集的大量多样的音频和文本数据集上进行训练的。 它使用基于 Transformer 编码器-解码器架构的简单端到端方法,可以生成具有增强可读性和短语级时间戳的转录本。

企业现在可以使用以下两种方式构建基于OpenAI Whisper模型的应用程序:

Azure OpenAI 服务中的 OpenAI Whisper 模型:

OpenAI 已经提供了自己的 Whisper API。 使用这个新的 Azure OpenAI 服务,开发人员可以在特性和功能中使用相同的 OpenAI Whisper API,包括转录和翻译功能。 Whisper 模型用于转录和翻译的 REST API 可以在 Azure OpenAI 服务门户中找到。

Azure AI 语音中的 OpenAI Whisper 模型:

Azure AI Speech 的用户现在可以将新的 OpenAI 的 Whisper 模型与现有的 Azure AI Speech 批量转录 API 结合使用。 Azure AI Speech 中的 Whisper 用户可受益于现有功能,包括异步处理、说话者分类、自定义和更大的文件大小。 查找下面的详细信息。

  • 大文件大小: Azure AI 语音可支持最大 1GB 的文件,并允许您在单个请求中批量处理多达 1000 个文件,从而增强了 Whisper 转录功能。
  • 时间戳: 使用 Azure AI 语音,识别结果包括单词级时间戳,从而能够识别音频中每个单词的发音位置。
  • 说话人分类: 这是 Azure AI Speech 的另一个有益功能,可识别音频文件中的各个说话者并标记其语音片段。 此功能使客户能够区分说话者、准确转录他们的话语,并创建更有条理和结构化的音频文件转录。
  • 自定义/微调(即将推出):Azure Speech 中的自定义语音功能允许客户根据自己的数据微调 Whisper,以提高识别准确性和一致性。

有关主题的更多信息: Azure OpenAI 服务, 微软, OpenAI 耳语