微软宣布 Azure AI 的多项新功能,包括文本转语音头像

阅读时间图标 3分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

微软Azure人工智能语音

Azure AI 服务允许开发人员使用开箱即用、预构建和可自定义的 API 和模型来创建 AI 应用程序。 Azure AI服务包括视觉服务、语音服务、翻译服务等。 在 Ignite 2023 大会上,微软今天宣布了 Azure AI 的多项新功能,包括文本转语音头像、个人神经语音、新改进的机器翻译模式等。 查找下面的详细信息。

  • 一个新的 任务优化 总结能力 Azure AI 语言,由大型语言模型(GPT-3.5-Turbo、GPT-4、Z-Code++ 等)提供支持。
  • 一个新的 机器翻译模型 能够从一种语言翻译成另一种语言,而无需作为中介进行英语翻译。 此外,还可以使用客户数据进行定制,以更好地使翻译与行业背景保持一致。
  • 命名实体识别容器中的文档翻译和摘要将允许具有严格数据驻留要求的政府机构和行业(例如金融服务和医疗保健)在自己的基础设施上运行人工智能服务。
  • 个人声音,一种新的自定义神经语音功能,使企业能够为其用户创建带有 60 秒音频样本的自定义神经语音。 个人心声是 限制访问功能
  • 文字转语音头像,一种新的文本到语音转换功能,将根据输入的文本和真人说话的视频数据生成真实的人说话传真。 预建头像和自定义头像现在都处于预览状态,但是自定义头像是一项有限的访问功能。 

Azure AI Vision 服务正在进行以下更新:

  • 活跃度功能  视觉SDK: 活跃度功能将有助于防止人脸识别欺骗攻击,并符合 ISO 30107-3 PAD Level 2 标准。Vision SDK for Face 将使开发人员能够轻松地将人脸识别和活跃度添加到移动应用程序中。 这两个功能均处于预览状态。 
  • 图像分析4.0: 该 API 引入了尖端的图像分析模型,包括图像字幕、OCR、对象检测等,所有这些都可以通过单个同步 API 端点进行访问。 值得注意的是,增强的 OCR 模型提高了图像中键入和手写文本的准确性。 图像分析4.0 一般是可用的。 
  • 佛罗伦萨基金会模型: 这项改进的功能经过数十亿个文本图像对的训练,并集成为 Azure AI Vision 中经济高效、可立即投入生产的计算机视觉服务,使开发人员能够在各个行业创建尖端、面向市场、负责任的计算机视觉应用程序。 佛罗伦萨基金会模型 一般是可用的。

最后,Azure AI 服务的新更新将使从视频中提取见解的过程变得比以往更容易。 现在可以使用 Azure AI 获取视频内容的文本摘要。 另外,您现在可以搜索搜索 使用自然语言的大量视频中的特定主题、时刻或细节。 查找下面的详细信息。

  • 视频转文字摘要: 用户将能够提取视频内容的精髓,并生成简洁且内容丰富的文本摘要。 先进的算法将视频分割成连贯的章节,利用视觉、音频和文本提示来创建易于容纳在大型语言模型 (LLM) 提示窗口中的部分。 每个部分都包含重要内容,包括文字记录、音频事件和视觉元素。 这非常适合创建视频回顾、培训材料或知识共享。
  • 高效的视频内容搜索: 用户将能够使用法学硕士和视频索引器的见解将视频内容转换为可搜索的格式。 通过将视频见解转换为法学硕士友好的提示,可以访问主要亮点以进行有效搜索。 场景分割、音频事件和视觉细节进一步增强了内容划分,使用户能够在大量视频中快速定位特定主题、时刻或细节。

有关主题的更多信息: Azure人工智能, 微软, 文字转语音头像

发表评论

您的电邮地址不会被公开。 必填带 *