A Microsoft anuncia vários novos recursos no Azure AI, incluindo avatar de conversão de texto em fala

Ícone de tempo de leitura 3 minutos. ler


Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links. Ícone de dica de ferramenta

Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais

Voz de IA do Microsoft Azure

Os serviços de IA do Azure permitem que os desenvolvedores criem aplicativos de IA com APIs e modelos prontos para uso, pré-construídos e personalizáveis. Os serviços de IA do Azure incluem serviço de visão, serviço de fala, serviço de tradutor e muito mais. No Ignite 2023, a Microsoft anunciou hoje vários novos recursos no Azure AI, incluindo avatar de conversão de texto em fala, voz neural pessoal, novo modo de tradução automática aprimorado e muito mais. Encontre os detalhes abaixo.

  • Um novo otimização de tarefas capacidade de resumo na linguagem Azure AI, alimentada por grandes modelos de linguagem (GPT-3.5-Turbo, GPT-4, Z-Code++ e mais).
  • Um novo modelo de tradução automática capaz de traduzir de um idioma para outro sem traduzir em inglês como intermediário. Além disso, pode ser personalizado usando dados do cliente para alinhar melhor as traduções ao contexto do setor.
  • Reconhecimento de entidade nomeada, a tradução e o resumo de documentos em contêineres permitirão que agências e setores governamentais, como serviços financeiros e de saúde, com requisitos rígidos de residência de dados, executem serviços de IA em sua própria infraestrutura.
  • Voz pessoal, um novo recurso de voz neural personalizado que permitirá às empresas criar vozes neurais personalizadas com 60 segundos de amostras de áudio para seus usuários. A voz pessoal é um recurso de acesso limitado
  • Avatar de conversão de texto em fala, um novo recurso de conversão de texto em fala que gerará um fac-símile realista de uma pessoa falando com base no texto de entrada e nos dados de vídeo de uma pessoa real falando. Os avatares pré-construídos e personalizados agora estão em versão prévia, no entanto, o avatar personalizado é um recurso de acesso limitado. 

O serviço Azure AI Vision está recebendo as seguintes atualizações:

  • Funcionalidade de vivacidade e Visão SDK: A funcionalidade Liveness ajudará a evitar ataques de falsificação de reconhecimento facial e está em conformidade com a norma ISO 30107-3 PAD Nível 2. O Vision SDK for Face permitirá que os desenvolvedores adicionem facilmente reconhecimento facial e vivacidade a aplicativos móveis. Ambos os recursos estão em versão prévia. 
  • Análise de imagem 4.0: Esta API apresenta modelos de análise de imagens de última geração, abrangendo legendagem de imagens, OCR, detecção de objetos e muito mais, todos acessíveis por meio de um único endpoint de API síncrono. Notavelmente, o modelo OCR aprimorado apresenta maior precisão para texto digitado e manuscrito em imagens. Análise de Imagem 4.0 geralmente está disponível. 
  • Modelo de fundação de Florença: Treinado com bilhões de pares de texto-imagem e integrado como serviços de visão computacional econômicos e prontos para produção no Azure AI Vision, esse recurso aprimorado permite que os desenvolvedores criem aplicativos de visão computacional responsáveis, prontos para o mercado e de ponta em vários setores. Modelo de fundação de Florença geralmente está disponível.

Por fim, as novas atualizações nos Serviços de IA do Azure tornarão o processo de extração de insights de vídeos mais fácil do que nunca. Agora você pode usar o Azure AI para obter um resumo de texto de um conteúdo de vídeo. Além disso, você pode pesquisar agora por tópicos, momentos ou detalhes específicos em vídeos extensos usando linguagem natural. Encontre os detalhes abaixo.

  • Resumo de vídeo para texto: Os usuários poderão extrair a essência do conteúdo do vídeo e gerar resumos de texto concisos e informativos. O algoritmo avançado segmenta vídeos em capítulos coerentes, aproveitando dicas visuais, de áudio e de texto para criar seções que são facilmente acomodadas em janelas de prompt de modelo de linguagem grande (LLM). Cada seção contém conteúdo essencial, incluindo transcrições, eventos de áudio e elementos visuais. Isso é ideal para criar recapitulações em vídeo, materiais de treinamento ou compartilhamento de conhecimento.
  • Pesquisa eficiente de conteúdo de vídeo: Os usuários poderão transformar o conteúdo de vídeo em um formato pesquisável usando LLMs e insights do Video Indexer. Ao converter insights de vídeo em prompts compatíveis com LLM, os principais destaques ficam acessíveis para uma pesquisa eficaz. A segmentação de cenas, eventos de áudio e detalhes visuais melhoram ainda mais a divisão de conteúdo, permitindo aos usuários localizar rapidamente tópicos, momentos ou detalhes específicos em vídeos extensos.

Mais sobre os tópicos: IA do Azure, microsoft, avatar de texto para fala

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *