이제 Microsoft의 Azure OpenAI 서비스 및 Azure AI Speech 서비스에서 OpenAI Whisper 모델을 사용할 수 있습니다.

독서 시간 아이콘 2 분. 읽다

달력 아이콘 에 게시됨 2023 년 9 월 18 일

에 게시 2023 년 9 월 18 일

독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다.

지난 XNUMX월 마이크로소프트 발표 OpenAI Whisper 모델이 곧 Azure OpenAI 서비스에 제공될 예정입니다. 지난 금요일, Microsoft는 이제 Azure OpenAI 서비스 및 Azure AI Speech 서비스를 사용하는 고객이 OpenAI Whisper 모델을 사용할 수 있다고 발표했습니다.

OpenAI 속삭임 모델은 57개 언어로 음성 인식 및 번역 작업을 수행할 수 있는 신경망입니다. 이는 웹에서 수집된 크고 다양한 오디오 및 텍스트 데이터 세트에 대해 훈련되었습니다. Transformer 인코더-디코더 아키텍처를 기반으로 하는 간단한 엔드투엔드 접근 방식을 사용하며 향상된 가독성과 구문 수준 타임스탬프를 갖춘 스크립트를 생성할 수 있습니다.

기업은 이제 다음 두 가지 방법을 사용하여 OpenAI Whisper 모델을 기반으로 애플리케이션을 구축할 수 있습니다.

Azure OpenAI 서비스의 OpenAI Whisper 모델:

OpenAI는 이미 자체적으로 Whisper API를 제공하고 있습니다. 이 새로운 Azure OpenAI 서비스를 사용하면 개발자는 전사 및 번역 기능을 포함한 기능에서 동일한 OpenAI Whisper API를 사용할 수 있습니다. 전사 및 번역을 위한 Whisper 모델의 REST API는 Azure OpenAI 서비스 포털에서 찾을 수 있습니다.

Azure AI Speech의 OpenAI 속삭임 모델:

Azure AI Speech 사용자는 이제 기존 Azure AI Speech 일괄 전사 API와 함께 새로운 OpenAI의 Whisper 모델을 사용할 수 있습니다. Azure AI Speech의 Whisper 사용자는 비동기 처리, 화자 분할, 사용자 지정 및 더 큰 파일 크기를 포함한 기존 기능의 이점을 누릴 수 있습니다. 자세한 내용은 아래에서 확인하세요.

대용량 파일 크기: Azure AI Speech는 최대 1GB 크기의 파일을 지원하고 단일 요청으로 최대 1000개의 파일을 일괄 처리할 수 있도록 하여 대량의 파일을 처리하는 기능을 통해 Whisper 기록을 향상합니다.
타임 스탬프 : Azure AI Speech를 사용하면 인식 결과에 단어 수준 타임스탬프가 포함되어 오디오에서 각 단어가 말하는 위치를 식별할 수 있습니다.
화자 분할: 이는 오디오 파일에서 개별 화자를 식별하고 해당 음성 세그먼트에 레이블을 지정하는 Azure AI Speech의 또 다른 유용한 기능입니다. 이 기능을 통해 고객은 화자를 구별하고, 단어를 정확하게 기록하고, 오디오 파일을 보다 체계적이고 체계적으로 기록할 수 있습니다.
사용자 지정/미세 조정(곧 사용 가능): Azure Speech의 사용자 지정 음성 기능을 통해 고객은 자신의 데이터에 대해 Whisper를 미세 조정하여 인식 정확도와 일관성을 향상시킬 수 있습니다.

주제에 대한 추가 정보: Azure OpenAI 서비스, 마이크로 소프트, OpenAI 속삭임

프라딥 비스와브

소프트웨어 및 서비스 전문가

Pradeep은 컴퓨터 과학 및 공학 졸업생입니다. 그는 또한 Microsoft 학생 파트너이기도 했습니다. 그는 현재 선도적인 IT 기업에 근무하고 있습니다.