Microsoft công bố một số tính năng mới trong Azure AI bao gồm hình đại diện chuyển văn bản thành giọng nói

3 phút đọc

Được đăng trên Tháng Mười Một 15, 2023

Được xuất bản trên Tháng Mười Một 15, 2023

Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi.

Các dịch vụ AI của Azure cho phép các nhà phát triển tạo ra các ứng dụng AI với các mô hình và API sẵn có, được xây dựng sẵn và có thể tùy chỉnh. Dịch vụ Azure AI bao gồm dịch vụ Vision, dịch vụ Speech, dịch vụ Translator và hơn thế nữa. Tại Ignite 2023, Microsoft hôm nay đã công bố một số tính năng mới trong Azure AI bao gồm hình đại diện chuyển văn bản thành giọng nói, giọng nói thần kinh cá nhân, chế độ dịch máy cải tiến mới, v.v. Tìm các chi tiết dưới đây.

A mới tối ưu hóa nhiệm vụ khả năng tóm tắt trong Ngôn ngữ Azure AI, được hỗ trợ bởi các mô hình ngôn ngữ lớn (GPT-3.5-Turbo, GPT-4, Z-Code++ và hơn thế nữa).
A mới mô hình dịch máy có khả năng dịch từ ngôn ngữ này sang ngôn ngữ khác mà không cần dịch sang tiếng Anh làm trung gian. Ngoài ra, nó có thể được tùy chỉnh bằng cách sử dụng dữ liệu khách hàng để điều chỉnh các bản dịch phù hợp hơn với bối cảnh của ngành.
Được công nhận thực thể, việc dịch và tóm tắt tài liệu trong các vùng chứa sẽ cho phép các cơ quan chính phủ và các ngành, chẳng hạn như dịch vụ tài chính và chăm sóc sức khỏe, có yêu cầu nghiêm ngặt về nơi lưu trữ dữ liệu có thể chạy các dịch vụ AI trên cơ sở hạ tầng của riêng họ.
Giọng nói cá nhân, một tính năng giọng nói thần kinh tùy chỉnh mới sẽ cho phép các doanh nghiệp tạo giọng nói thần kinh tùy chỉnh với mẫu âm thanh dài 60 giây cho người dùng của họ. Tiếng nói cá nhân là một tính năng truy cập hạn chế.
Hình đại diện chuyển văn bản thành giọng nói, một khả năng chuyển văn bản thành giọng nói mới sẽ tạo ra bản fax thực tế của một người đang nói dựa trên dữ liệu văn bản và video đầu vào của một người thực đang nói. Cả hình đại diện dựng sẵn và hình đại diện tùy chỉnh hiện đều ở dạng xem trước, tuy nhiên, hình đại diện tùy chỉnh là một tính năng truy cập hạn chế.

Dịch vụ Azure AI Vision đang nhận được các bản cập nhật sau:

Chức năng sống động và SDK tầm nhìn: Chức năng Liveness sẽ giúp ngăn chặn các cuộc tấn công giả mạo nhận dạng khuôn mặt và tuân thủ ISO 30107-3 PAD Cấp 2. Vision SDK for Face sẽ cho phép các nhà phát triển dễ dàng thêm tính năng nhận dạng khuôn mặt và tính sống động vào các ứng dụng di động. Cả hai tính năng đều ở dạng xem trước.
Phân tích hình ảnh 4.0: API này giới thiệu các mô hình Phân tích hình ảnh tiên tiến, bao gồm chú thích hình ảnh, OCR, phát hiện đối tượng, v.v., tất cả đều có thể truy cập được thông qua một điểm cuối API đồng bộ, duy nhất. Đáng chú ý, mô hình OCR nâng cao tự hào có độ chính xác được cải thiện cho cả văn bản đánh máy và viết tay trong hình ảnh. Phân tích hình ảnh 4.0 nói chung là có sẵn.
Mô hình nền tảng Florence: Được đào tạo với hàng tỷ cặp văn bản-hình ảnh và được tích hợp dưới dạng dịch vụ thị giác máy tính sẵn sàng sản xuất, hiệu quả về chi phí trong Azure AI Vision, tính năng cải tiến này cho phép các nhà phát triển tạo ra các ứng dụng thị giác máy tính tiên tiến, sẵn sàng cho thị trường, có trách nhiệm trong nhiều ngành khác nhau. Mô hình nền tảng Florence nói chung là có sẵn.

Cuối cùng, các bản cập nhật mới trong Dịch vụ Azure AI sẽ giúp quá trình trích xuất thông tin chuyên sâu từ video trở nên dễ dàng hơn bao giờ hết. Giờ đây, bạn có thể sử dụng Azure AI để nhận bản tóm tắt văn bản của nội dung video. Ngoài ra, bạn có thể tìm kiếm ngay bây giờ tìm kiếm chủ đề, khoảnh khắc hoặc chi tiết cụ thể trong các video mở rộng sử dụng ngôn ngữ tự nhiên. Tìm các chi tiết dưới đây.

Tóm tắt video thành văn bản: Người dùng sẽ có thể trích xuất bản chất của nội dung video và tạo ra các bản tóm tắt văn bản ngắn gọn và giàu thông tin. Thuật toán nâng cao phân đoạn video thành các chương mạch lạc, tận dụng tín hiệu hình ảnh, âm thanh và văn bản để tạo các phần dễ dàng cung cấp trong cửa sổ nhắc mô hình ngôn ngữ lớn (LLM). Mỗi phần chứa nội dung thiết yếu, bao gồm bản ghi, sự kiện âm thanh và yếu tố hình ảnh. Điều này lý tưởng để tạo các video tóm tắt, tài liệu đào tạo hoặc chia sẻ kiến thức.
Tìm kiếm nội dung video hiệu quả: Người dùng sẽ có thể chuyển đổi nội dung video sang định dạng có thể tìm kiếm được bằng cách sử dụng thông tin chi tiết của LLM và Trình lập chỉ mục video. Bằng cách chuyển đổi thông tin chi tiết về video thành lời nhắc thân thiện với LLM, bạn có thể truy cập các điểm nổi bật chính để tìm kiếm hiệu quả. Phân đoạn cảnh, sự kiện âm thanh và chi tiết hình ảnh giúp tăng cường hơn nữa việc phân chia nội dung, cho phép người dùng nhanh chóng xác định các chủ đề, khoảnh khắc hoặc chi tiết cụ thể trong các video mở rộng.

Thông tin thêm về các chủ đề: Trí tuệ nhân tạo Azure, microsoft, hình đại diện chuyển văn bản thành giọng nói

Pradeep Viswav

Chuyên gia phần mềm và dịch vụ

Pradeep là sinh viên tốt nghiệp Khoa học và Kỹ thuật Máy tính. Anh ấy cũng là Đối tác sinh viên của Microsoft. Hiện anh đang làm việc tại một công ty CNTT hàng đầu.