Microsoft ประกาศฟีเจอร์ใหม่หลายประการใน Azure AI รวมถึงอวตารของการอ่านออกเสียงข้อความ

ไอคอนเวลาอ่านหนังสือ 3 นาที. อ่าน


ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา ไอคอนคำแนะนำเครื่องมือ

อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม

ไมโครซอฟต์ อาซัวร์ เอไอ วอยซ์

บริการ Azure AI ช่วยให้นักพัฒนาสามารถสร้างแอปพลิเคชัน AI ด้วย API และโมเดลสำเร็จรูปที่สร้างไว้ล่วงหน้าและปรับแต่งได้ บริการ Azure AI ประกอบด้วยบริการการมองเห็น บริการคำพูด บริการนักแปล และอื่นๆ ที่ Ignite 2023 วันนี้ Microsoft ได้ประกาศฟีเจอร์ใหม่หลายประการใน Azure AI รวมถึงอวตารของการแปลงข้อความเป็นคำพูด เสียงประสาทส่วนบุคคล โหมดการแปลด้วยเครื่องที่ได้รับการปรับปรุงใหม่ และอื่นๆ อีกมากมาย ค้นหารายละเอียดด้านล่าง

  • ใหม่ การเพิ่มประสิทธิภาพงาน ความสามารถในการสรุป ในภาษา Azure AI ซึ่งขับเคลื่อนโดยโมเดลภาษาขนาดใหญ่ (GPT-3.5-Turbo, GPT-4, Z-Code++ และอื่นๆ)
  • ใหม่ แบบจำลองการแปลด้วยเครื่อง สามารถแปลจากภาษาหนึ่งเป็นอีกภาษาหนึ่งได้โดยไม่ต้องแปลภาษาอังกฤษเป็นตัวกลาง นอกจากนี้ยังสามารถปรับแต่งได้โดยใช้ข้อมูลลูกค้าเพื่อจัดการแปลให้เข้ากับบริบทของอุตสาหกรรมได้ดียิ่งขึ้น
  • การรับรู้ชื่อนิติบุคคลการแปลเอกสารและการสรุปในคอนเทนเนอร์จะช่วยให้หน่วยงานภาครัฐและอุตสาหกรรม เช่น บริการทางการเงินและการดูแลสุขภาพ มีข้อกำหนดด้านถิ่นที่อยู่ของข้อมูลที่เข้มงวดเพื่อใช้บริการ AI บนโครงสร้างพื้นฐานของตนเอง
  • เสียงส่วนตัวซึ่งเป็นฟีเจอร์เสียงนิวรัลแบบกำหนดเองใหม่ที่จะช่วยให้ธุรกิจสามารถสร้างเสียงนิวรัลแบบกำหนดเองพร้อมตัวอย่างเสียงความยาว 60 วินาทีสำหรับผู้ใช้ เสียงส่วนตัวคือ คุณลักษณะการเข้าถึงที่จำกัด
  • อวตารของการอ่านออกเสียงข้อความซึ่งเป็นความสามารถแปลงข้อความเป็นคำพูดใหม่ที่จะสร้างแฟกซ์ที่สมจริงของผู้พูดโดยอิงตามข้อความอินพุตและข้อมูลวิดีโอของผู้พูดจริง ขณะนี้ทั้งอวตารที่สร้างไว้ล่วงหน้าและแบบกำหนดเองอยู่ในการแสดงตัวอย่างแล้ว อย่างไรก็ตาม อวตารแบบกำหนดเองนั้นมีคุณลักษณะการเข้าถึงที่จำกัด 

บริการ Azure AI Vision กำลังได้รับการอัปเดตต่อไปนี้:

  • ฟังก์ชั่นความมีชีวิตชีวา และ  วิสัยทัศน์ SDK: ฟังก์ชั่น Liveness จะช่วยป้องกันการโจมตีด้วยการปลอมแปลงการจดจำใบหน้า และเป็นไปตาม ISO 30107-3 PAD ระดับ 2 Vision SDK สำหรับ Face จะช่วยให้นักพัฒนาสามารถเพิ่มการจดจำใบหน้าและความมีชีวิตชีวาให้กับแอปพลิเคชันมือถือได้อย่างง่ายดาย คุณสมบัติทั้งสองอยู่ในการแสดงตัวอย่าง 
  • การวิเคราะห์ภาพ 4.0: API นี้แนะนำโมเดลการวิเคราะห์รูปภาพที่ล้ำสมัย ซึ่งครอบคลุมคำบรรยายภาพ, OCR, การตรวจจับวัตถุ และอื่นๆ อีกมากมาย ซึ่งทั้งหมดนี้สามารถเข้าถึงได้ผ่านจุดสิ้นสุด API แบบซิงโครนัสจุดเดียว โดยเฉพาะอย่างยิ่ง โมเดล OCR ที่ได้รับการปรับปรุงมีความแม่นยำที่ดีขึ้นสำหรับทั้งข้อความที่พิมพ์และเขียนด้วยลายมือในรูปภาพ การวิเคราะห์รูปภาพ 4.0 มีอยู่ทั่วไป 
  • แบบจำลองมูลนิธิฟลอเรนซ์: ได้รับการฝึกอบรมด้วยคู่ข้อความและรูปภาพหลายพันล้านคู่และบูรณาการเป็นบริการคอมพิวเตอร์วิทัศน์ที่คุ้มค่าและพร้อมสำหรับการผลิตใน Azure AI Vision ฟีเจอร์ที่ได้รับการปรับปรุงนี้ช่วยให้นักพัฒนาสามารถสร้างแอปพลิเคชันคอมพิวเตอร์วิทัศน์ที่ล้ำหน้า พร้อมออกสู่ตลาด และมีความรับผิดชอบในอุตสาหกรรมต่างๆ แบบจำลองมูลนิธิฟลอเรนซ์ มีอยู่ทั่วไป

สุดท้ายนี้ การอัปเดตใหม่ใน Azure AI Services จะทำให้กระบวนการดึงข้อมูลเชิงลึกจากวิดีโอง่ายกว่าที่เคย ตอนนี้คุณสามารถใช้ Azure AI เพื่อรับข้อความสรุปของเนื้อหาวิดีโอได้แล้ว นอกจากนี้คุณยังสามารถค้นหาได้ทันที หัวข้อ ช่วงเวลา หรือรายละเอียดเฉพาะเจาะจงภายในวิดีโอขนาดใหญ่โดยใช้ภาษาที่เป็นธรรมชาติ ค้นหารายละเอียดด้านล่าง

  • สรุปวิดีโอเป็นข้อความ: ผู้ใช้จะสามารถดึงสาระสำคัญของเนื้อหาวิดีโอและสร้างข้อความสรุปที่กระชับและให้ข้อมูลได้ อัลกอริธึมขั้นสูงแบ่งวิดีโอออกเป็นบทต่างๆ ที่สอดคล้องกัน โดยใช้ประโยชน์จากภาพ เสียง และข้อความเพื่อสร้างส่วนต่างๆ ที่รองรับหน้าต่างพร้อมท์โมเดลภาษาขนาดใหญ่ (LLM) ได้อย่างง่ายดาย แต่ละส่วนประกอบด้วยเนื้อหาที่จำเป็น รวมถึงบทถอดเสียง กิจกรรมเสียง และองค์ประกอบภาพ เหมาะอย่างยิ่งสำหรับการสร้างวิดีโอสรุป สื่อการฝึกอบรม หรือการแบ่งปันความรู้
  • การค้นหาเนื้อหาวิดีโอที่มีประสิทธิภาพ: ผู้ใช้จะสามารถเปลี่ยนเนื้อหาวิดีโอให้อยู่ในรูปแบบที่สามารถค้นหาได้โดยใช้ข้อมูลเชิงลึกของ LLM และ Video Indexer ด้วยการแปลงข้อมูลเชิงลึกของวิดีโอเป็นข้อความแจ้งที่เป็นมิตรกับ LLM คุณจะสามารถเข้าถึงไฮไลท์หลักเพื่อการค้นหาที่มีประสิทธิภาพ การแบ่งส่วนฉาก กิจกรรมเสียง และรายละเอียดภาพช่วยปรับปรุงการแบ่งส่วนเนื้อหา ช่วยให้ผู้ใช้สามารถค้นหาหัวข้อ ช่วงเวลา หรือรายละเอียดที่เฉพาะเจาะจงภายในวิดีโอที่ครอบคลุมได้อย่างรวดเร็ว

ข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อต่างๆ: อาซัวร์ เอไอ, ไมโครซอฟท์, อวตารของข้อความเป็นคำพูด