مایکروسافت چندین ویژگی جدید در هوش مصنوعی Azure از جمله آواتار تبدیل متن به گفتار را اعلام کرد

نماد زمان خواندن 3 دقیقه خواندن


خوانندگان به پشتیبانی از MSpoweruser کمک می کنند. در صورت خرید از طریق پیوندهای ما ممکن است کمیسیون دریافت کنیم. نماد راهنمای ابزار

صفحه افشای ما را بخوانید تا بدانید چگونه می توانید به MSPoweruser کمک کنید تا تیم تحریریه را حفظ کند ادامه مطلب

صدای هوش مصنوعی Microsoft Azure

خدمات هوش مصنوعی Azure به توسعه دهندگان این امکان را می دهد که برنامه های کاربردی هوش مصنوعی را با API ها و مدل های خارج از جعبه و از پیش ساخته شده و قابل تنظیم ایجاد کنند. خدمات هوش مصنوعی Azure شامل سرویس Vision، سرویس گفتار، سرویس مترجم و غیره است. در Ignite 2023، مایکروسافت امروز چندین ویژگی جدید در هوش مصنوعی Azure از جمله آواتار تبدیل متن به گفتار، صدای عصبی شخصی، حالت جدید ترجمه ماشینی بهبود یافته و موارد دیگر را معرفی کرد. جزئیات زیر را بیابید.

  • جدید بهینه سازی کار قابلیت خلاصه سازی در زبان هوش مصنوعی Azure، با مدل‌های زبان بزرگ (GPT-3.5-Turbo، GPT-4، Z-Code++ و موارد دیگر).
  • جدید مدل ترجمه ماشینی قادر به ترجمه از یک زبان به زبان دیگر بدون ترجمه به زبان انگلیسی به عنوان واسطه. علاوه بر این، می‌توان آن را با استفاده از داده‌های مشتری سفارشی کرد تا ترجمه‌ها را با زمینه صنعت تراز کند.
  • شناسایی موجودیت نامگذاری شدهترجمه اسناد و خلاصه سازی در کانتینرها به سازمان ها و صنایع دولتی مانند خدمات مالی و مراقبت های بهداشتی با الزامات سخت گیرانه اقامت داده اجازه می دهد تا خدمات هوش مصنوعی را در زیرساخت های خود اجرا کنند.
  • صدای شخصییک ویژگی جدید صدای عصبی سفارشی است که به کسب و کارها امکان می دهد صداهای عصبی سفارشی را با 60 ثانیه نمونه صوتی برای کاربران خود ایجاد کنند. صدای شخصی است یک ویژگی دسترسی محدود
  • آواتار تبدیل متن به گفتار، یک قابلیت جدید تبدیل متن به گفتار که بر اساس متن ورودی و داده های ویدیویی یک شخص واقعی که صحبت می کند، یک فکس واقعی از صحبت کردن یک فرد ایجاد می کند. هر دو آواتار از پیش ساخته شده و سفارشی اکنون در پیش نمایش هستند، با این حال، آواتار سفارشی یک ویژگی دسترسی محدود است. 

سرویس Azure AI Vision به روز رسانی های زیر را دریافت می کند:

  • قابلیت زنده بودن و Vision SDK: عملکرد Liveness به جلوگیری از حملات جعل تشخیص چهره کمک می کند و مطابق با ISO 30107-3 PAD Level 2 است. Vision SDK for Face به توسعه دهندگان این امکان را می دهد تا به راحتی تشخیص چهره و زنده بودن را به برنامه های تلفن همراه اضافه کنند. هر دو ویژگی در پیش نمایش هستند. 
  • تجزیه و تحلیل تصویر 4.0: این API مدل های پیشرفته تجزیه و تحلیل تصویر را معرفی می کند که شامل شرح تصاویر، OCR، تشخیص اشیا و موارد دیگر است، که همگی از طریق یک نقطه پایانی API همزمان قابل دسترسی هستند. قابل ذکر است که مدل OCR بهبود یافته دارای دقت بهبود یافته ای برای متن تایپ شده و دست نویس در تصاویر است. تجزیه و تحلیل تصویر 4.0 به طور کلی در دسترس است. 
  • مدل فونداسیون فلورانس: این ویژگی بهبودیافته که با میلیاردها جفت متن-تصویر آموزش دیده و به عنوان خدمات بینایی کامپیوتری مقرون به صرفه و آماده تولید در Azure AI Vision ادغام شده است، به توسعه دهندگان این امکان را می دهد تا برنامه های بینایی کامپیوتری پیشرفته، آماده بازار و مسئولانه را در صنایع مختلف ایجاد کنند. مدل فونداسیون فلورانس به طور کلی در دسترس است.

در نهایت، به‌روزرسانی‌های جدید در خدمات هوش مصنوعی Azure روند استخراج بینش از ویدیوها را آسان‌تر از همیشه می‌کند. اکنون می توانید از هوش مصنوعی Azure برای دریافت خلاصه متنی از محتوای ویدیویی استفاده کنید. همچنین، اکنون می توانید جستجو کنید موضوعات، لحظات یا جزئیات خاص در ویدیوهای گسترده با استفاده از زبان طبیعی. جزئیات زیر را بیابید.

  • خلاصه ویدئو به متن: کاربران می توانند ماهیت محتوای ویدیویی را استخراج کنند و خلاصه های متنی مختصر و آموزنده تولید کنند. الگوریتم پیشرفته ویدئوها را به فصل‌های منسجم تقسیم می‌کند و از نشانه‌های بصری، صوتی و متنی برای ایجاد بخش‌هایی استفاده می‌کند که به راحتی در پنجره‌های مدل زبان بزرگ (LLM) جای می‌گیرند. هر بخش حاوی محتوای ضروری، از جمله رونوشت، رویدادهای صوتی و عناصر بصری است. این برای ایجاد خلاصه های ویدئویی، مطالب آموزشی یا به اشتراک گذاری دانش ایده آل است.
  • جستجوی کارآمد محتوای ویدیویی: کاربران می‌توانند محتوای ویدیویی را با استفاده از LLM و بینش Video Indexer به قالبی قابل جستجو تبدیل کنند. با تبدیل بینش‌های ویدیویی به اعلان‌های مناسب LLM، نقاط برجسته اصلی برای جستجوی مؤثر قابل دسترسی هستند. تقسیم بندی صحنه، رویدادهای صوتی و جزئیات بصری تقسیم محتوا را بیشتر می کند و به کاربران امکان می دهد موضوعات، لحظات یا جزئیات خاص را در ویدیوهای گسترده به سرعت پیدا کنند.

بیشتر در مورد موضوعات: هوش مصنوعی Azure, مایکروسافت, آواتار تبدیل متن به گفتار