Google VLOGGER AI מחייה תמונות עם אווטרים מדברים כמו חיים

סמל זמן קריאה 2 דקות לקרוא


קוראים עוזרים לתמוך ב-MSpoweruser. אנו עשויים לקבל עמלה אם תקנה דרך הקישורים שלנו. סמל טיפים

קרא את דף הגילויים שלנו כדי לגלות כיצד תוכל לעזור ל-MSPoweruser לקיים את צוות העריכה קראו עוד

הערות עיקריות

  • בינה מלאכותית של גוגל יוצרת אווטרים מדברים כמו חיים מתמונות בודדות.
  • VLOGGER משתמש במודלים של דיפוזיה כדי להנפיש תמונות בצורה מציאותית.
  • יישומים פוטנציאליים כוללים אווטרים של VR ודיבוב וידאו.

חוקרי גוגל פיתחו מערכת בינה מלאכותית חדשה בשם VLOGGER שיכולה ליצור סרטונים מציאותיים של אנשים מדברים, מחוות וזזים מתוך תמונת סטילס אחת בלבד.

טכנולוגיה זו, המתוארת במאמר מחקר שכותרתו "VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis", ממנפת מודלים של דיפוזיה, סוג של למידת מכונה המצטיינת ביצירת תמונות מתיאורי טקסט. על ידי יישום הטכנולוגיה הזו על וידאו והדרכה על מערך נתונים עצום, VLOGGER יכול להנפיש תמונות בצורה משכנעת ביותר.

בניגוד לעבודות קודמות, השיטה שלנו אינה דורשת הכשרה לכל אדם, אינה מסתמכת על זיהוי פנים וחיתוך, מייצרת את התמונה השלמה (לא רק הפנים או השפתיים), ומתחשבת בספקטרום רחב של תרחישים (למשל פלג גוף עליון גלוי או זהויות נושא מגוונות) שהן קריטיות לסינתזה נכונה של בני אדם המתקשרים.

המחברים כתבו.

היכולות של VLOGGER כוללות דיבוב אוטומטי של סרטונים בשפות שונות, עריכת סרטונים ואפילו יצירת סרטונים מלאים מתמונה בודדת.

חוקרים טוענים כי VLOGGER מתעלה על שיטות אחרות באיכות התמונה ובריאליזם. ככל שהטכנולוגיה הזו מתקדמת, הגבול בין סרטונים אמיתיים לסרטוני וידאו מלאכותיים עלול להיטשטש. VLOGGER מציע הצצה לעתיד הבינה המלאכותית.

עם זאת, קיימים חששות בנוגע לשימוש לרעה פוטנציאלי. ככל ש-VLOGGER משכלל את היכולות שלו, כך גם הקלות ביצירת זיופים עמוקים - סרטונים שמחליפים את הדמיון של אדם בדמותו של אחר, כמו מה קרה עם טיילור סוויפט.

אתה יכול לראות את הדוגמאות כאן.