Microsoft Research מעורר השראה בכיתוב וידאו

סמל זמן קריאה 2 דקות לקרוא


קוראים עוזרים לתמוך ב-MSpoweruser. אנו עשויים לקבל עמלה אם תקנה דרך הקישורים שלנו. סמל טיפים

קרא את דף הגילויים שלנו כדי לגלות כיצד תוכל לעזור ל-MSPoweruser לקיים את צוות העריכה קראו עוד

video-title-generation-1024x562

שני חוקרים סיניים, צ'יה-ון לין ומין סאן, פרופסורים במחלקה להנדסת חשמל של אוניברסיטת טסינגואה הלאומית בטייוואן, יצרו בוט שיצפה עבורך בסרטון שלך, יקבע את נקודות השיא שלו, יצור כותרת רלוונטית לחיפוש קל, ו ממליץ למי שאולי ירצה להיות מתויג לצפות בו.

בהשראת COCO (אובייקטים נפוצים בהקשר) של Microsoft Research, פרופסור לין ופרופסור סאן שיתפו פעולה עם ד"ר טאו מיי, חוקר מוביל במולטימדיה ב-Microsoft Research Asia בשנת 2015, תוך שימוש בכתוביות COCO להגדלת משפטים ושימוש בכתוביות ב-MSCOCO כדי להכשיר את מערכת.

המערכת שלהם ניתחה 18,000 סרטונים עבור הדגשות ויצרה 44,000 כותרים/תיאורים. כדי לשפר את המערכת, פרופסור סאן ותלמידיו השתתפו באתגר VideoToText בחסות Microsoft Research, תוך שימוש בנתונים שפורסמו באתגר לצורך אימות נוסף.

"המחקר שלנו לקח אותנו צעד אחד קרוב יותר אל הגביע הקדוש של אינטליגנציה חזותית, הבנת תוכן ויזואלי בסרטוני וידאו שנוצרו על ידי משתמשים", אמר פרופסור סאן.

המחקר שלהם יאפשר לך בסופו של דבר למצוא ולצפות בקלות בתוכן שנוצר על ידי משתמשים במדיה החברתית, כולל הקליפ המדהים של סבא שלך מאבד את שיניו בזמן ריקוד בחתונה של בן דודך.

המחקר של פרופסור סאן וד"ר טאו מיי פורסמו באתר Arxiv.org כאן.

עוד על הנושאים: ראיית מחשב, מחקר