Microsoft'un yeni görüş dili (VL) sistemi insan performansını önemli ölçüde aşıyor

Okuma zamanı simgesi 2 dk. okuman

Takvim simgesi Yayınlandı Ocak 18, 2021

yayınlandı Ocak 18, 2021

Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz.

Görüntü dili (VL) sistemleri, bir metin sorgusu için ilgili görüntülerin aranmasına (veya tam tersi) ve bir görüntünün içeriğinin doğal dil kullanılarak tanımlanmasına olanak tanır. Genel olarak, bir VL sistemi bir görüntü kodlama modülü ve bir görüntü dili füzyon modülü kullanır. Microsoft Research kısa süre önce görüntü kodlaması için yeni bir nesne öznitelik algılama modeli geliştirdi. Vin VL (Volağan özellikler in Vizo-Ldil).

VinVL, aşağıdakiler gibi VL füzyon modülleriyle birleştirildiğinde: OSCAR ve VIVO, yeni Microsoft VL sistemi, Görsel Soru Yanıtlama (VQA), Microsoft COCO Görüntü Altyazısı ve Yeni Nesne Altyazısı (nocaps) dahil olmak üzere en rekabetçi VL lider tablolarında en üst sıraya ulaşmayı başardı. Microsoft Araştırma ekibi ayrıca bu yeni VL sisteminin CIDEr açısından nocaps lider tablosundaki insan performansını önemli ölçüde aştığını vurguladı (92.5'e karşı 85.3).

VinVL, VL anlayışı için görüntü kodlamasını geliştirmede büyük potansiyel göstermiştir. Yeni geliştirilen görüntü kodlama modelimiz, aşağıdaki örneklerde gösterildiği gibi çok çeşitli VL görevlerinden yararlanabilir: Bu kağıt. Görüntü altyazısı karşılaştırma ölçütlerinde insan performansını aşmak gibi elde ettiğimiz umut verici sonuçlara rağmen, modelimiz hiçbir şekilde VL anlayışının insan düzeyindeki zekasına ulaşmıyor. Gelecekteki çalışmaların ilginç yönleri şunları içerir: (1) çok büyük görüntü sınıflandırma/etiketleme verilerinden yararlanarak nesne özniteliği algılama ön eğitimini daha da büyütmek ve (2) çapraz modlu VL temsili öğrenme yöntemlerini, algı temelli dil modelleri oluşturmaya genişletmek. görsel kavramları doğal dilde temellendirebilir veya tam tersi insanlar gibi.

Microsoft VinVL, Seeing AI, Office ve LinkedIn'de Image Captioning ve diğerleri gibi çeşitli Microsoft hizmetlerine güç sağlayan Azure Bilişsel Hizmetlere entegre ediliyor. Microsoft Araştırma ekibi ayrıca VinVL modelini ve kaynak kodunu halka açıklayacak.

Kaynak: Microsoft

Konular hakkında daha fazla bilgi: microsoft, microsoft araştırması, Vin VL

Pradeep Viswav'ı

Yazılım ve Hizmet Uzmanı

Pradeep Bilgisayar Bilimi ve Mühendisliği mezunudur. Aynı zamanda Microsoft Öğrenci Ortağıydı. Şu anda önde gelen bir bilişim şirketinde çalışmaktadır.

Yorum bırak