Microsoft'un yeni görüş dili (VL) sistemi insan performansını önemli ölçüde aşıyor

Okuma zamanı simgesi 2 dk. okuman


Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz. Araç İpucu Simgesi

MSPoweruser'ın editör ekibini ayakta tutmasına nasıl yardımcı olabileceğinizi öğrenmek için açıklama sayfamızı okuyun. Daha fazla

Microsoft Vision Dil Sistemi

Microsoft Vision Dil Sistemi

Görüntü dili (VL) sistemleri, bir metin sorgusu için ilgili görüntülerin aranmasına (veya tam tersi) ve bir görüntünün içeriğinin doğal dil kullanılarak tanımlanmasına olanak tanır. Genel olarak, bir VL sistemi bir görüntü kodlama modülü ve bir görüntü dili füzyon modülü kullanır. Microsoft Research kısa süre önce görüntü kodlaması için yeni bir nesne öznitelik algılama modeli geliştirdi. Vin VL (Volağan özellikler in Vizo-Ldil).

VinVL, aşağıdakiler gibi VL füzyon modülleriyle birleştirildiğinde: OSCAR ve VIVO, yeni Microsoft VL sistemi, Görsel Soru Yanıtlama (VQA), Microsoft COCO Görüntü Altyazısı ve Yeni Nesne Altyazısı (nocaps) dahil olmak üzere en rekabetçi VL lider tablolarında en üst sıraya ulaşmayı başardı. Microsoft Araştırma ekibi ayrıca bu yeni VL sisteminin CIDEr açısından nocaps lider tablosundaki insan performansını önemli ölçüde aştığını vurguladı (92.5'e karşı 85.3).

VinVL, VL anlayışı için görüntü kodlamasını geliştirmede büyük potansiyel göstermiştir. Yeni geliştirilen görüntü kodlama modelimiz, aşağıdaki örneklerde gösterildiği gibi çok çeşitli VL görevlerinden yararlanabilir: Bu kağıt. Görüntü altyazısı karşılaştırma ölçütlerinde insan performansını aşmak gibi elde ettiğimiz umut verici sonuçlara rağmen, modelimiz hiçbir şekilde VL anlayışının insan düzeyindeki zekasına ulaşmıyor. Gelecekteki çalışmaların ilginç yönleri şunları içerir: (1) çok büyük görüntü sınıflandırma/etiketleme verilerinden yararlanarak nesne özniteliği algılama ön eğitimini daha da büyütmek ve (2) çapraz modlu VL temsili öğrenme yöntemlerini, algı temelli dil modelleri oluşturmaya genişletmek. görsel kavramları doğal dilde temellendirebilir veya tam tersi insanlar gibi.

Microsoft VinVL, Seeing AI, Office ve LinkedIn'de Image Captioning ve diğerleri gibi çeşitli Microsoft hizmetlerine güç sağlayan Azure Bilişsel Hizmetlere entegre ediliyor. Microsoft Araştırma ekibi ayrıca VinVL modelini ve kaynak kodunu halka açıklayacak.

Kaynak: Microsoft

Konular hakkında daha fazla bilgi: microsoft, microsoft araştırması, Vin VL

Yorum bırak

E-posta hesabınız yayımlanmayacak. Gerekli alanlar işaretlenmişlerdir. *