Elon Musk'un xAI'si multimodal kapasiteye sahip Grok-1.5 Vision'ı duyurdu

Okuma zamanı simgesi 2 dk. okuman


Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz. Araç İpucu Simgesi

MSPoweruser'ın editör ekibini ayakta tutmasına nasıl yardımcı olabileceğinizi öğrenmek için açıklama sayfamızı okuyun. Daha fazla

Önemli notlar

  • Elon Musk'un xAI'si Grok-1.5 Vision veya Grok-1.5V'yi duyurdu.
  • Grok-1.5V, şirketin ilk multimodal modelidir ve yakında ilk test uzmanlarına ve mevcut Grok kullanıcılarına sunulacaktır.
  • Grok-1.5V metin ve görsel bilgileri işleyebilmektedir.

Geçen ay Elon Musk, Grok-1.5 LLM'yi birkaç gün sonra başlattı Google Gemini 1.5'i başlattı. Musk'un xAI modelinin GPT-4 performansına yakın olduğunu iddia etse de multimodal yeteneği bulunmuyor. Ancak şirketin yakın zamanda duyurduğu Grok-1.5 Vision'da hem metin hem de görsel bilgileri işleyebildiği için bu sınırlama bulunmuyor.

Grok-1.5 Vision (Grok-1.5V) nedir ve ne zaman satışa sunulacak?

Grok-1.5V, xAI'nin dijital ve fiziksel dünyaları birbirine bağlamayı amaçlayan birinci nesil multimodal modelidir. Şirket, "Grok, gerçek dünyanın mekansal anlayışını ölçen yeni RealWorldQA değerlendirmemizde benzerlerinden daha iyi performans gösteriyor" dedi. blog yazısı. Ek olarak Grok-1.5V "belgeler, diyagramlar, çizelgeler, ekran görüntüleri ve fotoğraflar dahil olmak üzere çok çeşitli görsel bilgileri işleyebilir."

Örneğin yapabileceği heyecan verici şeylerden bazıları arasında bir diyagramdan kod yazmak, kalori hesaplamak, çizimlere dayalı uyku zamanı hikayeleri hazırlamak, bir memeyi anlamanıza yardımcı olmak ve daha fazlası yer alıyor. xAI, RealWorldQA değerlendirmesinde Grok-1.5V'nin GPT-4V, Claude 3Sonnet, Claude 3 Opus ve Gemini Pro dahil olmak üzere rakip LLM'lerden daha iyi performans gösterdiğini iddia ediyor.

xAI, "Grok, gerçek dünyadaki mekansal anlayışı ölçen yeni RealWorldQA değerlendirmemizde emsallerinden daha iyi performans gösteriyor" diye vurguladı.

Grok-1.5V şu anda mevcut değil, ancak yakında ilk test uzmanlarına ve mevcut Grok kullanıcılarına önizleme olarak sunulacak. xAI lansman tarihini belirtmemiş olsa da, "multimodal anlayış" ve "üretim yeteneklerini" daha da geliştireceği ve görüntü, ses ve video gibi çeşitli yöntemlere iyileştirmeler getireceği sözünü verdi.