Pogled na Microsoftovo platformo 'Leibniz'

Ikona časa branja 7 min. prebrati


Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo. Ikona opisa orodja

Preberite našo stran za razkritje, če želite izvedeti, kako lahko pomagate MSPoweruser vzdrževati uredniško skupino Preberi več

Gottfried Wilhelm Leibniz je bil matematik, sočasno z Newtonom. Izkazalo se je, da je bil Leibniz tudi filozof in obstaja nekaj, kar se imenuje Leibnizov princip, ki je enak združevanju podatkov. V pogovornem smislu Leibnizov princip pravi: "Če izgleda kot raca, hodi kot raca, kvačka kot raca, je velika verjetnost, da je raca." To načelo je osnova nove Microsoftove platforme Leibniz.

Trenutno se iskalniki obravnavajo kot orodja za iskanje besedila, vendar Ashok Chandra, Microsoft ugledni znanstvenik in generalni direktor Skupina za interakcijo in namen at Microsoft Research Silicijeva dolina, verjame, da bodo ljudje kmalu mislili o iskalnikih kot o "opravilnih motorjih".

»Tehnologija iskanja se je začela z besedami,« pravi Chandra. »Zgradili smo celotno iskalno infrastrukturo okoli besed. Toda v tej novi dobi iskanja sodelujemo z entitetami, saj ljudje razmišljajo o njih, kot so hotel, film, dogodek, pohodniška pot ali oseba. The Leibnizova platforma je zasnovan tako, da se ukvarja s subjekti, s ciljem, da bi ljudem olajšal izpolnjevanje nalog, ki so si jih zadali."

Leibnizov sistem ločljivosti entitet je zdaj osnovna platforma, ki se uporablja pri rezervaciji hotelskih sob, kar je značilnost Aplikacija Windows 8 Travel. Funkcija hotelske rezervacije potovalne aplikacije je rezultat sodelovanja med Microsoftom bing Skupina Applications Experience (AppEx) v Bellevueju v Washingtonu in ekipa iz skupine Interaction and Intent Group, ki jo sestavlja Chandra, raziskovalec Bo Zhao, višji vodja programa Dhyanesh Narayanan, in pogodbeni razvijalec George Puchalski. Projekt Travel-app, ki se je začel januarja, je bil eden najzahtevnejših uvedb Leibniza doslej.

Raziskave za Leibniza so se začele z obsežno študijo primera pri reševanju filmskih entitet, opisano v tehničnem dokumentu Izboljšanje ločljivosti subjektov z globalnimi omejitvami, soavtorja Chandra in laboratorijskih kolegov iz Silicijeve doline Jim Gemmell in Benjamin IP Rubinstein. Sistem je samodejno razrešil entitete na spletnih mestih filmske zbirke podatkov, kot so IMDb, Netflix, iTunes in AllMovie, tako da je združil podatke – ujemanje in kombiniratiingPodatki iz različnih virovustvariti nabor podatkov da uporabnejši od izvirnih podatkov.

Funkcija iskanja filmov je v Bing prišla konec leta 2010. Leibniz je združil informacije o filmih in iskalniku ponudil bogatejše zmogljivosti za podporaing dejanja subjektov kot naprimer "najemnina,""pazi,"in "nakup«.

»Če med iskanjem filmov naletite na nekaj napak, posledice niso resne«, pravi Narayanan. »Pri hotelih pa je lahko, če gre za napačno rezervacijo, potovanje uporabnika pokvarjeno. Naš največji izziv je bilo natančno združevanje hotelskih informacij. Ko smo zbrali informacije o hotelu iz različnih virov, smo se morali prepričati, da gre res za isti hotel.«

Izziv je bil doseči 99.9-odstotno natančnost podatkov v industriji, v kateri je natančnost običajno med 90 in 95-odstotna. Še en izziv: Ker aplikacija Travel je v paketu kot del Windows 8, je moral projekt izpolnjevati stroge roke za podporo svetovnim trgom, bodisi ob začetnem uvajanju bodisi ne več kot nekaj tednov po tem. Takrat se je ukvarjala skupina AppEx enega samega ponudnika hotelov, KAYAK.com, ki je podpiral samo trge v ZDA, Evropi in Indiji. Da bi dosegli širšo globalno pokritost, je skupina AppEx dodala še enega hotelskega ponudnika, Booking.com. To je pomenilo, da je moral Leibniz združiti podatke obeh partnerjev.

Raziskovalci so začeli z izvajanjem preprostega modela za ujemanje, ki je nato Leibnizovim algoritmom strojnega učenja omogočil odkrivanje pravil o tem, kako različni ponudniki opisujejo hotele in njihove atribute, kot so sopomenke in semantika različnih izrazov. Ko so bila pravila uporabljena in vnesena nazaj v model, je sistem lahko še naprej izučeval več o tem, kako so bili hoteli predstavljeni. Sistem je postajal z vsako ponovitvijo "pametnejši", dokler ni dosegel zahtevane ravni natančnosti. Raziskovalci so ugotovili, da uZapevanje imen in naslovov hotelov, da bi se ujemali z informacijami, ni bilo zagotovilo za uspeh, težava, ki so jo zapletle napake v podatkih in nedoslednosti v obeh zbirkah podatkov. Narayanan navaja tipičen primer nedoslednosti.

"Na primer, v Las Vegasu je en ponudnik hotel Bellagio navedel kot 'The Bellagio'," pravi. »Drugi ponudnik ga je imenoval 'The Bellagio Casino Hotel.' Tako se sprva aplikacija ni mogla ujemati. Toda potem nam je Leibniz pomagal opaziti, da so hoteli in igralnice v Las Vegasu skoraj ista stvar, in sistem je razširil model.

"V nekaterih primerih je isti subjekt videti precej drugačen od sistema," pojasnjuje Zhao. »Gostilno bi lahko en ponudnik označil kot nočitev z zajtrkom, pri drugem pa kot nočitev z zajtrkom. Pogosto smo se morali odločati med različnimi formati naslovov ali včasih obravnavati naslove, ki so bili čisto napačni."

V enem nepozabnem primeru so se podobno zveneče entitete izkazale za precej različne: dve nepremičnini Marriott sta bili na istem naslovu in nosili podobna imena, vendar sta delovali kot ločena hotela.

"Za vsak nov trg smo morali čim prej doseči 99.9-odstotno natančnost," pravi Zhao. »Kadar koli dodate novo državo, obstajajo različne konvencije za imena hotelov, naslove in opise atributov, zato se mora sistem naučiti in uporabiti nekaj novih pravil. Seznam enakovrednih ali sinonimov ne obstaja. Na srečo Leibniz vedno gradi na tem, kar že razume, zato se mora le še nekaj naučiti."

"S prvim trgom, ki smo ga uvedli, smo morali izvesti približno 20 do 30 ponovitev, da smo dosegli 99.9-odstotno natančnost," se spominja Narayanan. »Toda veliko teh pravil se je preneslo na naslednji trg, naslednji in tako naprej. Število ponovitev je začelo zelo hitro upadati. Nekateri trgi, ki smo jih vključili ob koncu, sploh niso potrebovali ponovitev. Kitajska in Japonska sta si bili precej različni, zlasti Japonska, a tudi ti niso bili tako slabi."

V prejšnji različici aplikacije Travel so ljudje videli le najcenejše ponudbe sob za hotel, tudi če to ni bila vrsta sobe, ki bi jo oseba želela. Z novo aplikacijo za potovanja je bila stran za rezervacije preoblikovana tako, da prikazuje informacije iz Kayaka kot prej, vendar prinaša tudi druge možnosti prek Booking.com za zagotavljanje sob in podrobnosti o tarifnem načrtu, s čimer ljudem omogoča bogatejše informacije za sprejemanje odločitev. Medtem ko je Leibniz osnovni motor za združevanje, je to platforma, ki je opremljena s obsežnim naborom orodij – vsa so se izkazala za izjemno uporabna za skrbnike projekta, vodje programov, označevalce, razvijalce in preizkuševalce. Orodja so poenostavili delo pri označevanju in usposabljanju modelov, hkrati pa so poenostavili uvajanje in upravljanje sistema med proizvodnjo.

»Ključni cilj ekipe AppEx je zgraditi visokovrednostne izkušnje, ki pomagajo pritegniti uporabnike na naše platforme naprav,« pravi Batterberry. "S tehnologijo Liebniz podjetja Microsoft Research lahko združimo vsebino iz več virov z natančnostjo treh devetk brez primere, da uporabniku pomagamo učinkoviteje opraviti svojo nalogo z najboljšo možno izkušnjo."

Kaj je naslednje za Leibniza?

"Leibnizova platforma je neodvisna od domene," pravi Zhao. »Modeli za vsako domeno so različni, vendar se lahko uporablja ista kodna baza za združevanje podatkov, bodisi filmov, televizijskih oddaj ali hotelov. Zato je Leibniz idealen v vsaki situaciji, ko morajo aplikacije zbirati podatke iz več virov in zahtevajo visokokakovostno združevanje.

vir: Microsoft Research

Več o temah: bing, leibniz, Microsoftove raziskave, aplikacija za potovanja

Pustite Odgovori

Vaš e-naslov ne bo objavljen. Obvezna polja so označena *