Root NationNovinkyIT novinkyMicrosoft predstavili multimodálny prístup, ktorý dláždi cestu k AI na ľudskej úrovni

Microsoft predstavili multimodálny prístup, ktorý dláždi cestu k AI na ľudskej úrovni

-

Začiatkom tohto týždňa vedci z Microsoft predstavili Kosmos-1, multimodálny model umelej inteligencie, ktorý dokáže analyzovať obsah obrázkov, riešiť vizuálne hádanky, vykonávať vizuálne rozpoznávanie textu, vykonávať vizuálne IQ testy a rozumieť inštrukciám v prirodzenom jazyku. Podľa výskumníkov sú takéto modely AI prvým krokom k vytvoreniu umelej všeobecnej inteligencie (AI), ktorá dokáže vykonávať spoločné úlohy na ľudskej úrovni. To znamená, že táto technológia bude schopná nahradiť osobu v akejkoľvek intelektuálnej úlohe. A to je stanovený cieľ OpenAI, kľúčového obchodného partnera Microsoft v oblasti umelej inteligencie.

Kozmos-1

V tomto prípade je Kosmos-1 čisto osobným rozvojom spoločnosti Microsoft. Výskumníci nazývajú ich vytvorenie „multimodálnym širokým jazykovým modelom“ (MLLM), pretože jeho korene spočívajú v spracovaní prirodzeného jazyka iba v texte, ako je LLM, ako je ChatGPT. Aby model akceptoval vstupné obrázky, výskumníci musia obrázky najskôr previesť na špeciálnu sériu tokenov (hlavne textu), ktorým LLM rozumie.

Kozmos-1

Kosmos-1 bol trénovaný na databáze z internetu, vrátane výpisov z The Pile (800 GB anglický textový zdroj) a Common Crawl. Model bol potom testovaný niekoľkými testami na porozumenie reči, generovanie reči, klasifikáciu textu bez optického rozpoznávania znakov, popisovanie obrázkov, vizuálne zodpovedanie otázok, zodpovedanie otázok na webovej stránke a klasifikáciu obrázkov s lokalizáciou. Podľa Microsoft, Kosmos-1 prekonal súčasné modely v mnohých z týchto testov.

Kozmos-1

Obzvlášť zaujímavý bol test Raven's Progressive Reasoning, ktorý meria vizuálne IQ tak, že prezentuje sekvenciu tvarov a žiada subjekt, aby sekvenciu dokončil. Kosmos-1 dokázal dať správnu odpoveď v 22 % prípadov.

Kozmos-1

Tieto prvé kroky, ktoré by s budúcou optimalizáciou mohli priniesť ešte významnejšie výsledky, umožňujúce modelom AI vnímať a ovplyvňovať akúkoľvek formu médií, čím sa výrazne rozšíria možnosti umelých asistentov.

Prečítajte si tiež:

DzhereloArsTechnica
Prihlásiť Se
Upozorniť na
host

0 Komentáre
Vložené recenzie
Zobraziť všetky komentáre