Vedci z MIT vyriešili záhadu strojového učenia

Po roku 2010 sa začalo vážne zlepšovanie softvérových algoritmov, čo spolu s výkonnými počítačmi dalo impulz rýchlemu rozvoju neurónových sietí. Softvérové modely sa trénujú a trénujú na tisíckach príkladov, aby si neskôr vytvorili svoje vlastné akcie. Dnes je najznámejšou neurónovou sieťou táto OpenAI GPT-3. Ide o model strojového učenia, ktorý sa učí pomocou veľkého množstva internetových údajov, dokáže zobrať malý fragment textu a pridať nedostatočný fragment na pomerne vysokej úrovni. A to platí nielen pre naratívny text, ale aj básne, ako aj riadky softvérového kódu.

To však nie je všetko, čoho sú modely tohto plánu schopné. Výskumníci študujú zaujímavý fenomén známy ako „učenie v kontexte“, pri ktorom sa veľký jazykový model naučí vykonávať úlohu po tom, čo videl iba niekoľko príkladov, aj keď nebol na danú úlohu vyškolený.

Túto záhadu sa snažia vyriešiť vedci z Massachusettského technologického inštitútu, Google Research a Stanfordskej univerzity. Pri kontextovom učení sa parametre modelu neaktualizujú, takže sa zdá, že model sa učí novú úlohu bez toho, aby sa učil čokoľvek.

Teoretické výsledky výskumníkov ukazujú, že tieto masívne modely neurónových sietí sú schopné obsahovať menšie a jednoduchšie lineárne modely ukryté v ich vnútri. Veľký model potom môže implementovať jednoduchý algoritmus na trénovanie tohto menšieho lineárneho modelu na vykonanie novej úlohy, pričom použije iba informácie už obsiahnuté vo väčšom modeli.

Vďaka hlbšiemu pochopeniu kontextového učenia budú vedci schopní implementovať nové úlohy s modelmi bez drahého preškoľovania. To znamená, že po prvé, pre každú konkrétnu úlohu je potrebné zozbierať veľké množstvo údajov, na základe ktorých bude prebiehať školenie. A tak bude možné poskytnúť neurónovej sieti len niekoľko príkladov, vďaka ktorým bude tréning prebiehať.

„Kontextové učenie je neprimerane efektívny fenomén učenia, ktorý treba pochopiť“.

Predpokladalo sa, že v modeloch neurónových sietí existujú menšie modely strojového učenia, ktoré môžu naučiť starší model vykonávať novú úlohu. Na otestovanie svojej teórie vedci použili model neurónovej siete, ktorý je svojou architektúrou veľmi podobný GPT-3, ale bol vytvorený špeciálne na učenie v kontexte. To znamená, že vo vnútri predchádzajúcich vrstiev bol implementovaný model, ktorý sa zaoberal učením sa lineárneho modelu implementáciou jednoduchých algoritmov učenia.

"Tieto výsledky sú odrazovým mostíkom k pochopeniu toho, ako sa modely môžu naučiť zložitejšie úlohy, a pomôžu výskumníkom vyvinúť efektívnejšie metódy na trénovanie jazykových modelov na ďalšie zlepšenie ich výkonu.".

Prečítajte si tiež:

Dzherelocsail.mit.edu

Prihlásiť Se

0 Komentáre

Vložené recenzie

Zobraziť všetky komentáre

Ďalšie články

Vedci z Massachusettského technologického inštitútu vyriešili záhadu strojového učenia

Nedávne komentáre