Poro on Euroopan oma kielimalli

Silo AI kertoo saavuttaneensa merkittävän virstanpylvään, kun Poro-mallin koulutus on saatu onnistuneesti päätökseen yhdessä Turun yliopiston ja HPLT:n kanssa. Tämä on ratkaiseva askel Silo AI:lle ja sen pyrkimyksille vahvistaa Euroopan digitaalista suvereniteettia ja demokratisoida suurten kielimallien (LLM) saatavuus kaikilla eurooppalaisilla kielillä.

Silo AI rakentaa monikielisten avoimen lähdekoodin LLM-mallien perhettä. Eurooppalaisten arvojen mukaisten perusmallien kehittäminen on ratkaisevan tärkeää, jotta voidaan varmistaa, että ne perustuvat dataan ja tietoihin, jotka edustavat Euroopan unionin eri kieliä, kansalaisia, organisaatioita ja kulttuurimaisemaa.

Poron koulutuksen valmistuminen toimii todisteena innovatiivisesta lähestymistavasta, jolla kehitetään tekoälymalleja kielille, joilla on niukasti koulutusdataa. Poro päihittää kaikki olemassa olevat avoimet suomen kielen kielimallit, muun muassa FinGPT:n, Mistralin, Llaman ja BLUUMIn 176 miljardin parametrin mallin.

Tämä perustuu siihen, että vähäresurssinen suomen kieli on yhdistetty korkean resurssin kieliin. Poron kehityksessä on pyritty määrittelemään datan optimaalinen uudelleenkäyttötiheys vähäresurssisille kielille harjoittelun aikana ja sisällyttänyt suomenkielisen ja englanninkielisen tekstin välille käännetyt tekstiparit. Tämä strategia perustuu kieltenväliseen signaaliin, jolla parannetaan mallin ymmärrystä kielten välisistä yhteyksistä, ja se on osoittautunut ratkaisevan tärkeäksi, kun on saavutettu ylivoimainen suorituskyky vähäresurssisissä kielissä tinkimättä suorituskyvystä englannin kielessä.

Poron julkaiseminen avoimen lähdekoodin mallina helpottaa laajamittaista saatavuutta ja yhteistoiminnallista parantamista erityisesti aliedustettujen eurooppalaisten kielten osalta. Tämä lähestymistapa rikastuttaa tekoäly-yhteisöä tarjoamalla arvokkaan resurssin tutkimukseen ja kehitykseen ja heijastaa tietoista pyrkimystä lisätä kielellistä monimuotoisuutta tekoälysovelluksissa.

Ensi viaheessa Poro tukee suomen ja englannin kieltä. Tämä on tosin vasta ensimmäinen askel SiloGenin pyrkimyksissä kouluttaa huipputason LLM-malleja kaikille EU:n virallisille kielille.

Poro 34B:n ominaisuudet