Silo AI kertoo saavuttaneensa merkittävän virstanpylvään, kun Poro-mallin koulutus on saatu onnistuneesti päätökseen yhdessä Turun yliopiston ja HPLT:n kanssa. Tämä on ratkaiseva askel Silo AI:lle ja sen pyrkimyksille vahvistaa Euroopan digitaalista suvereniteettia ja demokratisoida suurten kielimallien (LLM) saatavuus kaikilla eurooppalaisilla kielillä.
Silo AI rakentaa monikielisten avoimen lähdekoodin LLM-mallien perhettä. Eurooppalaisten arvojen mukaisten perusmallien kehittäminen on ratkaisevan tärkeää, jotta voidaan varmistaa, että ne perustuvat dataan ja tietoihin, jotka edustavat Euroopan unionin eri kieliä, kansalaisia, organisaatioita ja kulttuurimaisemaa.
Poron koulutuksen valmistuminen toimii todisteena innovatiivisesta lähestymistavasta, jolla kehitetään tekoälymalleja kielille, joilla on niukasti koulutusdataa. Poro päihittää kaikki olemassa olevat avoimet suomen kielen kielimallit, muun muassa FinGPT:n, Mistralin, Llaman ja BLUUMIn 176 miljardin parametrin mallin.
Tämä perustuu siihen, että vähäresurssinen suomen kieli on yhdistetty korkean resurssin kieliin. Poron kehityksessä on pyritty määrittelemään datan optimaalinen uudelleenkäyttötiheys vähäresurssisille kielille harjoittelun aikana ja sisällyttänyt suomenkielisen ja englanninkielisen tekstin välille käännetyt tekstiparit. Tämä strategia perustuu kieltenväliseen signaaliin, jolla parannetaan mallin ymmärrystä kielten välisistä yhteyksistä, ja se on osoittautunut ratkaisevan tärkeäksi, kun on saavutettu ylivoimainen suorituskyky vähäresurssisissä kielissä tinkimättä suorituskyvystä englannin kielessä.
Poron julkaiseminen avoimen lähdekoodin mallina helpottaa laajamittaista saatavuutta ja yhteistoiminnallista parantamista erityisesti aliedustettujen eurooppalaisten kielten osalta. Tämä lähestymistapa rikastuttaa tekoäly-yhteisöä tarjoamalla arvokkaan resurssin tutkimukseen ja kehitykseen ja heijastaa tietoista pyrkimystä lisätä kielellistä monimuotoisuutta tekoälysovelluksissa.
Ensi viaheessa Poro tukee suomen ja englannin kieltä. Tämä on tosin vasta ensimmäinen askel SiloGenin pyrkimyksissä kouluttaa huipputason LLM-malleja kaikille EU:n virallisille kielille.
Poro 34B:n ominaisuudet
- Poro-tutkimuksen tarkistuspisteet: Mallin tarkistuspisteitä julkaistaan koko koulutusprosessin ajan, mikä antaa ulkopuolisille tutkijoille ennennäkemättömän mahdollisuuden tutkia mallin koulutusprosessia.
- Malliarkkitehtuuri: Poro 34B on 34,2 miljardia parametria, ja se käyttää BLOOM-arkkitehtuuria, jossa on ALiBi-sulkeumia, jotta konteksti-ikkunoiden ekstrapolointi on mahdollista. Malliarkkitehtuuri on pidetty yksinkertaisena alkuperäisen mallin osalta, mutta tulevat mallit, jotka ovat parhaillaan kehitteillä, tukevat lisäominaisuuksia, kuten välähdyshuomiota, pyöriviä upotuksia ja ryhmiteltyä kyselyhuomiota.
- Monikieliset ominaisuudet: Poro on suunniteltu käsittelemään englantia ja suomea, ja se hallitsee useita ohjelmointikieliä. Lisäksi se pystyy suorittamaan peruskäännökset englannin ja suomen välillä.
- Avoin lähdekoodi: Poro on vapaasti saatavilla Apache 2.0 -lisenssin alaisuudessa, mikä tarkoittaa sovellettavuutta sekä kaupalliseen että tutkimuskäyttöön.
- Tietokanta: Malli on koulutettu 1 triljoonan merkin tietokokonaisuudella, jossa on edustettuna englanti, suomi ja erilaisia ohjelmointikieliä.
- Koulutuksen yksityiskohdat: Poro koulutetaan käyttämällä 512 AMD MI250X GPU:ta LUMI-supertietokoneella Suomessa.