
Ajatus kuulostaa radikaalilta. Kielimalli ei enää pyöri raudalla, vaan se on itse rauta. Yhdysvaltalainen Taalas esittelee niin sanottua LLM burner -lähestymistapaa, jossa kokonainen kielimalli kirjoitetaan suoraan ASIC-piirille. Yhtiön HC1-demopiiri ajaa Llama 3.1 8B -mallia jopa lähes 17 000 tokenin sekuntinopeudella. Vertailun vuoksi perinteiset GPU-ratkaisut jäävät satoihin tokeneihin sekunnissa, ja erikoiskiihdyttimetkin tuhansiin.
Nopeuden taustalla on perustavanlaatuinen muutos. Mallia ei enää ladata muistiin eikä suoriteta yleiskäyttöisellä laskentayksiköllä. Mallin painot on toteutettu suoraan sirun rakenteessa. Muistiliikenne katoaa ja samalla katoaa keskeinen pullonkaula nykyisessä LLM-inferenssissä.
Tulos näkyy erityisesti latenssissa. Demon perusteella vastaus syntyy käytännössä välittömästi ilman perinteistä viivettä.
Kun malli siirtyy ohjelmistosta piiksi, se menettää keskeisen ominaisuutensa. Poltettua mallia ei voi korjata, hienosäätää tai vaihtaa ilman uutta sirua. Tämä on merkittävä rajoite maailmassa, jossa kielimallit kehittyvät nopeasti ja niiden käyttö muuttuu jatkuvasti. GPU-pohjaisessa ympäristössä uusi malli voidaan ottaa käyttöön heti. ASIC-maailmassa se tarkoittaa uutta suunnittelukierrosta.
Lähestymistapa ei sovellu yleiskäyttöiseen tekoälyyn, pilvipalveluihin tai nopeasti kehittyviin sovelluksiin. Myös sotilaskäytössä, jossa tunnistettavat kohteet ja tilanteet muuttuvat jatkuvasti, jäykkä malli on ongelmallinen. Se tunnistaa eilisen kohteet, ei huomisen.
Ratkaisu istuu parhaiten käyttökohteisiin, joissa tehtävä on tarkasti määritelty ja muuttuu harvoin. Tällaisia ovat sulautetut järjestelmät, teolliset sovellukset ja massatuotteet, joissa tekoäly on yksi vakioitu toiminto muiden joukossa. Tällöin mallin voi jäädyttää ja optimoida äärimmilleen.
Taalaksen lähestymistapa muistuttaa enemmän DSP- tai koodekkipiiriä kuin perinteistä AI-kiihdytintä. Se ei ole universaali alusta, vaan erittäin tehokas ratkaisu yhteen tehtävään.
Jos konsepti toimii, se voi avata uuden laiteluokan. Tekoäly ei enää ole ohjelmisto vaan osa laitteiston rakennetta. Samalla joudutaan hyväksymään kompromissi, joka on monessa sovelluksessa liian suuri.





















