![]()
Generatiivisen tekoälyn vallankumous, joka tuo chatbotit asiakaspalveluun ja mahdollistaa älykaiuttimien kaltaiset laitteet, on vasta alkua. Sama teknologia, joka ymmärtää ihmisten puhetta, siirtyy nyt robotiikkaan, missä se auttaa kehittämään algoritmeja robottien liikkeiden ohjaamiseen ja politiikkojen toteuttamiseen tärkeiden tehtävien suorittamiseksi.
|
|
Robotit siirtyvät nyt alueille, joissa ne eivät enää kommunikoi vain käyttäjien, vaan myös yleisön kanssa. Generatiivinen tekoäly voi parantaa käytettävyyttä merkittävästi tarjoamalla puheohjauksen ja -palautteen. Liikkuva robotti hotellissa tai sairaalassa voi ohjata ihmisiä oikeaan paikkaan tai kuljettaa aterioita. Sisäänrakennettu puheesta puheeseen -järjestelmä mahdollistaa kysymysten esittämisen ja tarkkojen vastausten saamisen. Vastaavasti joukkoliikenteessä avustavat robotit voivat ohjata näkörajoitteisia oikeaan suuntaan.
Teollisissa sovelluksissa, kuten hitsauksessa ja kiinnityksessä, robotti voi totella suullisia käskyjä ja vahvistaa niiden ymmärtämisen. Robottia voi esimerkiksi käskeä siirtämään raskaan paneelin paikalleen, suorittamaan hitsauksen ja kiinnityksen ja siirtämään sen seuraavaan vaiheeseen. Lääketieteellisissä tilanteissa robotti voi ojentaa lääkärille tarvittavan instrumentin ilman, että tämä joutuu koskemaan näyttöön tai näppäimistöön ja vaarantamaan steriiliyttä.
Puheesta puheeksi -järjestelmät
Monet nykyiset kuluttajatason puheesta puheeksi -järjestelmät käyttävät pilvipalveluja. Robotiikassa tällainen viive ei usein ole hyväksyttävää. Lisäksi teolliset ja maatalouskäytöt voivat sijaita kaukana nopeista verkkoyhteyksistä. Tällöin tarvitaan tehokkaita tekoälymalleja, jotka voidaan suorittaa sulautetuilla alustoilla.

Aiemmin paikallisesti ajettavat tekoälymallit olivat kalliita ja virtasyöppöjä. Tämä ei enää pidä paikkaansa. Tria kehitti järjestelmiä nykyaikaisella NXP i.MX95 -sovellusprosessorilla, jotka osoittavat, kuinka puheesta puheeseen -generatiivinen tekoäly voidaan siirtää vähävirtaiselle laitteistolle ilman erillisen GPU:n energiakustannuksia. i.MX95-prosessori yhdistää kehittyneen Arm-moniydinsuorittimen, sisäisen grafiikkaprosessorin (GPU), tekoälykiihdytyksen (NXP eIQ Neutron) sekä tehokkaan I/O- ja muistiohjauksen.
Sulautetuissa sovelluksissa tekoälyn toteutuksessa on tärkeää valita mallit, jotka tarjoavat parhaan tasapainon tehonkulutuksen, muistin ja tarkkuuden välillä. Periaatteessa generatiivista mallia voisi käyttää päästä päähän, mutta usein se ei ole tarpeen. Tria kokeili erilaisia vaihtoehtoja puheesta puheeseen -prosessin eri vaiheisiin.
Prosessi alkaa ihmisen antamien komentojen tunnistamisesta. Tämä vaihe on hyvä toteuttaa vähävirtaisella algoritmilla, koska sen täytyy olla jatkuvasti aktiivinen, jotta komentoja ei jää huomaamatta. Yksinkertaisin ratkaisu on äänenvoimakkuuden havainnointi – mikrofonin signaalia verrataan taustameluun. Vaikka tämä on kevyt menetelmä, se antaa liikaa vääriä hälytyksiä. Parempi vaihtoehto on Silero-puheaktivaatiomalli, joka perustuu konvoluutioneuroverkkoon (CNN) ja tarjoaa laadukkaan tuloksen pienellä kuormituksella.
Puheesta tekstiksi
Vastaavasti tuotoksessa Piper-tekstistä puheeksi -malli osoittautui tehokkaaksi kokoonsa, prosessorivaatimuksiinsa ja muistinkäyttöönsä nähden. Näiden kahden vaiheen välissä generatiivinen tekoäly tuo suurimmat hyödyt. Useimmat nykyisin käytössä olevat generatiiviset mallit on kehitetty käsittelemään luonnollista kieltä. Suuret kielimallit (LLM:t) hyödyntävät ihmiskielen tilastollista rakennetta. Sanat ja fraasit pilkotaan "tokeneiksi" eli merkkijonoiksi, jotka sijoitetaan moniulotteiseen vektoriavaruuteen niin, että merkitykseltään lähellä olevat sanat asettuvat toistensa viereen. Tämä selittää myös mallien tehokkuuden kielikäännöksissä.

LLM yhdistää vektorikuvauksen neuroverkkoon, joka perustuu Transformer-arkkitehtuuriin. Tämä hyödyntää huomio-mekanismia (attention) löytääkseen yhteyksiä sanojen välillä ja tuottaakseen johdonmukaisia vastauksia. Hyvä puoli koulutusprosessissa on, että raskain vaihe eli esikoulutus ei vaadi valmiiksi merkittyä dataa. Malli oppii sanojen välisiä yhteyksiä itsenäisesti. Toisessa vaiheessa, hienosäädössä, mallia opetetaan tietyn tehtävän suorittamiseen merkittyjen esimerkkien avulla. OpenAI:n Whisper on esimerkki mallista, joka on hienosäädetty puheen muuntamiseen tekstiksi.
Whisper on koulutettu yli puolen miljoonan tunnin monikielisellä ääniaineistolla, joka kattaa useita tehtävätyyppejä. Sen avoimen lähdekoodin malli on melunkestävä, ymmärtää aksentteja ja selviytyy teknisestäkin kielestä. Sen kompakti koko ja suorituskyvyn optimointi mahdollistavat sen ajamisen sulautetuissa laitteissa.
Optimointi sulautetuille laitteille
Trian tiimi käytti kvantisointia vähentääkseen mallin prosessointikuormaa. Usein tekoälymallit koulutetaan ja ajetaan liukulukuaritmetiikalla, mutta i.MX95:n kaltaiset prosessorit tukevat rinnakkaista laskentaa kokonaisluvuilla. Muuntamalla parametrit 8-bittisiksi kokonaisluvuiksi (int8), saadaan suuria nopeusparannuksia ja muistinkäytön vähenemistä, mikä vähentää myös energiankulutusta. Kvantisointi mahdollisti prosessointiajan lyhentämisen 10 sekunnista 1,2 sekuntiin. Koska robottien käskyt ovat usein lyhyitä, myös äänikontekstin pituus lyhennettiin 30 sekunnista alle kahteen sekuntiin.
Whisperin tuottaman tekstin merkityksen ymmärtäminen vaatii isompaa mallia, joka on sovitettu kyseiseen käyttötarkoitukseen. Tällaiset LLM:t voivat vaatia miljardi tai enemmän parametreja, mutta niiden kokoa voidaan pienentää huolellisella hienosäädöllä. Tria arvioi avoimen lähdekoodin Qwen- ja Llama3-malleja, alkaen miljardin parametrin versioista. Tärkeä kompromissi on se, kuinka monta tokenia malli pystyy tuottamaan sekunnissa. Esimerkiksi Qwenin 500 miljoonan parametrin versio toimii yli kaksi kertaa nopeammin i.MX-alustalla kuin miljardin version.
500 miljoonan parametrin malli voi tarjota hyvän toiminnallisuuden, kun se on hienosäädetty tarkasti. Tekoälykehittäjät voivat käyttää palvelinperusteista LLM:ää tuottamaan suurimman osan opetusaineistosta synteettisesti, mikä säästää paljon aikaa verrattuna käsin tehtyyn aineiston luontiin ja merkintään.
Integroinnin helpottamiseksi Yocto-pohjaisella alustalla tiimi käytti arkkitehtuuria, joka rakentuu tilakoneen ympärille. MQTT-välittäjä välittää viestejä eri mallien ja muiden järjestelmän osien, kuten kameran ja 3D-avatarin, välillä. Avatar hyödyntää sirun sisäistä GPU:ta. Toiminnan varmistamiseksi prosessorilla pyörii vahtikoirasäie (watchdog thread), joka tarkistaa onko puheentunnistus valmis tietyssä ajassa, ja tarvittaessa laukaisee lauseen “voitko toistaa?”
Generatiivisen tekoälyn seuraava aalto
Puheesta puheeksi -tekoäly on vasta alku. Kehittyneemmät multimodaaliset kielimallit ovat jo tutkimuskäytössä kouluttamassa robotteja liikkumaan ja käsittelemään esineitä paremmin. Tutkimustiimit käyttävät vahvistusoppimista ja multimodaalisia malleja ylittääkseen perinteisten säätöalgoritmien rajoitukset. Toiset perusmallit, jotka keskittyvät päättelykykyyn, mahdollistavat kartattoman navigoinnin, autonomiset päätökset ja strategioiden kokoamisen olemassa olevista osaprosesseista.
Näiden mallien lisäoptimointi mahdollistaa niiden ajamisen tulevaisuudessa vähävirtaisilla alustoilla. Jo nyt robottisuunnittelijat voivat rakentaa järjestelmiä, joita voi käskeä puheella – ja jotka voivat osoittaa ymmärtäneensä annetun tehtävän.

Artikkelin kirjoittaja Jim Beneke toimii Tria Technologiesin Pohjois-Amerikan toiminnoista vastaavana johtajana. Hänellä on yli 30 vuoden ura elektroniikan ja sulautettujen järjestelmien parissa. Avnetilla hän ehti toimia erilaisissa globaaleissa teknisissä markkinointitehtävissä jo vuodesta 2003 aina viime vuoteen asti, jolloin Avnet Embedded muuttui Triaksi. Beneke on tunnettu asiantuntemuksestaan uusien teknologioiden kehityksessä ja kaupallistamisessa.












