ETN - Technical article

Generatiivisen tekoälyn vallankumous, joka tuo chatbotit asiakaspalveluun ja mahdollistaa älykaiuttimien kaltaiset laitteet, on vasta alkua. Sama teknologia, joka ymmärtää ihmisten puhetta, siirtyy nyt robotiikkaan, missä se auttaa kehittämään algoritmeja robottien liikkeiden ohjaamiseen ja politiikkojen toteuttamiseen tärkeiden tehtävien suorittamiseksi.

Artikkelin kirjoittaja Jim Beneke toimii Tria Technologiesin Pohjois-Amerikan toiminnoista vastaavana johtajana. Hänellä on yli 30 vuoden ura elektroniikan ja sulautettujen järjestelmien parissa. Avnetilla hän ehti toimia erilaisissa globaaleissa teknisissä markkinointitehtävissä jo vuodesta 2003 aina viime vuoteen asti, jolloin Avnet Embedded muuttui Triaksi. Beneke on tunnettu asiantuntemuksestaan uusien teknologioiden kehityksessä ja kaupallistamisessa.

Robotit siirtyvät nyt alueille, joissa ne eivät enää kommunikoi vain käyttäjien, vaan myös yleisön kanssa. Generatiivinen tekoäly voi parantaa käytettävyyttä merkittävästi tarjoamalla puheohjauksen ja -palautteen. Liikkuva robotti hotellissa tai sairaalassa voi ohjata ihmisiä oikeaan paikkaan tai kuljettaa aterioita. Sisäänrakennettu puheesta puheeseen -järjestelmä mahdollistaa kysymysten esittämisen ja tarkkojen vastausten saamisen. Vastaavasti joukkoliikenteessä avustavat robotit voivat ohjata näkörajoitteisia oikeaan suuntaan.

Teollisissa sovelluksissa, kuten hitsauksessa ja kiinnityksessä, robotti voi totella suullisia käskyjä ja vahvistaa niiden ymmärtämisen. Robottia voi esimerkiksi käskeä siirtämään raskaan paneelin paikalleen, suorittamaan hitsauksen ja kiinnityksen ja siirtämään sen seuraavaan vaiheeseen. Lääketieteellisissä tilanteissa robotti voi ojentaa lääkärille tarvittavan instrumentin ilman, että tämä joutuu koskemaan näyttöön tai näppäimistöön ja vaarantamaan steriiliyttä.

Puheesta puheeksi -järjestelmät

Monet nykyiset kuluttajatason puheesta puheeksi -järjestelmät käyttävät pilvipalveluja. Robotiikassa tällainen viive ei usein ole hyväksyttävää. Lisäksi teolliset ja maatalouskäytöt voivat sijaita kaukana nopeista verkkoyhteyksistä. Tällöin tarvitaan tehokkaita tekoälymalleja, jotka voidaan suorittaa sulautetuilla alustoilla.

Aiemmin paikallisesti ajettavat tekoälymallit olivat kalliita ja virtasyöppöjä. Tämä ei enää pidä paikkaansa. Tria kehitti järjestelmiä nykyaikaisella NXP i.MX95 -sovellusprosessorilla, jotka osoittavat, kuinka puheesta puheeseen -generatiivinen tekoäly voidaan siirtää vähävirtaiselle laitteistolle ilman erillisen GPU:n energiakustannuksia. i.MX95-prosessori yhdistää kehittyneen Arm-moniydinsuorittimen, sisäisen grafiikkaprosessorin (GPU), tekoälykiihdytyksen (NXP eIQ Neutron) sekä tehokkaan I/O- ja muistiohjauksen.

Sulautetuissa sovelluksissa tekoälyn toteutuksessa on tärkeää valita mallit, jotka tarjoavat parhaan tasapainon tehonkulutuksen, muistin ja tarkkuuden välillä. Periaatteessa generatiivista mallia voisi käyttää päästä päähän, mutta usein se ei ole tarpeen. Tria kokeili erilaisia vaihtoehtoja puheesta puheeseen -prosessin eri vaiheisiin.

Prosessi alkaa ihmisen antamien komentojen tunnistamisesta. Tämä vaihe on hyvä toteuttaa vähävirtaisella algoritmilla, koska sen täytyy olla jatkuvasti aktiivinen, jotta komentoja ei jää huomaamatta. Yksinkertaisin ratkaisu on äänenvoimakkuuden havainnointi – mikrofonin signaalia verrataan taustameluun. Vaikka tämä on kevyt menetelmä, se antaa liikaa vääriä hälytyksiä. Parempi vaihtoehto on Silero-puheaktivaatiomalli, joka perustuu konvoluutioneuroverkkoon (CNN) ja tarjoaa laadukkaan tuloksen pienellä kuormituksella.

Puheesta tekstiksi

Vastaavasti tuotoksessa Piper-tekstistä puheeksi -malli osoittautui tehokkaaksi kokoonsa, prosessorivaatimuksiinsa ja muistinkäyttöönsä nähden. Näiden kahden vaiheen välissä generatiivinen tekoäly tuo suurimmat hyödyt. Useimmat nykyisin käytössä olevat generatiiviset mallit on kehitetty käsittelemään luonnollista kieltä. Suuret kielimallit (LLM:t) hyödyntävät ihmiskielen tilastollista rakennetta. Sanat ja fraasit pilkotaan "tokeneiksi" eli merkkijonoiksi, jotka sijoitetaan moniulotteiseen vektoriavaruuteen niin, että merkitykseltään lähellä olevat sanat asettuvat toistensa viereen. Tämä selittää myös mallien tehokkuuden kielikäännöksissä.

LLM yhdistää vektorikuvauksen neuroverkkoon, joka perustuu Transformer-arkkitehtuuriin. Tämä hyödyntää huomio-mekanismia (attention) löytääkseen yhteyksiä sanojen välillä ja tuottaakseen johdonmukaisia vastauksia. Hyvä puoli koulutusprosessissa on, että raskain vaihe eli esikoulutus ei vaadi valmiiksi merkittyä dataa. Malli oppii sanojen välisiä yhteyksiä itsenäisesti. Toisessa vaiheessa, hienosäädössä, mallia opetetaan tietyn tehtävän suorittamiseen merkittyjen esimerkkien avulla. OpenAI:n Whisper on esimerkki mallista, joka on hienosäädetty puheen muuntamiseen tekstiksi.

Whisper on koulutettu yli puolen miljoonan tunnin monikielisellä ääniaineistolla, joka kattaa useita tehtävätyyppejä. Sen avoimen lähdekoodin malli on melunkestävä, ymmärtää aksentteja ja selviytyy teknisestäkin kielestä. Sen kompakti koko ja suorituskyvyn optimointi mahdollistavat sen ajamisen sulautetuissa laitteissa.

Optimointi sulautetuille laitteille

Trian tiimi käytti kvantisointia vähentääkseen mallin prosessointikuormaa. Usein tekoälymallit koulutetaan ja ajetaan liukulukuaritmetiikalla, mutta i.MX95:n kaltaiset prosessorit tukevat rinnakkaista laskentaa kokonaisluvuilla. Muuntamalla parametrit 8-bittisiksi kokonaisluvuiksi (int8), saadaan suuria nopeusparannuksia ja muistinkäytön vähenemistä, mikä vähentää myös energiankulutusta. Kvantisointi mahdollisti prosessointiajan lyhentämisen 10 sekunnista 1,2 sekuntiin. Koska robottien käskyt ovat usein lyhyitä, myös äänikontekstin pituus lyhennettiin 30 sekunnista alle kahteen sekuntiin.

Whisperin tuottaman tekstin merkityksen ymmärtäminen vaatii isompaa mallia, joka on sovitettu kyseiseen käyttötarkoitukseen. Tällaiset LLM:t voivat vaatia miljardi tai enemmän parametreja, mutta niiden kokoa voidaan pienentää huolellisella hienosäädöllä. Tria arvioi avoimen lähdekoodin Qwen- ja Llama3-malleja, alkaen miljardin parametrin versioista. Tärkeä kompromissi on se, kuinka monta tokenia malli pystyy tuottamaan sekunnissa. Esimerkiksi Qwenin 500 miljoonan parametrin versio toimii yli kaksi kertaa nopeammin i.MX-alustalla kuin miljardin version.

500 miljoonan parametrin malli voi tarjota hyvän toiminnallisuuden, kun se on hienosäädetty tarkasti. Tekoälykehittäjät voivat käyttää palvelinperusteista LLM:ää tuottamaan suurimman osan opetusaineistosta synteettisesti, mikä säästää paljon aikaa verrattuna käsin tehtyyn aineiston luontiin ja merkintään.

Integroinnin helpottamiseksi Yocto-pohjaisella alustalla tiimi käytti arkkitehtuuria, joka rakentuu tilakoneen ympärille. MQTT-välittäjä välittää viestejä eri mallien ja muiden järjestelmän osien, kuten kameran ja 3D-avatarin, välillä. Avatar hyödyntää sirun sisäistä GPU:ta. Toiminnan varmistamiseksi prosessorilla pyörii vahtikoirasäie (watchdog thread), joka tarkistaa onko puheentunnistus valmis tietyssä ajassa, ja tarvittaessa laukaisee lauseen “voitko toistaa?”

Generatiivisen tekoälyn seuraava aalto

Puheesta puheeksi -tekoäly on vasta alku. Kehittyneemmät multimodaaliset kielimallit ovat jo tutkimuskäytössä kouluttamassa robotteja liikkumaan ja käsittelemään esineitä paremmin. Tutkimustiimit käyttävät vahvistusoppimista ja multimodaalisia malleja ylittääkseen perinteisten säätöalgoritmien rajoitukset. Toiset perusmallit, jotka keskittyvät päättelykykyyn, mahdollistavat kartattoman navigoinnin, autonomiset päätökset ja strategioiden kokoamisen olemassa olevista osaprosesseista.

Näiden mallien lisäoptimointi mahdollistaa niiden ajamisen tulevaisuudessa vähävirtaisilla alustoilla. Jo nyt robottisuunnittelijat voivat rakentaa järjestelmiä, joita voi käskeä puheella – ja jotka voivat osoittaa ymmärtäneensä annetun tehtävän.

ETNtv

Watch ECF videos

Tekoälyn avulla robotteja voidaan ohjata puheella

ETN - Technical article

Generatiivisen tekoälyn vallankumous, joka tuo chatbotit asiakaspalveluun ja mahdollistaa älykaiuttimien kaltaiset laitteet, on vasta alkua. Sama teknologia, joka ymmärtää ihmisten puhetta, siirtyy nyt robotiikkaan, missä se auttaa kehittämään algoritmeja robottien liikkeiden ohjaamiseen ja politiikkojen toteuttamiseen tärkeiden tehtävien suorittamiseksi.

Lue lisää...

SOM-ratkaisut ovat lääketieteellisen elektroniikan luotettava tulevaisuus

Lääketieteellinen elektroniikka on yksi nopeimmin kasvavista teollisuudenaloista. Väestön ikääntyminen, erityisesti länsimaissa, ja terveydenhuollon teknologioiden jatkuva kehitys pitävät yllä kovaa kysyntää ja ohjaavat alan tutkimus- ja tuotekehitystä, kirjoittaa Digi Internationalin OEM-ratkaisuista Euroopassa vastaava johtaja Ronald Singh.

Lue lisää...

LATEST NEWS

NEW PRODUCTS

 

NEWSFLASH

 SPONSORS

 

Etteplan supports customers cross industries in digitalizing their business from requirement specifications to solution development and implementation. With over 30 years of experience, Etteplan has the needed expertise to develop a wide range of industrial applications, from large established companies to start-ups. We deliver complete turn-key solutions containing cross-discipline know-how.

 

CN Rood offers technical solutions in the field of testing and measurement. We aim to remain leaders in that regard. Our customers are often not looking for a product, but for a solution, and we all have the drive to work on that solution. What we love to do most is to continually work on the latest developments in the field of testing and measuring equipment. Now and in the future.

 


EBV Elektronik was founded in 1969 and is one of the leading specialists in European semiconductor distribution. This success is based on the underlying company philosophy, which was developed a long time ago and which still applies today: operational excellence, flexibility, reliability and execution – with the goal of achieving the highest degree of customer satisfaction.

 

Tria is a world leader in the design and manufacture of embedded computing for OEMs. We offer a broad range of off-the-shelf modules to fully customized systems built for our customers. With a global footprint and deep in-house expertise, we support innovators from design to delivery.

congatec is a rapidly growing technology company focusing on embedded and edge computing products and services. The high-performance computer modules are used in a wide range of applications and devices in industrial automation, medical technology, robotics, telecommunications and many other verticals.

 

Mespek was founded in 1989. Our main products are embedded electronic modules, industrial PCs with peripherals, KVM and server management products, as well as wireless solutions for IoT applications.

 

Since 1985, Digi International Inc. (Digi) has been a pioneer in wireless communication, forging the future for connected devices and responding to the needs of the people and enterprises that use them.

 

CVG Convergens is an ICT services company specialized in embedded systems, smart connected products and ICT systems and processes for SME businesses. Our mission is to help our clients, our team, and the society to improve and thrive by providing reliable and sustainable solutions, services, and products by creative and efficient application of technology.

 

BCC Solutions Oy is a Finnish company that, in addition to expert services, offers comprehensive equipment solutions for data transfer and telecommunication networks, as well as their analysis, testing and measurement. We broadly represent the industry's leading brands.

 

Acal BFi has trusted expertise in advanced electronics for 50 years. If you’re in search of a trusted technology solutions partner, your search ends here. Our extensive knowledge, cutting-edge portfolio, and worldwide capabilities are at your service to bring the future into reality.

 





ECF template