Kajaanissa CSC:n tiloissa majailevaa LUMI-supertietokonetta on käytetty Turun yliopiston ja Silo AI:n kehittämiin suuriin kielimalleihin kuten Poro ja Viking. CSC:n tekoälypalvelujen kehittämisestä vastaava Aleksi Kallio kertoi ECF24-tapahtumassa, miten suuria kielimalleja koulutetaan supertietokoneella.

LLM-mallin koulutus on raskasta rinnakkaislaskentaa. LUMI-koneella on 2978 GPU-solmua, joissa jokaisessa on neljä AMD Instinct MI250X-prosessoria. Koska piirit ovat kaksiytimisiä, GPU-prosessoreita on käytössä yhteensä 24 tuhatta kappaletta.

Ensimmäinen LUMI-koneen laskema suomalainen kielimalli oli TurkuNLP:n FINGPT3, joka valmistui tammikuussa 2023. Se koulutettiin täysin suomalaisella materiaalilla, Aleksi Kallion mukaan käytännössä kaikella suomalaisella tekstillä, mikä oli käytettävissä. Sen sijaan yhteistyössä Silo AI:n kanssa kehitetty Poro kehitettiin pääosin englanninkielisellä datasarjoilla, jotka yhdistettiin suomalaiseen dataan.

- Englanninkielistä tekstiä on paljon enemmän, joten malli voitiin rakentaa yhdistämällä näitä kieliä. Itse asiassa englanninkielen käyttäminen paransi Poroa, sillä englanninkielessä on enemmän ymmärrystä siitä, miten käsitteet toimivat ja miten maailman toimii.

Poro on jo tavallaan historiaa ja TurkuNLP ja Silo AI työskentelevät Viking-mallin parissa. - VIkign ymmärtää kaikkia viittä pohjoismaista kieltä, englantia ja ohjelmistokoodia. Mallista on koulutettu erikokoisia versioita (7, 13 ja 33 miljardia parametria), Kallio kertoi.

LUMI-superkoneella on koulutettu myös amerikkalaisen Allen-instituutin OLMo-kielimalli, joka on 7 miljardin parametrin malli lähinnä tieteellisten tekstien analyysiin.

Miten LLM-malleja sitten koulutetaan? Malleja koulutetaan ennustamaan haluttu tuotos käyttäjän antamasta syötteestä eli promptista. Mallin esikoulutuksessa muutamia miljardeja - satoja miljardeja parametreja sisältävään neuraaliverkkoon syötetään biljoonia tokeneita - karkeasti ottaen sanoja, Kallio muistuttaa.

Malli ymmärtää myös käsitteitä kuten ajan ja tilan. - Ei voi sanoa, että malli ymmärtäisi maailmaa, mutta sillä on käytössään jonkinlainen malli siitä.

Tämä esikouluttaminen on niin laskentaintensiivinen prosessi, että se voidaan tehdä vain supertietokoneella. Näin saatua mallia viritetään pienemmällä datasarjalla, jotta se oppii noudattamaan sille laadittuja sääntöjä. Tämäkin tehdään yleensä superkoneilla.

Niinpä Poro-mallin koulutukseen kläytettiin 32 miljardia suomen kielen sanaa (tokenia), 500 miljardia tokenia englannin kieltä ja 200 miljardia tokenia ohjelmistokoodia. Data näytteistettiin niin, että suomenkielisten tokeneiden rooli korostui.

Tulokset ovat hyvin. Suomen kielessä Poro 34B on selvästi etevämpi kuin suurin piirtein samankokoinen Llama 33B ja selvästi muita avoimia malleja parempi. Englannin kielessäkin Poro pärjää kohtuullisesti, vaikka jääkin Llaman ja parin muun taakse. - Myös ohjelmakoodissa Poro pärjää hyvin, paremmin kuin Llama ja lähes yhtä hyvin kuin ohjelmakoodiin kehitetty Starcoder-malli. Erityisen hyvin Poro suoriutuu käännöksissä englannista suomeen, jopa paremmin kuin OpenAI:n GPT4.

Aleksi Kallion esitys näkyy ECF-tapahtuman Youtube-kanavalla. Esityskalvot löytyvät täältä

 

 

ETNtv

Watch ECF videos

Tekoälyn avulla robotteja voidaan ohjata puheella

ETN - Technical article

Generatiivisen tekoälyn vallankumous, joka tuo chatbotit asiakaspalveluun ja mahdollistaa älykaiuttimien kaltaiset laitteet, on vasta alkua. Sama teknologia, joka ymmärtää ihmisten puhetta, siirtyy nyt robotiikkaan, missä se auttaa kehittämään algoritmeja robottien liikkeiden ohjaamiseen ja politiikkojen toteuttamiseen tärkeiden tehtävien suorittamiseksi.

Lue lisää...

SOM-ratkaisut ovat lääketieteellisen elektroniikan luotettava tulevaisuus

Lääketieteellinen elektroniikka on yksi nopeimmin kasvavista teollisuudenaloista. Väestön ikääntyminen, erityisesti länsimaissa, ja terveydenhuollon teknologioiden jatkuva kehitys pitävät yllä kovaa kysyntää ja ohjaavat alan tutkimus- ja tuotekehitystä, kirjoittaa Digi Internationalin OEM-ratkaisuista Euroopassa vastaava johtaja Ronald Singh.

Lue lisää...

LATEST NEWS

NEW PRODUCTS

 

NEWSFLASH

 SPONSORS

 

Etteplan supports customers cross industries in digitalizing their business from requirement specifications to solution development and implementation. With over 30 years of experience, Etteplan has the needed expertise to develop a wide range of industrial applications, from large established companies to start-ups. We deliver complete turn-key solutions containing cross-discipline know-how.

 

CN Rood offers technical solutions in the field of testing and measurement. We aim to remain leaders in that regard. Our customers are often not looking for a product, but for a solution, and we all have the drive to work on that solution. What we love to do most is to continually work on the latest developments in the field of testing and measuring equipment. Now and in the future.

 


EBV Elektronik was founded in 1969 and is one of the leading specialists in European semiconductor distribution. This success is based on the underlying company philosophy, which was developed a long time ago and which still applies today: operational excellence, flexibility, reliability and execution – with the goal of achieving the highest degree of customer satisfaction.

 

Tria is a world leader in the design and manufacture of embedded computing for OEMs. We offer a broad range of off-the-shelf modules to fully customized systems built for our customers. With a global footprint and deep in-house expertise, we support innovators from design to delivery.

congatec is a rapidly growing technology company focusing on embedded and edge computing products and services. The high-performance computer modules are used in a wide range of applications and devices in industrial automation, medical technology, robotics, telecommunications and many other verticals.

 

Mespek was founded in 1989. Our main products are embedded electronic modules, industrial PCs with peripherals, KVM and server management products, as well as wireless solutions for IoT applications.

 

Since 1985, Digi International Inc. (Digi) has been a pioneer in wireless communication, forging the future for connected devices and responding to the needs of the people and enterprises that use them.

 

CVG Convergens is an ICT services company specialized in embedded systems, smart connected products and ICT systems and processes for SME businesses. Our mission is to help our clients, our team, and the society to improve and thrive by providing reliable and sustainable solutions, services, and products by creative and efficient application of technology.

 

BCC Solutions Oy is a Finnish company that, in addition to expert services, offers comprehensive equipment solutions for data transfer and telecommunication networks, as well as their analysis, testing and measurement. We broadly represent the industry's leading brands.

 

Acal BFi has trusted expertise in advanced electronics for 50 years. If you’re in search of a trusted technology solutions partner, your search ends here. Our extensive knowledge, cutting-edge portfolio, and worldwide capabilities are at your service to bring the future into reality.

 





ECF template