Tekoälyä hyvin pienellä virralla

ADVERTISE SUBSCRIBE TECHNICAL ARTICLES EVENTS ETNdigi ABOUT US CONTACT

May # TME square

TMSNet advertisement

ETNdigi

A la carte

TECHNICAL ARTICLES Tekoälyä hyvin pienellä virralla Tietoja Kirjoittanut Veijo Ojanperä Julkaistu: 13.05.2024 Devices Embedded Artificial Intelligence Renesas on kehittänyt RZ/V2H:n, ainutlaatuisen tekoälyprosessorin, joka yhdistää päätepisteiden vaatiman pienen tehon ja joustavuuden. Siinä on prosessointitehoa tekoälymallien karsimiseen, ja se on myös 10 kertaa tehokkaampi kuin aikaisemmat tuotteet. Kirjoittaja Shingo Kojima, Renesas Electronics Kun työväestö vähenee syntyvyyden laskun ja kasvavan ikääntyneiden osuuden vuoksi, tarvitaan kehittynyttä tekoälyn (AI) prosessointia, kuten ympäröivän ympäristön tunnistamista, toimintapäätöstä ja liikkeenhallintaa eri osissa yhteiskuntaa: tehtaissa, logistiikassa, sairaanhoidossa, kaupungissa toimivissa palveluroboteissa ja turvakameroissa. Järjestelmä on sulautettava laitteisiin, jotta se pystyy reagoimaan nopeasti jatkuvasti muuttuvaan ympäristöön. AI-sirujen on kulutettava vähemmän virtaa, jotta ne eivät tuota liikaa lämpöä. Vastatakseen näihin markkinoiden tarpeisiin Renesas kehitti DRP-AI3:n. Piiri on dynaamisesti uudelleenkonfiguroitava prosessori nopeaan AI-päätelmien käsittelyyn, jossa yhdistyy pieni teho ja reunalaitteiden edellyttämä joustavuus. Tämä uudelleen konfiguroitava AI-kiihdytinprosessoritekniikka, jota on viljelty useiden vuosien ajan, on sulautettu tekoälysovelluksiin suunnattujen MPU-prosessorien RZ/V-sarjaan. Tässä artikkelissa esitellään, kuinka RZ/V2H ratkaisee lämmöntuotantoon liittyvät haasteet, mahdollistaa suuren reaaliaikaisen käsittelynopeuden ja parantaa tekoälyllä varustettujen tuotteiden suorituskykyä ja vähentää virrankulutusta. Alla ETNdigi-lehden numerossa 1/2024 ilmestynyt artikkeli kokonaisuudessaan. RUN AI MODELS WITH VERY LOW POWER As the working population decreases due to falling birthrates and a growing proportion of the population being elderly, advanced artificial intelligence (AI) processing, such as recognition of the surrounding environment, decision of actions, and motion control, will be required in various aspects of society, including factories, logistics, medical care, service robots operating in the city, and security cameras. Systems will need to handle advanced artificial intelligence (AI) processing in real time in various types of programs. In particular, the system must be embedded within the device to enable a quick response to its constantly changing environment. AI chips need to consume less power while performing advanced AI processing in embedded devices with strict limitations on heat generation. To meet these market needs, Renesas developed DRP-AI3 (Dynamically Reconfigurable Processor for AI3) as an AI accelerator for high-speed AI inference processing combining low power and flexibility required by the edge devices. This reconfigurable AI accelerator processor technology, cultivated over many years, is embedded in the RZ/V series of MPUs targeted at AI applications. The RZ/V2H is able to respond to the further evolution of AI and the sophisticated requirements of these applications. This article introduces how the RZ/V2H solves heat generation challenges, enables high real-time processing speed, and realizes higher performance and lower power consumption for AI-equipped products. RZ/V2H is a new high-end product of the RZ/V series, achieving power efficiency approximately 10 times higher than that of the previous products. The RZ/V2H is able to respond to the further evolution of AI and the sophisticated requirements of applications such as robots. This article introduces how the RZ/V2H solves heat generation challenges, enables high real-time processing speed, and realizes higher performance and lower power consumption for AI-equipped products. EFFICIENT PROCESSING OF AI MODELS As a typical technology for improving AI processing efficiency, pruning is available to omit calculations that do not significantly affect recognition accuracy. However, it is common that calculations that do not affect recognition accuracy randomly exist in AI models. This causes a difference between the parallelism of hardware processing and the randomness of pruning, which makes processing inefficient. To solve this issue, Renesas optimized its unique DRP-based AI accelerator (DRP-AI) for pruning. By analyzing how pruning pattern characteristics and a pruning method are related to recognition accuracy in typical image recognition AI models (CNN models), we identified the hardware structure of an AI accelerator that can achieve both high recognition accuracy and an efficient pruning rate, and applied it to the DRP-AI3 design. In addition, software was developed to reduce the weight of AI models optimized for this DRP-AI3. This software converts the random pruning model configuration into highly efficient parallel computing, resulting in higher-speed AI processing. In particular, Renesas' highly flexible pruning support technology (flexible N:M pruning technology), which can dynamically change the number of cycles in response to changes in the local pruning rate in AI models, allows for fine control of the pruning rate according to the power consumption, operating speed, and recognition accuracy required by users. Figure 1: Flexible Dynamically Reconfigurable Processor (DRP) Features. Heterogeneous Architecture Features in which DRP-AI3, DRP, and CPUs Operate Cooperatively Multi-threaded and pipelined processing with AI accelerator(DRP-AI3), DRP, and CPUs Low jitter and high speed robot applications with DRP (dynamically reconfigurable wired logic hardware) Service robots, for example, require advanced AI processing to recognize the surrounding environment. On the other hand, algorithm-based processing that does not use AI is also required for deciding and controlling the robot's behavior. However, current embedded processors (CPUs) lack sufficient resources to perform these various types of processing in real time. Renesas solved this problem by developing a heterogeneous architecture technology that enables the dynamically reconfigurable processor (DRP), AI accelerator (DRP-AI3), and CPU to work together. As shown in Figure 1, the dynamically reconfigurable processor (DRP) can execute applications while dynamically switching the circuit connection configuration of the arithmetic units on the chip at each operating clock according to the content to be processed. Since only the necessary arithmetic circuits are used, the DRP consumes less power than with CPU processing and can achieve higher speed. Furthermore, compared to CPUs, where frequent external memory accesses due to cache misses and other causes will degrade performance, the DRP can build the necessary data paths in hardware ahead of time, resulting in less performance degradation and less variation in operating speed (jitter) due to memory accesses. The DRP also has a dynamic reconfigurable function that switches the circuit connection information each time the algorithm changes, enabling processing with limited hardware resources, even in robotic applications that require processing of multiple algorithms. The DRP is particularly effective in processing streaming data such as image recognition, where parallelization and pipelining directly improve performance. On the other hand, programs such as robot behavior decision and control require processing while changing conditions and processing details in response to changes in the surrounding environment. CPU software processing may be more suitable for this than hardware processing such as in the DRP. It is important to distribute processing to the right places and to operate in a coordinated manner. Renesas’ a heterogeneous architecture technology allows the DRP and CPU to work together. An overview of the MPU and AI accelerator (DRP-AI3) architecture is shown in Figure 2. Robotic applications use a sophisticated combination of AI-based image recognition and non-AI decision and control algorithms. Therefore, a configuration with a DRP for AI processing (DRP-AI3) and a DRP for non-AI algorithms will significantly increase the throughput of the robotic application. Figure 2: DRP-AI 3-based Heterogeneous Architecture Configuration. EVALUATION OF PROCESSING PERFORMANCE RZ/V2H equipped with this technology has achieved a maximum of 8 TOPS (8 trillion sum-of-products operations per second) for the processing performance of the AI accelerator. Furthermore, for AI models that have been pruned, the number of operation cycles can be reduced in proportion to the amount of pruning, thus achieving AI model processing performance equivalent to a maximum of 80 TOPS when compared to models before pruning. This is about 80 times higher than the processing performance of the previous RZ/V products, a significant performance improvement that can sufficiently keep pace with the rapid evolution of AI (Figure 3). Figure 3: Comparison of Measured Peak Performance of DRP-AI3. On the one hand, as AI processing speeds up, the processing time for algorithm-based image processing without AI, such as pre- and post-AI processing is becoming a relative bottleneck. In AI-MPUs, a portion of the image processing program is offloaded to the DRP, thereby contributing to the improvement of the overall system processing time. (Figure 4) Figure 4: Heterogeneous Architecture Speeds Up Image Recognition Processing (Measured by Test Chip). In terms of power efficiency, the performance evaluation of the AI accelerator demonstrated the world's top level power efficiency (approximately 10 TOPS per watt) when running major AI models. (Figure 5) Figure 5: Power Efficiency of Real AI Models (Measured by Test Chip). We also showed that the same AI real-time processing could be performed on an evaluation board equipped with the RZ/V2H, without a fan at temperatures comparable to competitor products equipped with fans. (Figure 6) Figure 6: Comparison of Heat Generation between a Fanless RZ/V2H Board and a GPU with Fan. EXAMPLES OF APPLICATIONS For example, SLAM (Simultaneously Localization And Mapping), one of the typical robot applications, has a complex configuration that requires multiple program processes for robot position recognition in parallel with environment recognition by AI processing. The Renesas DRP enables the robot to switch programs instantaneously, and parallel operation with an AI accelerator and CPU has proven to be about 17 times faster than CPU operation alone, and to reduce power consumption to 1/12 the level of CPU operation alone. CONCLUSIONS Renesas developed RZ/V2H, a unique AI processor that combines the low power and flexibility required by endpoints, with processing capabilities for pruning AI models, and 10 times more power efficient (10 TOPS/W) than the previous products. Renesas will release products in a timely manner responding to the AI evolution, which is expected to become increasingly sophisticated, and will contribute to deploy systems that respond to end-point products in a smart and real-time manner. MORE NEWS Donut Labin kenno ei juuri hengitä – mahdollistaa yksinkertaisemman akkupaketin Paljon otsikoissa ollut kiinteän elektrlyytin akkutekniikkaa kehittävä Dontu Lab julkaisi tänään uusimman videon I Donut Believe -sarjassaan. Kiinteän elektrolyytin akkujen yksi suurimmista ongelmista on ollut kennon voimakas turpoaminen ja kutistuminen latauksen aikana. Donut Labin mukaan sen solid-state -kenno käyttäytyy täysin toisin. Jopa 30 ampeeria 99 prosentin hyötysuhteella TDK on esitellyt uuden i9C-sarjan DC-DC-muuntimet, joiden hyötysuhde nousee parhaimmillaan jopa 99 prosenttiin. Kyse on erittäin korkeasta lukemasta 1500 watin teholuokassa. Tekoäly kutistaa puolijohdekirjastojen karakterisoinnin viikoista päiviin Siemensin EDA-osasto tuo Solido Characterizer -työkaluunsa tekoälykiihdytetyn karakterisoinnin, jolla standardisolukirjastojen generointi voidaan yhtiön mukaan nopeuttaa viikoista päiviin. Ratkaisu kohdistuu piirisuunnittelun työvaiheeseen, jonka kuormitus on nopeasti kasvamassa. Teollisuuden IT-projektit epäonnistuvat jo ennen ensimmäistä koodiriviä Useimmat teollisuuden IT-investoinnit eivät epäonnistu käyttöönotossa. Ne epäonnistuvat jo kuukausia aiemmin. Tyypillinen hetki on scoping-palaveri, jossa toimittaja esittelee 14 viikon käyttöönottoprojektin, eikä kukaan tuotannon, automaation tai integraatioiden asiantuntija pysäytä keskustelua kysymällä, mihin oletukset oikeasti perustuvat, kirjoittaa JBF Consultingin perustaja Brad Forester. Nokia haki radioverkkojen johtajan Siemensiltä Nokia on nimittänyt Emma Falckin Mobile Infrastructure -liiketoimintaryhmän johtajaksi ja johtoryhmän jäseneksi syyskuun alusta lähtien. Falck siirtyy Nokiaan Siemensiltä, jossa hän on viimeksi vastannut Smart Infrastructure Buildings -liiketoiminnan tuotteista. Suomen kvanttiguru ennustaa läpimurtoa ensi vuonna – Vuodesta 2027 alkaen odotamme kvanttilaskennan alkavan ratkaista todellisia teollisia ongelmia, ennustaa Aalto-yliopiston kvanttitekniikan professori ja sekä IQM Quantum Computers:n että QMill:in perustajiin kuuluva Mikko Möttönen. Nyt hänen kehittämänsä uudenlainen kryogeeninen anturi mahdollistaa kvanttitietokoneiden häiriöiden diagnosoinnin. Tekoäly tekee drooneista autonomisia tappajia Sodassa käytettävistä drooneista tulee lopulta täysin autonomisia robotteja. - Looginen ratkaisu on poistaa se linkki. Ei ole ohjaajaa, ei radiolinkkiä, ei ihmistä hyväksymässä päätöstä, sanoi nykyään droonien torjuntaan ratkaisuja kehittävän SensoFusionin tutkimusjohtajana työskentelevä Mikko Hyppönen Pikkuparlamentissa järjestetyssä droonikeskustelussa maanantaina. 8-bittisten seuraaja tuli varastoon – eikä paluuta enää ole Microchipin alkuvuonna esittelemä PIC32CM PL10 -mikro-ohjain on nyt tullut laajaan jakeluun Farnellin kautta. Kyse ei ole vain uudesta Cortex-M0+-piiristä, vaan paljon suuremmasta muutoksesta sulautettujen järjestelmien maailmassa. Tekoäly optimoi sähköauton pikalatauksen ja pidensi akun käyttöikää 23 prosenttia Chalmersin teknillisen korkeakoulun tutkijat ovat kehittäneet AI-pohjaisen pikalatausmenetelmän, joka mukautuu akun ikään ja kuntoon reaaliajassa. Simulaatioissa menetelmä pidensi litiumioniakun käyttöikää lähes neljänneksellä ilman käytännössä lainkaan pidempää latausaikaa. SATA-väylä ei kuollutkaan – Kingston myynyt 100 miljoonaa A400-levyä Vaikka tallennusmarkkinoiden huomio on viime vuodet keskittynyt PCIe- ja NVMe-SSD-levyihin, vanha SATA-väylä elää edelleen vahvasti massamarkkinoilla. Kingston Technology kertoo toimittaneensa jo yli 100 miljoonaa A400 SATA SSD -levyä maailmanlaajuisesti. Tekoäly pakottaa PCIe-väylän uuteen nopeusluokkaan PCIe 7.0 nostaa datakeskusten siirtonopeudet tasolle, jossa kellosignaalin vakaus mitataan jo femtosekunneissa. Diodes Incorporatedin uusi PCIe 7.0 -kellogeneraattori yltää alle 30 femtosekunnin jitteriin, vaikka uuden standardin maksimi on 67 femtosekuntia. AI-palvelimissa näin pienetkin heilahtelut voivat ratkaista, pysyykö 128 GT/s -linkki vakaana vai ei. AMD pakkaa jopa 4,6 petaflopsia tavalliseen PCIe-korttiin AMD tuo markkinoille Instinct MI350P -PCIe-kortin, joka on tarkoitettu tekoälyn inferenssiin olemassa olevissa palvelinympäristöissä. Ajatus on yrityksille houkutteleva, sillä kortin avulla AI-kiihdytyksen voi saada käyttöön ilman uusia nestejäähdytystä, uusia virtasyöttöjä tai kokonaan uusia GPU-palvelinalustoja. GaN-sota kiihtyy – USA löi kiinalaisvalmistajalle myyntikiellon Infineon Technologies on saanut merkittävän voiton pitkään jatkuneessa galliumnitridiin eli GaN-teknologiaan liittyvässä patenttikiistassa kiinalaista Innoscience vastaan. Rohde tuo 6G-keskustelun Pohjoismaihin kesäkuussa Rohde & Schwarz järjestää kesäkuussa Pohjoismaissa seminaarikiertueen, jonka teemana on ”5G Advanced and beyond, path to 6G”. Tapahtumat pidetään Oulussa, Espoossa, Tukholmassa ja Lundissa 9.–12. kesäkuuta. Pelkkä piiri ei enää riitä – Renesas osti konenäön AI-ohjelmistotalon Renesas vahvistaa edge AI -strategiaansa ostamalla kreikkalaisen Irida Labsin, joka kehittää sulautettuja Vision AI -ohjelmistoja. Kauppa kertoo siitä, että kilpailu älykkäissä kamera- ja konenäköjärjestelmissä siirtyy yhä enemmän kokonaisiin ohjelmisto- ja työkaluratkaisuihin pelkkien piirien sijaan. Generatiivinen tekoäly tulee nyt antureihin TDK yrittää ratkaista yhden edge-tekoälyn suurimmista ongelmista: datan puutteen. Yhtiön uusi SensorGPT-teknologia hyödyntää generatiivista tekoälyä, signaalinkäsittelyä ja fysiikkapohjaisia simulaatioita synteettisen sensoridatan luomiseen. Kuukausia kestänyt edge-AI-mallien kehitys voidaan lyhentää viikkoihin. Rakettitiede kehittää tapaa varmistaa AI-koodin laatu koneellisesti - Olemme tehneet itsekin kehitystyötä synnyttääksemme menetelmän, jolla AI:n tuottaman koodin laatu voitaisiin varmistaa koneellisesti ja vapauttaa ihminen koodikatselmoinnista luomaan uutta, sanoo Rakettitieteen toimitusjohtaja Juha Huttunen. AI tuottaa koodia nopeammin kuin sitä ehditään testata AI kiihdyttää ohjelmistokehitystä nopeammin kuin sitä ehditään enää testata. Ongelma ei kuitenkaan ole siinä, että kehittäjät liikkuisivat liian nopeasti. Ongelma on paljon perustavampi. Yksi osa ohjelmistokehityksestä on kiihtynyt dramaattisesti, mutta kaikki sitä valvovat rakenteet ovat jääneet lähes paikoilleen, kirjoittaa amerikkalaisen BotGauge AI:n perustaja ja toimitusjohtaja Pramin Pradeep. QMill lupaa kvanttiedun paljon odotettua aiemmin Kvanttilaskennan algoritmeja kehittävä suomalaisyhtiö QMill väittää voivansa nopeuttaa kvanttiedun saavuttamista jopa vuosilla. – Ala on pitkään ajatellut, että tarvitaan satoja tai tuhansia kubitteja ennen kuin kvanttikoneista saadaan käytännön hyötyä. Nyt näyttää siltä, että tietyissä ongelmissa kvanttietu voidaan saavuttaa paljon pienemmillä koneilla, sanoo QMillin tuotevastaava Janne Heikkinen ETN:lle. Tekoäly vetää, älypuhelimet ja PC:t laahaavat Tekoälydatakeskusten rakentaminen näkyy nyt suoraan puolijohdeteollisuuden perustassa eli piikiekoissa. Alan järjestö SEMI kertoo, että maailmanlaajuiset piikiekkotoimitukset kasvoivat vuoden ensimmäisellä neljänneksellä 13,1 prosenttia vuoden takaisesta. © Elektroniikkalehti		TECHNICAL ARTICLES Panther Lake tuo PC-tehon verkon reunalle Intel Core Ultra Series 3 tuo markkinoille Panther Lake -alustan, joka perustuu yhtiön uuteen 18A-prosessiin. CPU-, GPU- ja NPU-kiihdytyksen yhdistävä arkkitehtuuri tähtää korkean suorituskyvyn AI-PC:ihin ja teollisiin edge-järjestelmiin. Teksti perustuu Rutronikin artikkeliin uusimmassa ETNdigi-lehdessä. Lue lisää... OPINION Teollisuuden IT-projektit epäonnistuvat jo ennen ensimmäistä koodiriviä Useimmat teollisuuden IT-investoinnit eivät epäonnistu käyttöönotossa. Ne epäonnistuvat jo kuukausia aiemmin. Tyypillinen hetki on scoping-palaveri, jossa toimittaja esittelee 14 viikon käyttöönottoprojektin, eikä kukaan tuotannon, automaation tai integraatioiden asiantuntija pysäytä keskustelua kysymällä, mihin oletukset oikeasti perustuvat, kirjoittaa JBF Consultingin perustaja Brad Forester. Lue lisää... LATEST NEWS Donut Labin kenno ei juuri hengitä – mahdollistaa yksinkertaisemman akkupaketin Jopa 30 ampeeria 99 prosentin hyötysuhteella Tekoäly kutistaa puolijohdekirjastojen karakterisoinnin viikoista päiviin Teollisuuden IT-projektit epäonnistuvat jo ennen ensimmäistä koodiriviä Nokia haki radioverkkojen johtajan Siemensiltä NEW PRODUCTS Jopa 30 ampeeria 99 prosentin hyötysuhteella Bluetooth-moduuli tekee mikro-ohjaimesta turhan Sama virtalähde kelpaa nyt sairaalaan ja kotiin Vesitiivis USB-C piirikortille ilman lisäkokoonpanoa Kolmivaiheinen tuuletinohjaus ilman koodia