Amazonin pilvipalvelu AWS ilmoittaa, että sen asiakkaat pääsevät nyt hyötymään Nvidian tämän hetken tehokkaimmista GPU-prosessoreista. Käytännössä tämä tarkoittaa Nvidia H200 Tensor -ytimiä.
Kyse ei ole aivan mistä tahansa suorittimesta. H200 Tensor Core GPU on tekoälyn ja HCP- laskennan työkuormiin suunniteltu grafiikkaprosessori. Se tarjoaa 141 gigatavua HBM3e-muistia ja 4,8 TB/s kaistanleveyttä datansiirtelyyn.
H200-prosessorin hinnan arvioidaan olevan noin 25 000 - 35 000 dollaria prosessoria kohti. AWS tarjoaa tätä tehoa osana uusia EC2 P5e -instanssejaan ja yhdessä instanssissa asiakkaan käytössä on 8 kappaletta näitä tehoprosessoreita. Tämä tarkoittaa yhteensä 1128 gigatavua muistikapasiteettia ja 30 tetratavua paikallista tallennustilaa. Kokonaiskaista nousee 3200 gigabittiin sekunnissa.
Asiakkaiden kannalta tämä tarkoittaa parempaa suorituskykyä vaikkapa omien GenAI-sovellusten prosessoinnissa. Suurten kielimallien (LLM) koko parametrien lukumäärällä mitattuna on kasvanut eksponentiaalisesti viime vuosina. Mallien koot ovat kasvaneet miljardeista parametreista satoihin miljardeihin parametreihin viiden vuoden aikana. Kun LLM:t ovat kasvaneet, niiden suorituskyky monissa luonnollisen kielen prosessointitehtävissä on myös parantunut merkittävästi, mutta LLM:ien kasvanut koko on johtanut merkittäviin laskennallisiin ja resurssihaasteisiin.
Suuremmat LLM:t vaativat enemmän GPU-muistia malliparametrien ja välilaskutoimien tallentamiseen sekä suurempaa laskentatehoa matriisikertolaskujen ja muiden päättelyyn tarvittavien toimintojen suorittamiseen. Suuret LLM:t vievät kauemmin suorittaakseen yhden päättelyn tämän lisääntyneen laskennan monimutkaisuuden vuoksi. Tämä lisääntynyt laskentavaatimus voi johtaa korkeampaan päättelyviiveeseen, mikä on kriittinen tekijä sovelluksissa, jotka vaativat reaaliaikaisia tai lähes reaaliaikaisia vastauksia.
Ensi vaiheessa AWS tuo uudet EC2 P5e -instanssit asiakkaidensa käyttöön USA.n itäisellä alueella (US East Region).
.