Jos laitevalmistajilta kysyy, tietokoneiden kaatuminen johtuu joko käyttöjärjestelmän vioista tai vaikkapa nettiselaimesta. Toronton yliopiston tutkijat ovat kuitenkin selvittäneet, että useimmin kaatuminen johtuu viallisesta raudasta. DRAM-muistin ongelmat ovat syynä siihen, että Googlenkin palvelimet kaatuvat.
Toronton yliopiston tutkijat Ioan Stefanovici, Andy Hwang ja Bianca Schroeder ovat tutkineet DRAM-muistien vikojen syitä. He kertovat löydöksistään IEEE Spectrum -lehdessä. Tulokset ovat monella tapaa yllättäviä.
Tutkijat keräsivät tietoa suurten tutkimuskeskusten palvelimista sekä Googlen ja Amazonin kaltaisten yritysten järjestelmistä. Esimerkiksi Los Alamosin kansallislaboratoriossa 60 prosenttia järjestelmien kaatumiista johtui laitevioista. Yleinen syy raudan pettämiselle on DRAM-muisti.
DRAM-piirin muistisolu koostuu kondensaattorista ja transistorista. Kondensaattorin varaaminen ja purkaminen tallentaa bitin. Varaustila pitää virkistää solussa useita kertoja sekunnissa, koska muuten tieto bitistä katoaa. Siitä tulee muistin nimikin: dynaaminen.
Tutkijoiden mukaan DRAM-virhe tapahtuu, kun bittejä luetaan solusta eri tavalla kuin ne kirjoitetaan. Perusläppäreissä tätä vastaan ei ole suojausta, mutta palvelimissa käytetään virheenkorjausta (ECC, error-correcting code).
Suojauksesta huolimatta tilastot osoittavat, että 12-45 prosenttia Googlen palvelimista kokee vähintään yhden DRAM-virheen vuodessa. Vaikka Google käyttää edistyneimpiä menetelmiä virheiden estämiseen, 0,2-4 prosenttia sen palvelimista kaatuu joka vuosi DRAM-virheiden takia.
Luvut ovat paljon suurempi kuin on aiemmin arvioitu. Lohduttavaa on se, että palvelimet eivät tilastollisesti kaadu kovin usein. Ja jos Google-haun tekijän tulos hieman kestää, sen yleensä sietää.
Tutkijoiden mukaan DRAM-piireissä on tutkittu nimenomaan ns. softavirheitä, joissa bitti luetaan eri tavoin kuin se on kirjoitettu. Myös rautavirheitä esiintyy, joissa solun bitti on pysyvästi jumiutunut ykköseksi tai nollaksi.