Oxfordin yliopiston tuore tutkimus paljastaa, miksi DNN-neuroverkot (deep neural networks), jotka muodostavat modernin tekoälyn perustan, ovat niin tehokkaita oppimaan dataa. Tutkimuksessa havaittiin, että neuroverkoilla on sisäänrakennettu "Occamin partaveitsi" -periaate.
Tämä tarkoittaa, että neuroverkot suosivat yksinkertaisimpia ratkaisuja, kun niille esitetään useita vaihtoehtoja, jotka sopivat opetusaineistoon. Erityistä tässä periaatteessa on, että se kompensoi tarkasti monimutkaisten ratkaisujen määrän eksponentiaalisen kasvun. Tutkimus on julkaistu Nature Communications -lehdessä.
Neuroverkot pystyvät tekemään tarkkoja ennusteita uusista, aiemmin näkemättömistä tiedoista, vaikka niiden parametreja on jopa miljoonia tai miljardeja enemmän kuin opetusaineiston datapisteitä. Tutkijat olettivat, että tämä edellyttää jonkinlaista sisäänrakennettua ohjausta, joka auttaa neuroverkkoja valitsemaan oikeat mallit, joihin keskittyä.
- Olimme jo aiemmin tietoisia siitä, että neuroverkkojen tehokkuus perustuu yksinkertaisuuteen painottuvaan induktiiviseen harhaan, eli eräänlaiseen Ockhamin partaveitseen. Mutta sen tarkkaa luonnetta ei ollut vielä ymmärretty, kertoi tutkimusta johtanut teoreettinen fyysikko, professori Ard Louis Oxfordin yliopiston fysiikan laitokselta.
Tutkimuksessa tarkasteltiin, kuinka neuroverkot oppivat loogisia Boolen funktioita, jotka ovat tietojenkäsittelyn perussääntöjä. Boolen funktiot palauttavat tulokseksi vain kaksi arvoa: tosi tai epätosi. Vaikka neuroverkot voivat teknisesti sovittaa minkä tahansa funktion dataan, ne suosivat luonnostaan yksinkertaisempia funktioita, jotka ovat helpommin kuvattavissa. Tämä sisäänrakennettu yksinkertaisuuden painotus auttaa neuroverkkoja löytämään säännöt, jotka yleistyvät hyvin eli tuottavat tarkkoja ennusteita sekä opetusaineistosta että näkemättömästä datasta.
Lisäksi tutkijat havaitsivat, että tämä Occamin partaveitsi -periaate kompensoi ainutlaatuisella tavalla monimutkaisten funktioiden määrän eksponentiaalista kasvua järjestelmän koon kasvaessa. Näin neuroverkot välttävät monimutkaiset funktiot, jotka sopivat hyvin opetusaineistoon mutta epäonnistuvat uusien tietojen kanssa.
Neuroverkot eivät sovi kaikkeen
Neuroverkot toimivat hyvin, kun data noudattaa yksinkertaisia kuvioita. Monimutkaisempien ja vähemmän järjestäytyneiden aineistojen kanssa niiden suorituskyky kuitenkin heikkenee, ja ne voivat joskus olla vain sattumanvaraisen arvauksen tasolla. Onneksi todellisessa maailmassa data on usein melko yksinkertaista ja rakenteellista, mikä sopii neuroverkkojen yksinkertaisuuteen painottuvalle oppimisperiaatteelle. Tämä auttaa niitä myös välttämään ylisovittamista eli liian tarkkaa mukautumista opetusaineistoon.
Tutkijat analysoivat myös, miten neuroverkkojen suorituskyky muuttuu, kun niiden oppimisprosessia muutetaan esimerkiksi säätämällä matemaattisia funktioita, jotka päättävät, aktivoituuko neuroni vai ei. Vaikka muutetut neuroverkot suosivat yhä yksinkertaisia ratkaisuja, pienet muutokset tässä painotuksessa heikensivät merkittävästi niiden kykyä yleistää yksinkertaisia Boolen funktioita. Tämä vaikutus näkyi myös muissa oppimistehtävissä, mikä korostaa oikeanlaisen Occamin partaveitsen kriittistä merkitystä.
Tutkimukseen voi tutustua täällä.