Joku todella kova leffafriikki saattaa muistaa Vaarallinen tehtävä -elokuvista kohtauksen, jossa päähenkilö osaa lukea muiden puhetta huulilta toiselta puolen huonetta. Nyt Cornellin yliopiston tutkijat ovat kehittäneet lasit, jotka pystyvät tulkitsemaan äänetöntä puhetta. Tekoälyn avulla, tottakai.
Cornellin SciFi-laboratorion (Smart Computer Interfaces for Future Interactions) kehittämä vähän virtaa kuluttava, puettava käyttöliittymä vaatii vain muutaman minuutin koulutusdataa käyttäjältä ennen kuin se tunnistaa komennot. Sen jälkeen laseja voidaan käyttää älypuhelimella, tutkijat sanovat.
Kuvassakin näkyvä Ruidong Zhang on tutkimuksen "EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing" kirjoittaja. Tutkimustyössä valmistetut lasit esitellään tässä kuussa Hampurissa järjestettävässä tietotekniikan konferenssissa.
Tekniikkaa kutsutaan nimellä EchoSpeech. Nykyisessä muodossaan EchoSpeechiä voitaisiin käyttää kommunikoimaan muiden kanssa älypuhelimen kautta paikoissa, joissa puhe on hankalaa tai sopimatonta, kuten meluisassa ravintolassa tai hiljaisessa kirjastossa. Äänettömän puheen käyttöliittymä voidaan myös yhdistää kynään ja käyttää vaikkapa CAD-suunnitteluohjelmistojen kanssa, jolloin näppäimistöä ja hiirtä ei tarvita.
Kynän päässä olevia pyyhekumia pienemmillä mikrofoneilla ja kaiuttimilla varustetuista EchoSpeech-laseista tulee puettava tekoälyllä toimiva kaikuluotainjärjestelmä, joka lähettää ja vastaanottaa ääniaaltoja kasvojen poikki ja tunnistaa suun liikkeet. Syväoppimisalgoritmi, jonka myös SciFi Labin tutkijat ovat kehittäneet, analysoi nämä kaikuprofiilit reaaliajassa noin 95 prosentin tarkkuudella.
SciFi Lab on kehittänyt useita puettavia laitteita, jotka seuraavat kehon, käsien ja kasvojen liikkeitä koneoppimisen ja puettavien minivideokameroiden avulla. Viime aikoina laboratorio on siirtynyt kameroista akustiseen tunnistukseen kasvojen ja vartalon liikkeiden seuraamiseksi. EchoSpeech perustuu laboratoriossa kehitettyyn akustisen tunnistamisen EarIO-nimisen laitteeseen, joka on puettava kuuloke, joka seuraa kasvojen liikkeitä.
Suurin osa äänettömän puheentunnistuksen teknologioista rajoittuu tiettyihin ennalta määrättyihin komentoihin ja edellyttää, että käyttäjä on puhujaa kohti tai käyttää kameraa, mikä ei ole käytännöllistä. Puettavat kamerat aiheuttavat myös suuria tietosuojaongelmia sekä käyttäjälle että niille, joiden kanssa käyttäjä on vuorovaikutuksessa.
Akustinen tunnistustekniikka, kuten EchoSpeech, poistaa puettavien videokameroiden tarpeen. Ja koska äänidata on paljon kevyempää kuin kuva- tai videodata, sen käsittely vaatii vähemmän kaistanleveyttä ja se voidaan välittää älypuhelimeen Bluetoothin kautta reaaliajassa.
Toki laseista on vielä matkaa Tom Cruisen elokuvissa esittämiin taitoihin. Kiinnostuneille lisätietoja täällä.
https://ruidongzhang.com/files/papers/EchoSpeech_authors_version.pdf