Tutkimus

Neuroverkkoteknologia kuulokojeessa parantaa puheen ymmärrettävyyttä

Julkaistu 20.10.2020

Tampereen yliopisto

Sähkötekniikan diplomi-insinööriksi opiskelevan Pyry Pyykkösen työpäivät tutkimusapulaisena kuluvat usein tietotekniikan labrassa. Pyykkönen tutki neuroverkkoja myös opinnäytetyössään, joka käsitteli kohinanpoistoa liikkeenkaappausdatasta.

Tampereen yliopistossa tutkimusassistenttina työskentelevä Pyry Pyykkönen kumppaneineen on tutkinut erityisten syvien neuroverkkojen mahdollisuuksia äänen erottelussa. Löydettyä ratkaisua voidaan hyödyntää esimerkiksi puheäänen laadun parantamisessa kuulokojeissa.

Äänilähteiden erottelussa hyödynnetään koneoppimista ja se toteutetaan usein syvien neuroverkkojen, erityisesti takaisinkytkettyjen neuroverkkojen avulla. Pyykkösen tutkimuksessa lauluääni eroteltiin musiikkisekoitteesta kevyempää konvoluutiota hyödyntävällä neuroverkolla (depth-wise separable convolution, DWS).

–Tutkimamme neuroverkon hyödyntämät konvoluutiot ovat kevyempiä ja nopeampia. Siten se vaatii vain murto-osan parametrejä tavallisia konvoluutioita hyödyntävään neuroverkkoon verrattuna, kertoo Pyykkönen.

Pyry Pyykkönen näkee tutkimustuloksellaan paljon potentiaalisia sovelluskohteita. Uutta tekniikkaa voidaan hyödyntää esimerkiksi äänen laadun parantamisessa kännyköissä ja kuulolaitteissa. Perinteisissä kuulolaitteissa melun vaimentaminen perustuu suuntaaviin mikrofoneihin. Ne eivät auta, jos äänilähteet ovat lähellä toisiaan.

– Kuulolaitteissa puhe on mahdollista erotella taustamelusta neuroverkolla ja parantaa sen avulla puheen ymmärrettävyyttä ja laatua. Tutkimani menetelmä toimii tavallisilla mikrofoneilla eikä riipu äänten suunnasta, Pyykkönen selvittää.

– Älypuhelinteollisuudessakin on tilausta kevyille koneoppiratkaisuille, sillä mobiililaitteiden laskentateho on tietokoneita rajatumpi. Kännykällä voisi mm. tehdä lempibiisistään ketterästi karaokeversion, Pyykkönen lisää.

Tutkimus ehdolla MMSP 2020 -konferenssin parhaiden joukkoon

Pyykkösen tutkimusaihe oli ehdolla Best Paper -palkinnon saajaksi syyskuussa järjestetyssä signaalitieteen merkittävimmässä kansainvälisessä konferenssissa MMSP 2020 (Multimedia Signal Processing). Pyykkösen lisäksi Depthwise Separable Convolutions Versus Recurrent Neural Networks for Monaural Singing Voice Separation -tutkimuksessa ovat mukana Styliannos Mimilakis Fraunhofer-IDMT-instituutista Saksasta sekä Konstantinos Drossos ja Tuomas Virtanen Tampereen yliopistosta.

Virtuaalisena järjestetty verkostoitumistapahtuma kokosi yhteen noin 600 signaalinkäsittelyn ja multimedian huippuasiantuntijaa korkeakouluista ja teollisuudesta. Keskustelun ytimessä olivat immersiiviseen audio-visuaaliseen kokemukseen liittyvät teknologiat ja sovellukset, joita voidaan hyödyntää niin teollisuudessa kuin kuluttajamarkkinoilla.

Konferenssin järjesti IEEE (Institute of Electrical and Electronics Engineers), joka on sähkötekniikan alan suurin kansainvälinen ammattijärjestö, yhdessä IEEE Signal Processing Societyn, Tampereen yliopiston ja Tampereen yliopiston CIVIT-infrastruktuurin kanssa. Tapahtuman rahoittivat Huawei, YouTube, Nokia ja Xiaomi.

Lisätiedot:

Pyry Pyykkönen
puh. 044 278 4858
pyry.pyykkonen [at] tuni.fi (pyry[dot]pyykkonen[at]tuni[dot]fi)

Teksti: Anna Aatinen
Kuva: Sari Laapotti

Mikä ihmeen konvoluutioneuroverkko?

Konvoluutioneuroverkko (Convolutional Neural Network, CNN) on syvä neuroverkko, joka on alun perin suunniteltu kuvan analysointiin. Visuaalisten objektien havaitsemisen ja tunnistamisen lisäksi sitä voidaan hyödyntää muun datan, kuten luonnollisen kielen ja äänen käsittelyssä. Neuroverkko sinänsä on laskennallinen malli, joka hyödyntää samanlaisia laskennallisia rakenteita kuin ihmisaivot.