Poikkeavan havaitseminen: Fahad Sohrab opettaa koneita havaitsemaan sen, mitä ne eivät ole koskaan nähneet

Signaalinkäsittelyn ja älykkäiden järjestelmien tutkimusryhmässä sekä GPT-Labissa työskentelevä tutkijatohtori Fahad Sohrab rakentaa algoritmeja, jotka oppivat tunnistamaan normaalin rakenteen. Kun jokin poikkeaa siitä, järjestelmä huomaa sen. Sohrab työskentelee Tampereen yliopistossa ja Heinäniemi tutkimusryhmässä Itä-Suomen yliopiston biolääketieteen yksikössä.
Kun etsittävää ei voi kerätä etukäteen
Useimmat koneoppimismallit oppivat esimerkkien kautta: kun mallille näytetään riittävästi merkittyjä tapauksia, se oppii erottamaan ne toisistaan. Tämä toimii hyvin, kun kaikki oleelliset luokat voidaan esittää opetusaineistossa. Juuri niissä tilanteissa, joissa automaattisella tunnistuksella on eniten merkitystä, kuten konevioissa, harvinaisissa sairauksissa tai uusissa tietoturvauhissa, esimerkkejä on kuitenkin vaikea saada.
– Monissa monimutkaisissa järjestelmissä tärkeimmät tapahtumat ovat juuri niitä, joita ei ole aiemmin havaittu. Koneviat, odottamaton järjestelmäkäyttäytyminen tai sairauden varhaiset merkit ovat tyypillisesti harvinaisia ja ennakoimattomia. Siksi on usein vaikea, joskus mahdotonta, kerätä riittävästi esimerkkejä poikkeavista tilanteista tavanomaisten mallien tehokkaaseen kouluttamiseen.
Sohrabin ratkaisu on kääntää asetelma toisin päin. Sen sijaan että malli luetteloisi poikkeavuuksia, se oppii normaalin käyttäytymisen rakenteen ja merkitsee kaikki siitä poikkeavat havainnot, myös sellaiset, joita se ei ole koskaan kohdannut. Tämä lähestymistapa, jota kutsutaan yhden luokan luokitteluksi ja poikkeavuuksien havaitsemiseksi, on hänen tutkimuksensa keskiössä.
Käytännön esimerkki löytyy ruoansulatuskanavan endoskopiasta: terveen kudoksen kuvilla koulutettu malli voi merkitä poikkeavat alueet kliinistä tarkastelua varten ilman, että se tarvitsee merkittyjä esimerkkejä kaikista mahdollisista patologioista.
Sydänkohtaukset ja stressi: tekoäly terveydenhuollon apuna
Terveydenhuollossa normaalin ja poikkeavan datan epäsuhta on kaikkein kriittisin. Sohrabilla on kaksi soveltavaa hanketta tällä alalla. Ensimmäinen koskee sydäninfarktin varhaista tunnistamista usean näkymän kaikukuvauksella. Varhaisimmat varoitusmerkit voivat olla äärimmäisen hienovaraisia: pieniä muutoksia sydämen seinämän liikkeessä eri ultraääniprojektioissa, jotka kokeneetkin kliinisit saattavat jättää huomaamatta.
– Tavoitteena ei ole pelkästään luokitella lääketieteellisiä kuvia, vaan havaita hyvin varhaiset fysiologiset muutokset, jotka voivat ennakoida kehittyvää sydäninfarktia. Näin kliinisillä henkilöillä olisi mahdollisuus toimia vaiheessa, jossa hoito on kaikkein tehokkainta.
Toisessa hankkeessa Sohrab kehitti Louisiana-Lafayetten yliopiston kanssa multimodaalisen stressinmittausaineiston, joka yhdistää kasvonilmeiden analyysin fysiologisiin signaaleihin, kuten sykevaihteluun. Molemmissa hankkeissa korostuu sama vaatimus: tiivis yhteistyö kliinisten asiantuntijoiden kanssa sekä huolellinen paneutuminen etiikkaan, yksityisyyteen ja kansainväliseen tiedonhallintaan.
Merkittävimmät edistysaskeleet syntyvät, kun tekninen innovaatio, kliininen asiantuntemus ja eettinen vastuu kehittyvät yhdessä.
Fahad Sohrab
Verisolut ja syöpätutkimus: koneoppiminen biologian palveluksessa
Yllättävä osa Sohrabin työtä on yhteistyö Itä-Suomen yliopiston Heinaniemi-laboratorion kanssa. Kyseinen ryhmä tutkii geenisäätelyä ja solujen välistä viestintää verisyövissä. Nykyaikaiset laboratoriolaitteet tuottavat valtavia, yksityiskohtaisia aineistoja siitä, miten yksittäiset solut käyttäytyvät ja muuttuvat verisyövän kehittyessä. Niiden tulkitseminen on juuri sellainen ongelma, johon koneoppiminen soveltuu.
– Kliinikoilla ja biologeilla on syvä tietämys siitä, miten solut toimivat ja miten sairaudet kehittyvät. Koneoppiminen puolestaan tarjoaa tehokkaita välineitä suurten ja monimutkaisten aineistojen analysointiin. Kun nämä näkökulmat yhdistyvät, tutkijat voivat löytää rakenteita ja oivalluksia, jotka muuten saattaisivat jäädä piiloon.
Yksi menetelmä, monta alaa: sähköverkot, haittaohjelmat ja kriittinen infrastruktuuri
Sama peruslogiikka, joka tunnistaa poikkeavaa kudosta, valvoo myös sähköverkkoja ja havaitsee haittaohjelmia. Kyberturvallisuus, energiajärjestelmät ja rahoituspetokset näyttävät pintapuolisesti hyvin erilaisilta, mutta menetelmän tasolla rakenne on yhdenmukainen.
– Kyberturvallisuudessa analysoimme ohjelmistojen tai verkkoliikenteen käyttäytymismalleja ja tunnistamme poikkeamia, jotka voivat viitata haitalliseen toimintaan. Energiajärjestelmissä, kuten älykkäissä sähköverkoissa, poikkeavuuksien havaitseminen voi seurata sensoridatavirtoja ja tunnistaa epätavalliset signaalit, jotka saattavat kertoa vioista tai epävakaudesta. Vaikka nämä alat näyttävät hyvin erilaisilta, perustehtävä pysyy samana: opitaan, miltä normaali käyttäytyminen näyttää, ja tunnistetaan siitä merkittävät poikkeamat.
Suomalaisissa teollisuushankkeissa, joihin kuuluu IoT-pohjainen infrastruktuurin valvonta, näitä ideoita on testattu käytännön olosuhteissa. Eri alojen välillä siirtyy mallinnusperiaate. Mikä muuttuu on datatyyppi ja se asiayhteystuntemus, jota tulosten tulkitseminen edellyttää.
Yhteistyö yli rajojen: Business Finland, NSF ja IEEE
Todellisissa ympäristöissä toimivan tutkimuksen edellytys on pääsy todelliseen dataan. Business Finlandin tukemat yhteistyöhankkeet suomalaisten yritysten kanssa ovat antaneet Sohrabille pääsyn teollisuusaineistoihin ja mahdollisuuden testata menetelmiä käytännön vaatimuksia vasten. Kansainvälisellä tasolla NSF-rahoitettu yhteistyö Louisiana-Lafayetten yliopiston kanssa on kehittynyt suunnitelluksi kumppanuudeksi uuden AHeAD-keskuksen kautta. Kyseinen keskus, jonka nimi tulee sanoista Accessible Healthcare for AI-Augmented Decisions, keskittyy luotettavaan, ihmislähtöiseen tekoälyyn kliinistä päätöksentekoa varten.
– Toimiminen eri maiden tutkimusympäristöissä auttaa kokoamaan yhteen monipuolista asiantuntemusta ja erilaisia näkökulmia. Tämä on erityisen tärkeää monitieteisillä aloilla, kuten tekoälyssä ja biolääketieteellisessä datatieteessä.
Hiljattain Sohrab valittiin IEEE Finlandin varapuheenjohtajaksi. Hän näkee järjestön tärkeänä yhdyslenkkini tutkijoiden, teollisuuden ja laajemman teknisen yhteisön välillä.

Mitä seuraavaksi: monimodaalinen tekoäly ja luottamuksen kysymys
Tulevaisuudessa Sohrab tunnistaa kaksi toisiinsa liittyvää painopistettä: järjestelmien rakentaminen, jotka yhdistävät useita tietolähteitä, sekä niiden tulosten tekeminen tarpeeksi tulkittaviksi, jotta niihin voidaan luottaa päätöksenteossa.
– Poikkeavuuden havaitseminen on vasta ensimmäinen askel. Useimmissa sovelluskohteissa on yhtä tärkeää ymmärtää, miksi järjestelmä pitää jotakin epätavallisena. Mallien kehittäminen, jotka pystyvät selittämään päättelynsä ja arvioimaan epävarmuutensa, on keskeistä, jotta asiantuntijat voivat luottaa järjestelmiin ja hyödyntää niitä päätöksenteossa.
Punaisena lankana on visio tekoälystä, joka laajentaa ihmisen kykyä sen sijaan, että korvaisi ihmisen harkintakyvyn.
– Jos pystymme kehittämään järjestelmiä, jotka ovat sekä teknisesti luotettavia että läpinäkyviä, niillä on mahdollisuus tukea merkittäviä edistysaskelia esimerkiksi terveydenhuollossa, kestävässä infrastruktuurissa ja ympäristön seurannassa.
Fahad Sohrab työskentelee Tampereen yliopistossa Datatieteen tutkimuskeskuksessa.
koneoppiminen, aliavaruusoppiminen, poikkeavuuksien havaitseminen, hahmontunnistus sekä näihin liittyvät alat.
Signal Analysis and Machine Intelligence SAMI -tutkimusryhmä, Tampereen yliopisto
Heinaniemi-laboratorio, Itä-Suomen yliopisto
GTP Lab, Tampereen yliopisto
Kirjoittaja: Sujatro Majumdar









