Laadukas data on uuden tietämyksen tuottamisen edellytys. Yksityisellä sektorilla lääkeyritykset ovat jo vuosikymmenten ajan pyrkineet osoittamaan tuotteidensa tehoa ja turvallisuutta potilasaineistojen avulla. Digitalisoituva toimintaympäristö tuo uusia mahdollisuuksia myös muille yrityksille kerätä monenlaista dataa niiden asiakkaista. Asiakastiedolla tarkoitetaan asiakkaan toiminnan seurauksena syntyvää dataa. Tätä dataa voi olla verkkokaupan sivustolla tapahtuva selailu- ja klikkausdata tai mobiilisovellusten käyttödata, reaaliaikainen kotitalouden sähkön kulutusdata tai suoratoistopalvelujen data asiakkaiden musiikki- (Spotify), kirja- (Bookbeat, Storytel, Supla) tai elokuva- ja sarja (Netflix)-mieltymyksistä.

Datasta on tullut erottamaton osa nykyajan kulutusta, yritysten liiketoimintamalleja ja myös julkisten organisaatioiden jokapäiväistä toimintaa. Kun datalähteet moninaistuvat, kehittyvät myös menetelmät, joilla data jalostuu tiedoksi.

Kun yhteiskunnat muuttuvat datavaltaisemmiksi, jälkiä ihmisistä ja heidän toiminnastaan kertyy entistä enemmän, mutta tieto pirstaloituu ja se on yhä useamman toimijan takana. Toisaalta tuo data kertyy automaattisesti ja kustannustehokkaasti, mikä tekee näistä tietolähteistä tutkijoille houkuttelevia. Samanaikaisesti jotkin perinteisistä tiedonkeruuinstrumenteista ovat alenevien vastaus- ja osallistumisprosenttien takia menettämässä osan arvostaan. Tämä on tullut näkyväksi myös väestötutkimuksissa. Niiden heikentyvä edustavuus kaipaa rinnalleen tietoja katveeseen jääneistä vaikeasti tavoitettavista ryhmistä. Lisäksi väestötutkimuksia täydentävien kansallisten rekisteriaineistojen saatavuus on vaikeutunut ja hidastunut toisiolain voimaantulon myötä. Toisaalta tiedonkeruun mahdollisuudet ovat merkittävästi kasvaneet digitalisaation vuoksi kuluneen 10 vuoden aikana. Siinä kehityksessä tiedeyhteisön on tärkeä olla mukana ja mieluiten etujoukoissa.

Tutkijoiden tulisi luoda aktiivisesti ja ennakkoluulottomasti perinteisten kysely-, haastattelu-, rekisteri-, ja suorien mittausaineistojen oheen uusia yhteistyömalleja yritysten ja julkisten organisaatioiden kanssa.

Tutkijoiden tulisi luoda aktiivisesti ja ennakkoluulottomasti perinteisten kysely-, haastattelu-, rekisteri-, ja suorien mittausaineistojen oheen uusia yhteistyömalleja yritysten ja julkisten organisaatioiden kanssa. Tutkimukseen soveltuvaa dataa ihmisten käyttäytymisestä keräävät esimerkiksi päivittäistavarakaupat, verkkokaupat, pankki- ja vakuutusalan yritykset, kunnat ja kaupungit ja energiayhtiöt. Näiden organisaatioiden tietojärjestelmiin kertyvä data voi oikein ja vastuullisesti hyödynnettynä tarjota välineen näkökulmia uudistavaan tutkimukseen. Uudenlaisiin datalähteisiin nojaava analyysi saattaa haastaa vallitsevia käsityksiä tai niihin pohjaava sovellus voi tarjota yllättäviä keinoja edistää tärkeiden ongelmien–kuten ilmastonmuutoksen hillitseminen ja terveyden eriarvoistuminen—ratkaisuja.

Asiakastieto kertoo aidosta kuluttajien käyttäytymisestä, ei pelkästään heidän asenteistaan ja aikomuksistaan. Se ei ylipäätään perustu yksilöiden itse ilmoittamiin tietoihin vaan toiminnan digitaalisiin jälkiin.

Digitaalisella asiakastiedolla on tutkimukselle kustannustehokkuuden lisäksi muitakin etuja. Sille on ominaista huomattavan suuri yksityiskohtaisuuden taso ja asiakastiedon ajantasainen seuranta tarjoaa pitkittäistutkimukseen konkreettisia mahdollisuuksia; näitä voivat olla pitkän aikavälin muutosten tarkastelu tai yksilöidyn ohjauksen ja/tai väestötason terveyspolitiikan vaikuttavuuden arviointi. Asiakastieto kertoo  kuluttajien aidosta käyttäytymisestä, ei pelkästään heidän asenteistaan ja aikomuksistaan. Se ei ylipäätään perustu yksilöiden itse ilmoittamiin tietoihin vaan toiminnan digitaalisiin jälkiin. Automaattisesti kertyvän datan avulla tehtävissä tutkimuksissa huonon muistin merkitys virheiden lähteenä voi vähentyä, ja vähentyä voi myös taipumus yli- tai aliarvioida jotain oman käyttäytymisen osaa.

Suurten yritysten data nojaa laajaan tietopohjaan, joka mahdollistaa harvinaistenkin kuluttajaryhmien piirteiden ja käyttäytymisen tarkastelun. Parhaimmillaan data edustaa koko väestöä. Silti näiden aineistojen haasteena voi olla, että niiden kautta ääneen pääsevät ainoastaan dataa kerryttävät ja luovuttavat ryhmät. On tärkeää, ettei asiakastietoa hyödyntämällä huomaamatta vahvisteta virheellisiä mielikuvia tai eriarvoisuutta.

Ruokakaupan kanta-asiakasjärjestelmän tuottama data tutkimuskäytössä

Monitieteinen LoCard-tutkimusryhmämme on hyödyntänyt suostumuksen antaneiden S-ryhmän asiakasomistajien ostodataa terveys- ja yhteiskuntatieteellisessä tutkimuksessa jo muutaman vuoden ajan.

Yhteistyön aikana olemme keränneet kaksi laajaa ostoaineistoa. Valtaosa osallistujista vastasi myös erilliseen kyselylomakkeeseen, jolla kerättiin lisätietoa asiakkaiden asenne- ja taustatekijöistä. Pseudonymisoidut tutkimusaineistot sisältävät yksityiskohtaista dataa yli kahden vuoden ajalta siitä, mitä, mistä, milloin ja mihin hintaan erilaiset asiakkaat ovat ruokakaupoista ostaneet. Dataa on kertynyt melkoisesti, sillä aineisto sisältää kaikkiaan yli 130 miljoonaa ostotapahtumaa liki 50 000 eri kotitaloudelta. (Erkkola ym. 2019, Vuorinen ym. 2020)

Tällainen ostoaineisto on kansainvälisestikin poikkeuksellinen. Sitä hyödyntäen olemme esimerkiksi tutkineet erilaisten kuluttajaryhmien muutoksia kohti kestävämpää ruokavaliota, ostodatan mahdollisuuksia ruoankäyttö- ja alkoholitutkimuksessa sekä ruoanvalinnan motiivien sosiodemografisia eroja. Näissä tutkimuksissa havaittiin, että kestävämpään ja terveellisempään ruokavalioon siirtymisessä on tärkeää ymmärtää väestöryhmien erilaiset lähtökohdat ruoankäytössä. Ruokavalintojen muuttaminen ympäristön kannalta kestävämmiksi näyttäisi olevan erityisen haastavaa elämänkaaren murrosvaiheissa, kuten ruuhkaisessa pikkulapsiarjessa. Ruoanvalinnan motiivien tarkastelu puolestaan osoitti, että pienituloisimmat ja vähiten koulutetut ryhmät arvostavat erityisesti ruoan edullisuutta ja tuttuutta.

Tällainen ostoaineisto on kansainvälisestikin poikkeuksellinen. Sitä hyödyntäen olemme esimerkiksi tutkineet erilaisten kuluttajaryhmien muutoksia kohti kestävämpää ruokavaliota, ostodatan mahdollisuuksia ruoankäyttö- ja alkoholitutkimuksessa sekä ruoanvalinnan motiivien sosiodemografisia eroja.

Tulokset tarjoavat myös kauppaketjuille yhteiskuntavastuullisia keinoja osallistua kestävyysmurrokseen ja edistää terveyden tasa-arvoa: helposti valmistettavien kestävämpien vaihtoehtojen näkyvä sijoittelu ja edullinen hinta helpottavat ekologisesti kestäviä ja terveellisiä ruokavalintoja sekä pienituloisilla että kiireisessä lapsiperhearjessa. Käytämme parhaillaan ostodataa mm. kuluttajien ruokaostojen hiilijalanjäljen synnyn ymmärtämisessä, ruokahävikkiin yhteydessä olevien kuluttajaprofiilien tunnistamisessa, alkoholilain uudistuksen vaikutuksien selvittämisessä sekä muovipussien ostokäyttäytymisen ja ympäristömyönteisyyden tutkimisessa. (Erkkola ym. 2021, Konttinen ym. 2021, Lintonen ym. 2020, Vepsäläinen ym. 2021)

Haastavimmat globaalit ilmiöt ovat luonteeltaan monimuotoisia ja niiden tutkiminen edellyttää monitieteistä osaamista.

LoCard-tutkimusten toteuttajina on laaja joukko tutkijoita. Haastavimmat globaalit ilmiöt ovat luonteeltaan monimuotoisia ja niiden tutkiminen edellyttää monitieteistä osaamista. Ravitsemustieteelle ja alkoholitutkimukselle ostodata tarjoaa uudenlaisen tiedonkeruun instrumentin, joka osin täydentää nykyisten menetelmien puutteita. Biostatistiikalle datan omaleimainen syntytapa ja yksilöön, aikaan ja tuotteisiin hahmottuva kolmiulotteinen rakenne tuottaa uusia metodologisia käsitteitä ja kiinnostavia laskennallisia haasteita. Kulutustutkimukselle ja yleisesti liiketaloustieteille ostodata antaa keinon laajentaa perspektiiviä kyselypohjaisista aikomusten ja asenteiden tutkimuksesta erilaisten kuluttajaryhmien varsinaisen ostokäyttäytymisen tutkimiseen: miten ja miksi kuluttajat käyttäytyvät tietyillä tavoilla, ja millaisia mahdollisuuksia päivittäistavarakaupan toimijoilla on vastata liiketaloudellisesti kestävällä tavalla muuttuviin tarpeisiin ja tottumuksiin.

Edellä kuvatut tutkimukset eivät käytännössä olisi olleet mahdollisia ilman LoCard-tutkimusaineistoa. Osittain tutkimustuloksemme vahvistavat aiemmin tunnettuja käsityksiä, mutta osittain ne myös haastavat niitä.

Tutkimusetiikka ja luottamuksen rakentaminen

Kokemuksemme ovat olleet rohkaisevia mutta niiden rinnalla olemme tunnistaneet tärkeitä onnistuneen tutkimusyhteistyön edellytyksiä.

Vaikka asiakastietoaineiston keruu ei tapahtuisikaan tutkimusryhmän aloitteesta, sitovat tutkimusta normaalin hyvän tieteellisen käytännön periaatteet. Tutkimuseettisen toimikunnan lausunto toimii tutkimusryhmälle ja sen sidosryhmille (yritykset, yliopistot ja tutkimusaineistona olevat kuluttajat) riippumattomana arviona. Arvioinnin lähtökohtana ovat tutkimuseettisen neuvottelukunnan laatimat eettiset periaatteet: tutkittavien itsemääräämisoikeus, vahingoittamisen välttäminen sekä yksityisyys ja tietosuoja. Toimikunnalta voi saada myös tärkeitä huomioita asiakastietoa täydentävän aineistonkeruun – kuten siihen liitetyn kyselyn – viimeistelyyn. Kun kokonaisuutta suunnitellaan, on hyvä huomioida eri toimikuntien kokousaikataulut ja lausunnon saamiseen menevä kohtuullinen aika.

Osa vastuullista tutkimustoimintaa on myös tinkimättömyys tietosuojaan liittyvissä kysymyksissä ja ylipäätään datan huolellinen käsittely. Kriittisen tärkeää on resursoida heti alusta asti riittävästi osaamista ja tunteja tämän perustan rakentamiseen.

Tutkimusyhteistyö edellyttää luottamusta, jonka rakentaminen vaatii aikaa ja kärsivällisyyttä. Tutkimusaineiston hyödyntämisestä on puhuttava läpinäkyvästi ja konkreettisesti. Aineiston käytön periaatteista on hyvä sopia kirjallisesti etukäteen: yhtä lailla on tärkeää taata tutkijoiden riippumattomuus kuin yrityksen mahdollisuus oikaista asiavirheet etukäteen. Tutkijoiden kieli voi olla vierasta yrityksille ja päinvastoin. Luottamuksen rakentaminen on välttämätöntä myös suhteessa kuluttajiin. Täsmällinen tieto siitä, millaista tietoa asiakkailta pyydetään, millaiseen tutkimukseen sitä käytetään ja minkä vuoksi, on viestinnässä tuotava kirkkaasti esille. On hyvä kunnioittaa sitä, että asiakastieto on lähtöisin kuluttajilta; datan saaminen edellyttää, että asiakkaat ovat valmiita sen tutkimuskäyttöön jakamaan.

Datainfrastruktuuri ja datan rikastuttaminen

Yritysten tietojärjestelmien tuottama data harvoin soveltuu sellaisenaan tutkimuskäyttöön, sillä tietojärjestelmät on luotu palvelemaan ensisijaisesti yritysten tietotarpeita, jotka voivat erota tutkijoiden tietotarpeesta. Esimerkiksi yritysten kanta-asiakasjärjestelmien perustarkoitus on kerätä asiakkaista tietoa, joka auttaa asiakassuhteiden kehittämisessä. Tiedon avulla yritykset voivat esimerkiksi tunnistaa kannattavimmat asiakkaat tai profiloida asiakkaita ostokäyttäytymisen perusteella (esim. “Palveluhakuiset pariskunnat”, “Bränditietoiset”, “Vaivattomuutta arvostavat”). Kanta-asiakasjärjestelmän tuottama data täytyy siksi usein esikäsitellä ennen kuin se on käyttökelpoista tutkimuksessa. Tämä voi konkreettisesti tarkoittaa esimerkiksi datan uudelleen luokittelua ravintosisällön mukaan hyllyrivipaikan sijaan.

Datan käyttöarvoa voidaan kasvattaa myös yhdistämällä siihen muita tietokomponentteja; esimerkiksi Luonnonvarakeskuksen tuottamat ruokien hiilijalanjälkitiedot, tai Finelin ravintosisältötiedot.

Yritysten tietojärjestelmien tuottamaa dataa voidaan myös rikastuttaa. Esimerkiksi LoCard-tutkimuksessa lähetimme ostodatansa tutkimuskäyttöön antaneille asiakasomistajille linkin kyselylomakkeeseen, jonka avulla saimme täydentävää tietoa kotitalouksien taustoista, arvoista ja asenteista. Datan käyttöarvoa voidaan kasvattaa myös yhdistämällä siihen muita tietokomponentteja; esimerkiksi Luonnonvarakeskuksen tuottamat ruokien hiilijalanjälkitiedot, tai Finelin ravintosisältötiedot. Yksilötasolla muiden tietolähteiden yhdistäminen on merkittävästi herkempi asia (Clarke ym. 2021). Oleellista on hahmottaa, että yritysten tietojärjestelmien automaattisesti kerääntyvä asiakasdata voidaan nähdä eräänlaisen perustana, jonka päälle voi kerryttää soveltaen muita tarkoituksenmukaisia “datakerroksia”, jotka yhdessä kasvattavat tutkimusaineiston rikkautta.

Monitieteisyyteen liittyvät mahdollisuudet ja haasteet

LoCard-tutkimus on parhaimmillaan tieteidenvälistä tutkimusta, jossa laskennalliset tieteet kohtaavat ravitsemustieteen, ravitsemustiede keskustelee kuluttajatutkimuksen kanssa, ja data vastaa kysymyksiimme ohjaten meitä keskinäisen vuoropuhelun kautta kyseenalaistamaan asioita, joita saatoimme aiemmissa tiedelokeroissamme pitää itsestäänselvyyksinä. Tämäntyyppinen tutkimus ei toki ole aina helppoa. Tieteenalarajat ylittävä yhteistyö vaatii yhteistä kieltä omien vakiintuneiden tieteenalakohtaisten käsitteiden sijaan ja täydentämiseksi, ja toisten tieteenalojen metodologisten otteiden ymmärtämistä.

Tieteidenvälinen tutkimus voi olla perinteisempää, yhteen tieteenalaan keskittyvää tutkimusta haastavampaa. Haastavaa voi olla myös tieteidenvälisen tutkimuksen julkaiseminen, vaikka sellaisen tutkimuksen tärkeyttä nykyajan moniulotteisten ongelmien ratkaisijana yleisesti korostetaan. On ymmärrettävää, että pääosa hyvätasoisista julkaisukanavista rajaa omaa alaansa muutamiin tieteenaloihin ja niiden ydinkysymyksiin. Muutoin vertaisarvioijien löytäminen, vertaisarviointiin tarvittavan ajan rajaaminen tai toimittajien asiantuntijuuden rajojen hahmottaminen voisi olla ylivoimaista. Vaarana on, etteivät yksittäisen tieteenalan edustajat tavoita monitieteisten löydösten merkittävyyttä (Jubb 2016). Keinoja tieteidenvälisen tutkimuksen käytännön esteiden madaltamiseen olisi hyvä löytää lisää kaikilla tutkimuksen tasoilla. Oli kyse sitten opinnäytetöiden ohjauksesta ja pisteiden jakamisesta yliopiston sisällä, mahdollisuuksista julkaista ja saada rakentavaa palautetta kotimaisissa tai kansainvälisissä kärkilehdissä, tai tutkimusrahoitusmahdollisuuksien löytämisestä, näyttää tällainen tutkimustyö yhä tieteenalarajoja noudattelevaa tutkimusta kivikkoisemmalta. Haasteista huolimatta tieteidenvälinen tutkimus on paitsi mielenkiintoista, myös inspiroivaa ja hauskaa. On opettavaista ja sivistävää oppia katsomaan asioita ennakkoluulottomasti oman tieteenalan ulkopuolelta.

Asiakastietoa voi hyödyntää koko yhteiskunnan hyväksi

Yritykset ovat perinteisesti hyödyntäneet asiakastietoa esimerkiksi markkinointiviestinnän tehostamisessa, kannattavimpien asiakasryhmien tunnistamisessa, toimitusketjujen hallinnassa, tuotevalikoimien kehittämisessä tai uusien tuotteiden ja palvelujen kehittämisessä. Viimeisten vuosien aikana asiakastiedosta on alettu luoda hyötyä entistä enemmän myös kuluttajille itselleen. Esimerkiksi mobiilipalvelujen avulla kuluttajien päivittäistavarakaupan ostodata voidaan valjastaa asiakkaiden itsensä hyödyksi tuottamalla tietoa heidän ostostensa ravitsemuksellisesta sisällöstä, hiilijalanjäljestä tai kotimaisuusasteesta, jotka ovat monelle kuluttajalle merkityksellisiä ja ostopäätöksiä ohjaavia asioita.

Asiakastiedon hyödyntämisessä ollaan siirtymässä uuteen vaiheeseen: kuinka asiakastietoa voidaan hyödyntää tehokkaasti ei vain yksilöiden ja yritysten, vaan myös laajemmin koko yhteiskunnan hyväksi. Tässä muutoksessa tutkijat ovat avainasemassa.

Lähteet

Clarke H, Clark S, Birkin M, ym. (2021). Understanding Barriers to Novel Data Linkages: Topic Modeling of the Results of the LifeInfo Survey. Journal of Medical Internet Research 17;23(5): e24236. doi: 10.2196/24236.

Grewal D, Hulland H, Kopalle PK, & Karahanna E. (2020). The future of technology and marketing: A multidisciplinary perspective. Journal of the Academy of Marketing Science Vol. 48, pp. 1-8.

Erkkola M, Fogelholm M, Saarijärvi H, Uusitalo L, & Nevalainen J. (2019). Kuluttajadatan mahdollisuudet ja haasteet kansanterveystutkimuksessa; case LoCard. Sosiaalilääketieteellinen aikakauslehti, Vol. 56, pp. 76–87

Erkkola M, Kinnunen SM, Vepsäläinen HR, ym. A slow road from meat dominance to more sustainable diets: an analysis of purchase preferences. Preprint: medRxiv 2021.11.25.21266850; doi: 10.1101/2021.11.25.21266850

Jenneson VL, Pontin F, Greenwood DC, ym. (2021). A systematic review of supermarket automated electronic sales data for population dietary surveillance, Nutrition Reviews, 2021; nuab089, doi: 10.1093/nutrit/nuab089

Jubb M (2016). Peer review: The current landscape and future trends. Learned Publishing, 29: 13– 21. doi: 10.1002/leap.1008.

Konttinen H, Halmesvaara O, Fogelholm M, ym. (2021). Sociodemographic differences in motives for food selection: results from the LoCard cross-sectional survey. International Journal of Behavioral Nutrition and Physical Activity 18, 71. https://doi.org/10.1186/s12966-021-01139-2

Lintonen T, Uusitalo L, Erkkola, M, ym. (2020). Grocery purchase data in the study of alcohol use – A validity study. Drug and Alcohol Dependence, 1; 214: 108145. doi: 10.1016/j.drugalcdep.2020.108145

Vepsäläinen H, Nevalainen J, Kinnunen S, ym. (2021). Do we eat what we buy? Relative validity of grocery purchase data as an indicator of food consumption in the LoCard study. British Journal of Nutrition, 1-24. doi:10.1017/S0007114521004177

Vuorinen, A-L, Erkkola M., Fogelholm M., ym. (2020). Characterization and correction of bias due to nonparticipation and the degree of loyalty in large-scale Finnish loyalty card data on grocery purchases: Cohort study. Journal of Medical Internet Research, Vol. 22 No. 7