Digitalisoituva menneisyys: Käsinkirjoitettujen aineistojen konelukemisesta

Historiantutkimuksessa tekstien määrällinen tutkimus on ollut harvinaista, mutta tilanne on muuttunut viime vuosina.

avatar
Ilari Taskinen, Risto Turunen, Lauri Uusitalo & Ville Kivimäki

Historiantutkijat lukevat alituisesti käsinkirjoitettuja tekstejä. Suurin osa menneisyyden kirjallisista aineistoista on raapustettu kynällä aivan viime vuosikymmeniin saakka. Käsinkirjoitetut tekstit ovat erityisen tuttuja tutkijoille, jotka jäljittävät “tavallisten ihmisten” ajatuksia, kokemuksia ja mentaliteetteja: siis sosiaali- ja kulttuurihistoriaa. Virallisten asiakirjojen sijaan keskeisiä lähteitä ovat tällöin yksityiset kirjeet, päiväkirjat ja muistiinpanot. Ihmiset ovat vaihtaneet kuulumisia sähköisesti vain reilu parikymmentä vuotta, mutta kirjeiden historia on tuhansia vuosia pitkä.

Historiantutkijat ovat analysoineet kirjeitä tavallisesti niinkin eksoottisella tavalla kuin omin silmin lukemalla. Metodina on yleensä ollut perehtyminen yksittäisen ihmisen tai rajatun kirjeenvaihtopiirin ajatuksiin ja tuntemuksiin niin kuin ne ovat kirjeissä ilmenneet. Tätä tekniikka on kutsuttu mm. lähiluennaksi ja empaattiseksi luennaksi. Mutta olisiko toista tapaa tarkastella kirjeitä menneisyyden lähteenä? Koneluettavien tekstien määrällinen tutkiminen on ollut jo kauan yleistä kielitieteessä, jossa esimerkiksi korpuslingvistit ovat keränneet miljoonia sanoja käsittäviä tekstikokoelmia, joiden pohjalta he ovat tehneet tilastollisia analyyseja.

Kiitos kehittyneiden tietokoneohjelmien, painettuja tekstejä on jo useiden vuosien ajan pystytty muuttamaan automaattisesti digitaaliseen muotoon.

Historiantutkimuksessa tekstien määrällinen tutkimus on ollut harvinaista, mutta tilanne on muuttunut viime vuosina. Kiitos kehittyneiden tietokoneohjelmien, painettuja tekstejä on jo useiden vuosien ajan pystytty muuttamaan automaattisesti digitaaliseen muotoon. Nykyisin kukoistava digitaalinen humanismi perustuu tälle perusinnovaatiolle. Suomessa merkittävin digitaalisen historiantutkimuksen edistysaskel on ollut Kansalliskirjaston digitointihanke, jossa on muutettu sähköiseen muotoon miljoonia sivuja suomalaisia historiallisia sanomalehtiä ja muita painettuja julkaisuja. Hankkeella on ollut valtava vaikutus ja se muuttaa parhaillaan – osin radikaalistikin – historiantutkijoiden työskentelytapoja ja mahdollisia kysymyksenasetteluja. Historioitsija pystyy nykyisin omalta kotikoneeltaan tutkimaan sellaisia aineistomassoja, joiden läpikäynti olisi aiemmin edellyttänyt vuosien arkistotyötä tai ollut tyystin mahdotonta. Kansalliskirjaston toteuttaman digitoinnin pohjalta on virinnyt jo lukuisia uusia tutkimushankkeita.

Käsinkirjoitettujen tekstien digitoiminen ei ole kuitenkaan ollut yhtä helppoa. Esimerkiksi kirjeet on kirjoitettu aikakaudesta, kulttuurista, kirjoitushetkestä ja kirjoittajasta riippuen vaihtelevilla käsialoilla erilaatuisille papereille. Ne ovat aivan eri luokan haaste automaattisille tekstintunnistusohjelmille kuin painetut tekstit. Vielä aivan muutama vuosi sitten tietokoneohjelmat tunnistivat käsinkirjoitettuja tekstejä todella huonosti. Kehitys on ollut kuitenkin huimaa. Käsinkirjoitettujen tekstien tunnistusta kehittänyt suuri eurooppalainen READ-hanke on ottanut valtavia edistysaskelia, ja sen kehittämä Transkribus -tunnistusohjelma on saatu niin toimivaksi, että se pystyy muuttamaan käsinkirjoitettuja tekstejä sähköiseen muotoon jo lähes yhtä hyvin kuin painettuja tekstejä. [1] Tämä ei kuitenkaan tapahdu automaattisesti, vaan edellyttää ohjelman kouluttamista tunnistamaan tietyn aikakauden käsialaa.

Hankkeessa ”Digitaalinen historia ja käsinkirjoitetut aineistot” (Digikäki) kehitämme historiantutkimuksen digitaalisia menetelmiä analysoimalla suomalaisia sota-ajan kirjeitä. Tutkimuskohteenamme on Tampereen yliopiston kansanperinteen arkiston toisen maailmansodan kirjekokoelma, joka sisältää kaikkiaan jo yli 60 000 kirjettä ja postikorttia sotavuosilta. Aineisto on kansainvälisestikin arvokas: näin laajoja “tavallisten ihmisten” tuottamia tekstimassoja ei vielä 1900-luvun ensipuoliskolta juuri löydy ja sotakirjeiden kokoelmana aineisto on maailmanlaajuisesti ainutlaatuinen. Vuosien 1939–1945 kirjeenvaihto oli valtava uusi ilmiö suomalaisessa kulttuurissa, jolloin sadattuhannet ihmiset laittoivat ensi kertaa ajatuksiaan paperille säännöllisesti useiden vuosien ajan – ja jättivät näin rikkaan aineiston historiantutkijoille. [2] Toisaalta koska kirjoittajat tulivat kaikista sosiaaliluokista ja koulutaustoista, myös käsialojen kirjo kokoelmassa on erittäin laaja ja tunnistuksen kannalta haasteellinen.

Vuosien 1939–1945 kirjeenvaihto oli valtava uusi ilmiö suomalaisessa kulttuurissa, jolloin sadattuhannet ihmiset laittoivat ensi kertaa ajatuksiaan paperille säännöllisesti useiden vuosien ajan – ja jättivät näin rikkaan aineiston historiantutkijoille.

Hankkeen ensimmäisessä vaiheessa olemme muuttaneet kirjeitä digitaaliseen muotoon ja opettaneet Transkribus-ohjelmaa tunnistamaan 1940-luvun suomalaista käsialaa. Transkribuksen opettaminen tarkoittaa käytännössä, että täytyy luoda tunnistusmalli, joka kykenee lukemaan tietyn tyylistä tekstiä. Meidän tapauksessamme lähtökohta oli poikkeuksellisen hedelmällinen: 7 000 Kansanperinteen arkiston sota-ajan kirjekokoelman kirjettä on aikoinaan kirjoitettu puhtaaksi kirjoituskoneella. Digitoimalla nämä litteroinnit saimme käyttöömme valmiin opetusaineiston, johon käsinkirjoitettuja kirjeitä saattoi verrata. [3]

Aloitimme mallin luomisen kuvaamalla niitä alkuperäiskirjeitä, jotka oli jo kirjoitettu puhtaaksi. Tämän jälkeen syötimme valokuvat sekä niitä vastaavat tekstitiedostot Transkribukseen. Ohjelma yhdistää nämä automaattisesti, mutta työn tulos on tarkastettava manuaalisesti. Tekoäly ei aina kykene yhdistämään valokuvan ja tekstitiedoston sanoja oikein. Lisäksi rivitys on ohjelmalle joskus hankalaa, koska siihen on syötetty esimerkkiaineistona paljon taulukoita, jotka ovat kahdella tai useammalla palstalla. Näin ollen ohjelma saattaa tulkita samalla rivillä olevan tekstin useaksi eri riviksi, jos sanojen välit ovat pitkiä.

Kun kuvat ja tekstit on saatu vastaamaan toisiaan, voidaan aloittaa mallin luominen. Käytimme työn pohjana Kansallisarkiston suomalaisia sotapäiväkirjoja varten luomaa mallia, sillä kyseessä on saman aikakauden aineisto, joka on kirjoitettu samankaltaisella käsialalla. Opetusaineistoomme kuului 467 kuvaa, joissa oli 52 537 sanaa. Transkribus kävi opetusmateriaalin läpi 1000 kertaa, ja tarkisti sitten mallin 24 kuvan tarkistusjoukon avulla. Tarkistuksen virheprosentti oli 7,89, mikä tarkoittaa sitä, että vähemmän kuin joka kahdestoista kirjain on väärin luettu. Malli ei siis tuota täysin virheetöntä digitointitulosta – se olisi ihme jo ottaen huomioon ihmisten hyvin moninaiset käsinkirjoitustyylit – mutta sen tuottama teksti on hyvin luettavaa ja käyttökelpoista erityisesti digitaalisessa tekstinlouhintatutkimuksessa, jossa digitoinnin yksittäiset virheet peittyvät valtavan tekstimassan alle. Käsinkirjoitusmallimme on vapaasti käytettävissä Transkribus-ohjelmassa kaikille, jotka haluavat muuttaa käsinkirjoitettuja dokumenttejaan sähköiseen muotoon.

Vaikuttaa ilmeiseltä, että Transkribuksen kaltaiset teknologiset läpimurrot tulevat vaikuttamaan historiantutkimuksen painotuksiin Suomessa ja muualla maailmalla. [4] Käsinkirjoitetun tekstin muuttaminen koneluettavaan muotoon mahdollistaa ennen kaikkea mittakaavan suurentamisen: on aivan eri asia tutkia muutamaa sataa kirjettä kuin muutamaa kymmentätuhatta kirjettä. Laadullisesti siirtymä painetusta sanasta käsinkirjoitettuihin aineistoihin merkitsee voimakkaampaa ääntä niille ihmisille, jotka eivät ole kirjoittaneet työkseen ja jotka ovat siksi jääneet tutkimuksen marginaaliin. Kirjeiden, muistivihkojen ja päiväkirjojen sivuille on jäänyt jälkiä sellaisista aikalaiskokemuksista, joita on vaikea löytää vain julkisia lähteitä kuten sanomalehtiä, romaaneja tai pöytäkirjoja lukemalla.

Vaikuttaa ilmeiseltä, että Transkribuksen kaltaiset teknologiset läpimurrot tulevat vaikuttamaan historiantutkimuksen painotuksiin Suomessa ja muualla maailmalla.

Yksittäisen historioitsijan näkökulmasta matalan kynnyksen digitaaliset työkalut voivat vahvistaa omaa toimijuutta tutkimusasetelman suunnittelussa. Esimerkiksi Transkribuksen käyttäjä ei ole enää niin riippuvainen arkistojen ja kirjastojen tekemistä valinnoista vaan voi digitoida tarvitsemiaan aineistoja omatoimisesti. Valitettavasti Transkribuksen kokoisen tutkimusalustan ylläpitäminen ei ole ilmaista, ja se muuttuikin osittain maksulliseksi vuoden 2020 lopulla, mutta opiskelijat ja opettajat saavat edelleen ilmaista laskenta-aikaa. Laajemmalle historiantutkijoiden yhteisölle Transkribus voisi toimia esimerkkinä digitaalisen humanismin potentiaalista ja viedä alan työkulttuuria yksin pärjäämisestä entistä läheisempään yhteistyöhön, jossa rajallisia resursseja ei yritetä haalia itselle vaan humanistisen työn hedelmät jaetaan avoimesti toisten tutkijoiden jatkojalostettaviksi. Projektimme tuottama malli perustuu paitsi Kansallisarkiston 2010-luvulla tekemään pohjatyöhön myös 1980-luvun manuaaliseen konekirjoitustyöhön – ja mikä parasta, tämäkin malli on avoimesti ladattavissa kenen tahansa käytettäväksi ja edelleen paranneltavaksi.

[1] Risto Turunen, Shades of Red: Evolution of the Political Language of Finnish Socialism from the Nineteenth Century until the Civil War of 1918. Historian väitöskirja, Tampereen yliopisto 2021.

[2] Ilari Taskinen, Social lives in letters: Finnish soldiers’ epistolary relationships, intimate practices, and emotionality in World War II. Historian väitöskirja, Tampereen yliopisto 2021; Liisa Mustanoja (toim.), Arjen Sirpaleita ja suuria tunteita. Kirjeet sodan sanoittajina ja ihmissuhteiden ylläpitäjinä 1939–1944. Tampereen yliopisto 2017.

[3] Kirjeiden digitoiminen alkoi Suomen Kulttuurirahaston hankkeessa “Suuret tietokanta-aineistot sodan kokemushistoriassa” (STASKO), ks. https://research.tuni.fi/stasko/

[4] Muehlberger et al., “Transforming scholarship in the archives through handwritten text recognition: Transkribus as a case study”. Journal of Documentation vol. 75 (5) 2019, 954–976. https://www.emerald.com/insight/content/doi/10.1108/JD-07-2018-0114/full/htm