Siirry sisältöön
Digitaalisuus
Kohti tekoälyavusteista sisältöanalyysiä – esimerkkinä MaRa-alan osaamistarpeiden tunnistaminen

Haastatteluaineiston analyysi on yleensä aikaa vievää manuaalista työtä, jossa analyysia ja tulkintaa ohjaa tutkijan asiantuntemus, näkemys ja valittu tulokulma. Tässä artikkelissa vertaillaan, millaisiin tuloksiin päästään perinteisellä ihmisen tekemällä laadullisella sisällönerittelyllä verrattuna tekoälyllä tuotettuun analyysiin.

Kirjoittajat:

Janne Kauttonen

senior researcher
Haaga-Helia ammattikorkeakoulu

Eeva Puhakainen

viestinnän lehtori, TKI-viestintävastaava
Haaga-Helia ammattikorkeakoulu

Meri Vehkaperä

strategiatyön ja johtamisen lehtori
Haaga-Helia ammattiorkeakoulu

Julkaistu : 20.01.2022

Toisin kuin rakenteellista numeerista dataa, vapaamuotoista tekstiaineistoa ei voi pyöräyttää sellaisenaan tilastollisen ohjelman kautta ja saada ulos siistejä taulukoita. Luonnollisen kielen käsittely on haastavaa informaation monipuolisuudesta ja suuresta variaatiosta johtuen.

Esimerkkinä käytämme sanapilveä, joka on yksinkertaisin ja suosituin tapa käsitellä ja visualisoida tekstidataa. Samalla näkyy konkreettisesti, miten tekoäly voi tukea asiantuntijatyötä.

Sisältöanalyysin ensimmäinen askel – perinteinen sanapilvi

Käytämme dataa, jota olemme keränneet MODULE-tutkimushankkeen yhteydessä. Hankkeessa kehitetään joustavan modulaarisen jatkuvan oppimisen mallia. Malli tukee matkailusektorin työvoiman osaamisen kehittämistä sekä nuorten työllistymistä COVID-19 kriisissä.

Data sisältää 29 litteroitua haastattelua ja yhteensä noin 40 sivua tekstiä. Haastatellut ovat matkailu- ja ravitsemisalan (MaRa) ammattilaisia, jotka toimivat pääasiassa asiantuntija- ja johtotehtävissä. Haastatteluiden aiheena olivat MaRa-alan nykyiset ja tulevaisuuden osaamistarpeet. Sanapilven avulla havainnollistetaan, mitkä taitovaatimukset nousevat esiin aineistosta.

Perinteinen sanapilvi muodostetaan järjestetystä listasta sanoja, jotka on painotettu sanojen esiintymistiheyden mukaan; mitä suurempi sana pilvessä, sitä useammin sana esiintyy lähdemateriaalissa. Sanojen sijainnilla tai värillä ei ole merkitystä.

Riippuen siitä, mihin analyysissä lopulta päädytään ja mitä menetelmiä käytetään – olivatpa ne sitten kvalitatiivisia tai monimutkaisia tekoälypohjaisia kielimalleja – sanapilvi on yleensä ensimmäinen katsaus tekstidataan ja sen perusominaisuuksiin.

Aloitamme perinteisestä sanapilvestä, jossa data on siivottu automaattisesti erottamalla sanat toisistaan, poistamalla sulkusanat (esimerkiksi ja, ei, vaan, jos) ja ei-informatiiviset sanaluokat, kuten erisnimet, adverbit, rinnastuskonjunktiot ja adpositiot. Kuvassa yksi on tuloksena saatu sanapilvi 50 yleisimmälle sanalle.

Kuva 1. Klassinen 50 sanan pilvi

Tämän klassisen sanapilven kymmenen yleisintä sanaa ovat: tulla, tehdä, osaaminen, työ, ala, ihminen, asiakas, uusi, johtaminen ja saada. Huolimatta aineiston verrattain tiukasta esikäsittelystä useimmat sanat eivät ole kovin hyödyllisiä, kun mietitään MaRa-alan yritysten osaamistarpeita.

Vaikka sanapilvessä on oleellisiakin sanoja, kuten digitalisaatio ja vastuullisuus, niiden sijoitus listalla on alhaalla. On vaikeaa, ellei jopa mahdotonta, keksiä sellaista yksinkertaista, ei-vääristävää tekstin esikäsittelyä, joka nostaisi kiinnostavat sanat listan kärkipäähän ja joka toimisi yleisemmin muutenkin kuin tässä valitulla alalla.

Korkeamman abstraktiotason sanapilvet tekoälyn ja asiantuntijan avulla

Miten tekoäly sitten voisi auttaa asiassa? Ajoimme saman tekstiaineiston Headain kehittämän tekoälymallin läpi. Tämä malli on opetettu tunnistamaan sanoja ja tekstissä olevia merkityksiä, jotka ovat relevantteja mm. työelämässä. Kuvassa kaksi näkyy mallin avulla tuotettu sanapilvi.

Kuva 2. Tekoälyn avulla tuotettu 50 sanan pilvi

Tekoälyn poimimat kymmenen yleisintä sanat ovat: johtaminen, vastuullisuus, yhteistyö, digitalisaatio, osaamistarpeet, keittiöt, ravintola, data, tiedolla_johtaminen ja vastuu. Kuvasta nähdään nopeasti, että sanat ovat jo huomattavasti hyödyllisempiä, korkeamman tason käsitteitä.

Toisaalta kaikki sanat eivät ole edelleenkään relevantteja taitoja MaRa-alalla, vaan esimerkiksi alaan liittyviä ja hieman itsestään selviä sanoja, kuten ravintola ja keittiöt. Tämä olikin odotettua, sillä tekoälyä ei ollut räätälöity MaRa-alalle ja juuri tähän tehtävään, vaan se toimii yleisemmällä tasolla.

Viimeisenä katsotaan, mitä asiantuntijoiden tekemä sisältöanalyysi tuottaa. Tässä tapauksessa MaRa-alan kokenut kouluttaja on käynyt ajatuksella läpi haastattelut ja luonut alustavan luokituksen ja sanalistan termeistä, jotka nousivat niistä esiin. Aikaa luokittelun tekoon kului ensi vaiheessa noin 15 tuntia. Se on paljon verrattuna kahteen edelliseen tapaan, joiden laskeminen kesti koneelta noin 10 sekuntia. Käsin tehdyn sisällönanalyysin tulos on esitetty sanapilvenä kuvassa kolme.

Kuva 3. Asiantuntijan sisältöanalyysin kautta tuotettu 50 sanan pilvi

Asiantuntijan tekemän sisältöanalyysin kautta saadut kymmenen tärkeintä sanaa ovat: järjestelmäosaaminen, tiedolla_johtaminen, moninaisuuden_johtaminen, asiakasymmärrys, talousosaaminen, monikulttuurinen_työyhteisö, kielitaito, esihenkilötyö, vastuullisuusosaaminen ja myyntiosaaminen.

Ihmisen tekemän analyysin tuloksena on selvästi suurempi abstraktiotaso, jossa osaamisia on yhdistelty ja abstraktiotasoa nostettu tekoälyn tekemään analyysiin verrattuna. Mikäli abstraktiotasolla ei ole väliä, on tekoäly erheettömyydessään aivan verraton.

Tekoälypohjainen tekstianalyysi tuo uuden näkökulman dataan

Yhteenvetona voidaan todeta, että tekoälyn tuottamat sanat ovat hyödyllisiä ja ne vastaavat verrattain hyvin tavoitteeseen, eli mitä taitoja MaRa-alalla kaivataan. Ehdottomia etuja tekoälyn käytössä ovat paitsi asiantuntijatyöhön kuluvan työajan säästyminen, myös tulosten yhdenmukaisuus; tulokset eivät riipu siitä, kuka ne tekee. Tekoäly toisaalta poimii jonkin verran yleisiä tai turhia sanoja, eikä se osaa yhdistää tai luokitella samaan asiaan liittyviä osaamisia.

Asiantuntijan työn tulos vastaa parhaiten siihen mitä analyysiltä lopulta halutaan, sillä asiantuntija osaa erotella ja luokitella käsitteellisesti samantasoiset asiat tekoälyä paremmin. Ihmisen yhdistelemät tulokset saattavat siten olla sellaisenaan nopeammin sovellettavissa. Vaarana tosin on subjektiivisuus, sillä aikaisemman kokemuksen tai asiantuntemuksen – tai sen puutteen – tuoma viitekehys saattaa aiheuttaa joidenkin asioiden painottumisen, tai sen, että jotakin saattaa jäädä pois tai tunnistamatta. Toisaalta jos mukana on useampi ihminen, analyysia voidaan tehdä hieman eri tavoin.

Tekoälyn rooli on tänä päivänä parhaimmillaan lisätukena asiantuntijatyölle. Sisältöanalyysin tapauksessa se antaa uuden ja neutraalin näkökulman dataan, joka ei ole riippuvainen asiantuntijan taustasta. Tämä pätee niin yksinkertaiseen sanapilveen kuin monimutkaisempiin analyyseihin.

Janne Kauttonen työskentelee Haaga-Helia ammattikorkeakoulussa tutkijana sekä monien TKI-hankkeiden data- ja AI-asiantuntijana.
Eeva Puhakainen työskentelee Haaga-Helia ammattikorkeakoulussa viestinnän lehtorina sekä monien TKI-hankkeiden viestinnästä vastaavana.
Meri Vehkaperä työskentelee Haaga-Helia ammattikorkeakoulussa strategiatyön ja johtamisen lehtorina ja MODULE-hankkeen projektipäällikkönä.

Kuva: www.shutterstock.com