Tekoälyn hyödyntämiseen liittyvät kokeilut yleistyvät korkeakouluissa ja yliopistoissa. Tekoälyllä tarkoitetaan koneen kykyä suorittaa tehtäviä ihmisen kaltaisesti eli älykkäästi ilman ennalta määriteltyjä sääntöjä. Käytännössä tekoälyn soveltaminen tapahtuu koneoppimismenetelmiä käyttäen.
Tekoälyn ”älykkyys” on kiinni datan laadusta ja valitusta koneoppimisalgoritmista. Algoritmi on ”keittokirja” tai ”resepti”, jonka mukaan tekoäly käsittelee dataa eli ”raaka-aineita” ja tuottaa ”tarjoiltavan lounaan” eli informaatiopohjaisen tuotoksen.
Helpoiten tekoälyä voi hyödyntää ostamalla valmisohjelmistoja tai päivittämällä olemassa olevia järjestelmiä. Tekoälyn käyttöönotossa keskeistä ovat kuitenkin dataan liittyvät asiat, kuten datan valinta, saatavuus, laatu, puhdistaminen ja integrointi. Data on itse asiassa tekoälyprojektin keskeinen menestystekijä.
Esimerkki siirryttäessä manuaalisesta tekoälyavusteiseen analyysiin
Datan louhinnan eräs tunnettu prosessimalli on CRISP DM -malli, jota hyödyntävät useat yritykset ympäri maailmaa. Malli soveltuu myös korkeakoulumaailmaan. Sen tavoitteena on ollut standardoida tiedon louhinnan prosessi, ja se sisältää kuusi keskeistä vaihetta.
CRISP DM -malli (ks. esim. Kurgan & Musilek, 2006; Brown, 2015) lähtee liikkeelle liiketoiminnan ymmärtämisestä ja etenee datan ymmärtämisen ja valmistelun kautta mallintamiseen, arviointiin ja käyttöönottoon. Kuvassa 1. olemme soveltaneet näitä päävaiheita korkeakoulumaailmaan.
Kuvassa oleva data-analyysi on jaettu kahteen polkuun: perinteiseen tilastomallinnukseen ja tekoälyn käyttöön. Näiden ero on menetelmien sovellustavassa ja tavoitteissa.
Tilastotieteessä tavoite on yleensä selvittää keskiarvoja: Mitkä datan piirteet ovat oleellisia? Millainen tilastollinen jakauma sopii dataan? Millä todennäköisyydellä data noudattaa valittua mallia? Näin saadaan tietoa prosessista, josta data on peräisin.
Sen sijaan koneoppimisessa tärkeintä on kyky tehdä mallin pohjalta mahdollisimman tarkkoja ennusteita uudelle datalle, jota ei ole käytetty opetuksessa. Mallin toiminnan analysointi esimerkiksi piirteiden ja datalähteen osalta on yleensä toissijainen tavoite. Perinteinen tilastotiede perustuu matemaattisiin kaavoihin, kun taas koneoppimisessa (raskas) numeerinen laskenta on keskeisessä osassa.
Tekoälysovellusta voidaan jatkuvasti kouluttaa sitä mukaa kun uutta dataa tulee. Voidaan karkeasti sanoa, että tilastollinen mallinnus auttaa ymmärtämään menneisyyttä, mutta tekoälyllä voidaan ennustaa tulevaisuutta.
Tekoälyn suhteen otamme vielä hyödyntämisen ensiaskelia
Tällä hetkellä käytössä olevat tekoälyratkaisut ovat vielä matala-asteista älyä ja ne ovat hyvin spesifien ongelmien ratkaisuun kohdistuvia sovelluksia.
Markkinointidataa analysoivat ratkaisut eivät osaa tulkita oppimisdataa eikä verkkokaupan älykäs chat osaa avustaa ammattikorkeakouluopiskelijaa tämän hakiessa harjoittelupaikkaa. Edes työmarkkinadataa hyödyntävä tekoäly ei kykene ehdottamaan opinnäytteeseen sopivia lähteitä.
Tämä voi kuitenkin muuttua jo lähitulevaisuudessa, kun datan laatu ja määrä kasvavat sekä koneoppimismallit ja laskentanopeus kehittyvät. Aikaisemmat ”excel-harjoitukset” jäisivät pois, kun tekoäly analysoi ja yhdistelee jatkuvasti opintoihin tai opiskeluun liittyvää datavirtaa. Se voi myös havaita sellaisia malleja tai korrelaatioita, joita kukaan ei ole aikaisemmin osannut manuaalisesti etsiä.
Lähteet:
Brown, M. 2015. What IT Needs To Know About The Data Mining Process, Forbes Jul 29, 2015, Luettu 11.6.2020.
Kurgan, L. A. & Musilek, P. 2006. A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review, 21(1), 1-24.