Siirry sisältöön
Tekoäly
Paljonko dataa on riittävästi tekoälyratkaisujen kehittämisessä?

Kysymykseen ei ole yksikäsitteistä vastausta, koska riittävä määrä dataa riippuu vahvasti sovelluksesta ja datan tyypistä.

Kirjoittajat:

Julkaistu : 10.01.2023

Datan soveltuvuus tekoälypohjaisten ratkaisujen kehittämiseen on monia ulottuvuuksia huomioiva prosessi. Datan laadun on oltava hyvä ja datan täytyy soveltua ongelmaan, jota ollaan ratkaisemassa. Seuraavaksi halutaan varmistaa, että tekoälyratkaisussa voidaan edetä ja silloin keskeiseksi kysymykseksi nousee se, onko dataa riittävästi. Tässä kirjoituksessa pohdin sitä, mikä määrä dataa on tarpeeksi.

Mitä enemmän parametreja, sitä enemmän dataa

Pohdintaan ei ole yksikäsitteistä vastausta, koska riittävä määrä dataa riippuu vahvasti sovelluksesta ja datan tyypistä. Datatieteilijän näkökulmasta dataa ei voi koskaan olla liikaa. Isostakin datamassasta voi aina ottaa tarvittaessa pienempiä, edustavia näytteitä, jos ei haluta käyttää kaikkea dataa. Liiketaloudellisesta näkökulmasta dataa ei kuitenkaan kannata kerätä enempää kuin on tarpeen.

Mitä monimutkaisempi malli halutaan kouluttaa, eli mitä enemmän parametreja malli sisältää, sitä enemmän dataa tarvitaan. Vanha nyrkkisääntö sanoo, että datanäytteitä tulisi olla ainakin 10 kertaa mallin vapaiden parametrien määrän verran. Yksinkertaisessa regressioanalyysin käytettävässä lineaarisessa mallissa parametreja on tyypillisesti kymmeniä, kun taas kuvien luokitteluun käytettävässä neuroverkkomallissa parametreja on helposti miljoonia.

Tarvittavan datan määrään vaikuttaa erityisesti seuraavat kolme asiaa:

  • Koneoppimisalgoritmi: Mitä enemmän vapausasteita mallissa on, sitä enemmän dataa vaaditaan mallin opetukseen. Jos mallin oppimiskapasiteetti on liian suuri datan määrään nähden, eli malli on liian monimutkainen (esimerkiksi syvä neuroverkko), seurauksena on helposti ylioppiminen ja heikko yleistyvyys.
  • Datan laatu ja signaali-kohinasuhde: Mitä heikompi datan laatu on ja mitä heikompi on halutun informaation määrä suhteessa ei-haluttuun eli alhainen signaali-kohinasuhde, sitä enemmän dataa tarvitaan, jotta malli oppii erottamaan halutun signaalin ja toimimaan sen pohjalta.
  • Ongelman tyyppi ja vaikeusaste: Mitä vaikeampi ongelma on kyseessä, vastaavasti tarvitaan enemmän dataa riittävän tarkan mallin kouluttamiseen. Halutaanko esimerkiksi luokitella henkilöautot ja bussit (kaksi luokkaa), vai pitääkö lisäksi luokitella myös kaikki autojen merkit (kymmeniä luokkia)?

Datastrategialla luodaan tekemiselle kehykset

Suuri datan määrä on erityisesti monimutkaisten mallien kouluttamisessa tehokas, ja usein paras tapa edesauttaa mallin yleistyvyyttä ja näin ollen välttää mallien ylioppimista. Tässä yhteydessä synteettisen datan merkitys on erityisen suuri, mikäli sellaisen generoiminen on mahdollista.

Tyyppiesimerkki synteettisestä datasta on kuvallisen data erilaiset muunnokset. Kuvien kierroilla, siirroilla ja peilauksilla alkuperäisistä kuvista saadaan helposti moninkertainen määrä uusia, synteettisiä näytteitä. Toisaalta rakenteelliselle datalle synteettisten näytteiden generointi on huomattavasti hankalampaa, koska prosessia, josta data on syntynyt, ei yleensä tunneta.

Toisinaan on myös mahdollista hyödyntää esiopetettuja tekoälymalleja, jotka on valmiiksi koulutettu. Tällaisia malleja on saatavissa sekä avoimesti että kaupallisesti, ja erityisesti teksti, ääni, kuva ja videodatalle. Esiopetettua mallia voidaan käyttää joko sellaisenaan tai sitä voidaan edelleen kouluttaa eli hienosäätää omalla datalla. Tällöin jo hyvin pieni määrä dataa voi riittää. Esiopetetun mallin hienosäätäminen tuottaa usein paremman mallin kuin pelkästään omalla datalla on saavutettavissa.

Tämän kääntöpuolena on kuitenkin se, että mallin esiopetukseen käytetty data on monesti tuntematonta, jolloin malliin voi jäädä epätoivottuja vääristymiä. Esimerkiksi kielimallien tapauksessa aineistossa voi olla mukana toksista ja vääristynyttä aineistoa, jolloin myös lopullinen malli voi olla jossain määrin vääristynyt (GPAI 2020).

Datastrategian luominen auttaa yrityksiä tunnistamaan datatarpeet ja huomioimaan ne luontevana osana jokapäiväistä liiketoimintaa. Parhaimmillaan datasta ja siihen pohjautuvista tekoälyratkaisuista voi syntyä yritykselle tärkeä strateginen voimavara.

Kirjoitus on osa Tekoälyinnovaatioekosysteemillä kilpailukykyä pk-yrityksille eli AI-TIE -hanketta. Euroopan aluekehitysrahaston ja Uudenmaan liiton tuella AI-TIE -hanke edistää PK-yritysten liiketoiminnan kehittämistä ja kasvua tekoälyratkaisuja hyödyntäen osana Euroopan unionin covid-19-pandemian johdosta toteuttamia toimia. Hankkeen toteuttavat Haaga-Helia ja Laurea ammattikorkeakoulut yhdessä tiiviin partneriverkoston kanssa. Lisätietoa AI TIE:stä: www.aistories.fi

Lähde

GPAI, Global Partnership on Artificial Intelligence’s Working Group on Data Governance. 2020. The Role of Data in AI. Digital Curation Centre, Trilateral Research, School of Informatics, The University of Edinburgh.

Kuva: www.shutterstock.com