Siirry sisältöön
Vastuullisuus
Tekoälyn etiikka ja datan vinoumat

Epäeettiset tekoälyratkaisut suosivat tai sortavat tiettyjä ihmisryhmiä toisten kustannuksella. Tämä on siten verrattavissa epäeettiseen toimintaan, jossa ihmiset ovat suosineet tai sortaneet toisia ikään, sukupuoleen, etniseen taustaan, uskontoon tai johonkin muuhun asiaan liittyen, kirjoittaa Ari Alamäki.

Kirjoittajat:

Ari Alamäki

yliopettaja, myynnin kehittäminen ja digitalisaatio
Haaga-Helia ammattikorkeakoulu

Julkaistu : 27.10.2020

Tekoälyn etiikka on noussut yhä enemmän myös tavallisten kansalaisten tietoisuuteen. Sillä tarkoitetaan käytännössä tekoälyä, jonka tulisi toimia oikein oikeudenmukaisuuden, hyvä elämän ja hyväksyttyjen normien näkökulmasta. Kyse on siten vastuullisuudesta. Tänä päivänä myös älykkäiden laitteiden tulee toimia eettisesti ja vastuullisesti, aivan kuten kansalaisilta, poliitikoilta, yrityksiltä ja julkisyhteisöiltä edellytetään vastuullista toimintaa.

Tekoälyn etiikka

Tekoälyn sovelluksista on tullut itsenäisiä toimijoita, jotka tekevät päätöksiä myös ihmisiin liittyen. Siksi ne eivät ole enää pelkkiä työkaluja, vaan itsenäisiä päätöksiä tekeviä toimijoita (computational agents). Tekoälyn eettiset kysymykset ovat nousseet pintaan, kun on huomattu, että jotkut tekoälyratkaisut ovatkin toimineet ihmisten näkökulmasta väärin. Esimerkiksi Microsoftin, IBM:n ja Face++:n tekoälyratkaisuissa on ollut vääristymiä sukupuolen tunnistamisessa erilaisista etnisiä ryhmiä edustavien henkilöiden kuvista (Buolamwini & Gebru, 2018; Lohr, 2018). Samanlaisia vinoumia on löydetty myös monien muidenkin teknojättien palveluista.

Epäeettiset tekoälyratkaisut suosivat tai sortavat tiettyjä ihmisryhmiä toisten kustannuksella. Tämä on siten verrattavissa epäeettiseen toimintaan, jossa ihmiset ovat suosineet tai sortaneet toisia ikään, sukupuoleen, etniseen taustaan, uskontoon tai johonkin muuhun asiaan liittyen. Useimmille tällainen toiminta on selvästi epäeettistä. Siihen voi kuitenkin sortua nykyään jopa taskussa luuraavan älypuhelimen sovellus. Miten tämä on mahdollista kun kyse on kuitenkin vain elottomista laitteista?

Data ja algoritmit keskiössä tekoälyn etiikassa

Tekoäly vaatii toimiakseen dataa ja älykkäitä algoritmeja. Koneoppimisen algoritmitkin ovat karkeasti yleistettynä peräkkäisiä analyysimalleja suorittavia ohjelmistoja jotka laskevat esimerkiksi todennäköisyyksiä, keskinäisiä riippuvuuksia, poikkeamia tai ryhmittelevät asioita niiden ominaisuuksien mukaan (ks. esim. Dwivedi, 2020). Toisin kuin käsityönä tehtävät tilastoanalyysit, koneoppimisen algoritmit suoriutuvat usein monimutkaisista analyyseistä paremmin ja löytävät toisinaan yllättäviäkin yhteyksiä (Singal, et al. 2013). Tekoäly kykenee laskemaan väsymättä lukemattomia variaatioita kymmenistä muuttujista. Ei siis ihme jos vinoumiakin tai vääristymiä pääsee syntymään analyysin aikana.

Data on raaka-ainetta jota käsittelemällä tuotetaan hyödynnettävää informaatiota päätöksentekoon. Esimerkiksi jonkun henkilön datasta nousee esille piirteet, jotka osoittavat hänen kuuluvan johonkin riskiryhmään. Virkailija lukee sitten nämä tiedot ruudulta ja tekee henkilön elämään merkittävästi vaikuttavan päätöksen tekoälyn ehdottaman luokituksen mukaisesti. Päätöksenteko menee ehkä eettisesti oikein jos tekoälyn algoritmi on opetettu toimimaan datalla, jossa ei ole virheitä tai vääristymiä aiheuttavia asioita ja kohdejoukko pysyy samana kuin testi- ja opetusvaiheessakin. Jos opetusdatassa on jo alun perin vääristymiä, päätöksenteko voi ollakin syrjivää.

Datassa olevat vinoumat aiheuttavat eettisiä ongelmia

Voidaan olettaa, että useimmiten datassa onkin enemmän vinoumia tai vääristymiä aiheuttavia asioita kuin suoranaisia virheitä. Datassa voi olla tällöin yliedustettuna joitakin ihmisryhmiä toisia enemmän, jolloin dataa hyödyntävä tekoäly toimii heidän suhteen tarkemmin. Tekoäly ei osaa itse arvioida dataa jolla se opetetaan, ainakaan vielä. Siksi tekoälyn etiikassa tuleekin kiinnittää huomiota siihen, miten tekoälyratkaisuja suunnitellaan ja kehitetään sekä ennen kaikkea millä datalla ne opetetaan sekä minkä laatuista dataa ne tulevat jatkossa käsittelemään. Esimerkiksi kasvojen tunnistus voi toimia testitilanteessa täydellisesti mutta todellisessa tilanteessa algoritmien luotettavuus voi heiketä merkittävästi (Dirin, Delbiaggio & Kauttonen, 2020). Samoin jokin asia tietyssä kulttuurissa tai maanosassa voikin olla hieman erilainen kuin siinä missä kontekstissa harjoitusdata on luotu (Brandon, 2002). Ongelmia voi tulla Brandonin (2020) mukaan myös siitä, jos harjoitusdata edustaa menneisyyttä mutta tulevaisuus onkin hieman erilainen.

Tekoälyn kehittäjät eivät tahallaan tee virheitä, mutta tekoäly voi alkaakin toimimaan todellisessa käyttötilanteessa toisin kuin testitilanteessa. Datasta voi löytyä yllättäviä korrelaatioita joita kehittäjät eivät osanneet ottaa alun perin huomioon (Brandon, 2020). Suurin tekoälyn eettinen ongelma tuleekin datasta, jolla tekoälyohjelmat ohjelmoidaan ja opetetaan toimimaan. Jos opetusdatassa on virheitä, tekoäly alkaa toimimaan hyvässä uskossa sen mukaisesti suoltamalla kyseiseen dataan pohjautuvia vääristyneitä ehdotuksia. Puhutaan algoritmisesta diskriminaatiosta eli harjoitusdatan vinoutumisesta ja vääristymisestä johtuvasta syrjinnästä (Ojanen, et al., 2019).

Keinoja lisätä tekoälyn eettisyyttä

Eräs keino lisätä tekoälyn eettisyyttä on poistaa datasta sensitiivinen tieto, kuten ikä, sukupuoli tai kansallisuus (Xu, et al, 2020). Xun ja kumppaneiden tutkimuksen mukaan tämä kuitenkin heikentää datan käyttöä. Aikaisempi tutkimus osoittaa, että esimerkiksi sensitiivisen datan korkean tason anonymisointi heikentää informaatiorikkautta, jolloin tekoälyn on entistä vaikeampi tehdä käyttökelpoisia analyysejä (Alamäki, et al. 2019).

Xun ja kumppaneiden (2020) mukaan eräs keino on opettaa tekoäly tunnistamaan sensitiiviset ryhmät ja eristämään ne päätöksenteosta. Heidän mukaansa tämä lisää merkittävästi huomioitavien parametrien määrää, kustannuksia ja yleensäkin monimutkaistaa analyysiä koska jokainen verkosto tai haara tulee opetella huomioimaan. Kyse on siten ennen kaikkea tekoälyn kehittäjien etiikasta, joka kulminoituu mm. siihen kuinka paljon panostetaan aikaa ja taloudellisia resursseja kehitykseen, opetusdataan, tekoälyn mallien opettamiseen ja testaamiseen.

Teknologian kehitys on ollut kautta aikojen kumulatiivista. Tämä tarkoittaa että seuraavat versiot ovat edellistä parempia. Sama pätee tekoälyn kehitykseen, joten voisimme olettaa, että tekoälyn etiikkaan liittyvät tahattomat ongelmat osataan ennakoida entistä paremmin. Tekoälyn soveltaminen on vasta alussa monella alueella ja uusia versioita tulee jatkuvasti. Yhä suurempi ja monipuolisempi datan määrä auttaa myös kehittämään ja tekemään entistä tarkempia analyysejä.

Lähteet:

  • Alamäki, A., Aunimo, L., Ketamo, H. & Parvinen, L. (2019). Interactive Machine Learning: Managing Information Richness in Highly Anonymized Conversation Data. In L.M. Camarinha-Matos, H. Afsarmanesh & D. Antonelli (Eds.), Collaborative Networks and Digital Transformation. The Proceeding of 20th IFIP WG 5.5 Working Conference on Virtual Enterprises, PRO-VE 2019, pp. 173-183
  • Brandon, J. (2020). Using unethical data to build a more ethical world. AI and Ethics, 1-8.
  • Buolamwini, J., & Gebru, T. (2018). Gender shades: Intersectional accuracy disparities in commercial gender classification. Conference on Fairness, Accountability, and Transparency, In the Proceedings of Machine Learning Research, 81, 77-91.
  • Dirin, A., Delbiaggio, N., & Kauttonen, J. (2020). Comparisons of Facial Recognition Algorithms Through a Case Study Application. International Journal of Interactive Mobile Technologies, 14(14), 121-133.
  • Dwivedi, R. (2020). How Does Linear And Logistic Regression Work In Machine Learning? AnalyticsSteps, Luettavissa: https://www.analyticssteps.com/blogs/how-does-linear-and-logistic-regression-work-machine-learning
  • Lohr, S. (2018) Facial Recognition Is Accurate, if You’re a White Guy. The New York Times, 9 helmikuuta 2018. Luettavissa: https://www.nytimes.com/2018/02/09/technology/facial-recognition-race-artificial-intelligence.html
  • Ojanen, A. Oljakka, N., Sahlgren, O., Tuikka A-M. and Vaiste, J. (2019) Opas tekoälyn etikkaan. Turku AI Society.
  • Singal, A. G., Mukherjee, A., Elmunzer, B. J., Higgins, P. D., Lok, A. S., Zhu, J., … & Waljee, A. K. (2013). Machine learning algorithms outperform conventional regression models in predicting development of hepatocellular carcinoma. The American journal of gastroenterology, 108(11), 1723.
  • Xu, T., White, J., Kalkan, S., & Gunes, H. (2020). Investigating Bias and Fairness in Facial Expression Recognition. arXiv preprint arXiv:2007.10075. https://arxiv.org/abs/2007.10075