Siirry sisältöön
Tekoäly
Lähdekritiikin merkitys korostuu tekoälybottien aikakaudella

Tekoälybottien käyttö on vaivatonta, ja niitä myös käytetään mitä erilaisemmissa yhteyksissä. Tiedonhakijan ja erilaisten tekstien lukijan onkin syytä olla valppaana.

Kirjoittajat:

Tuula Laurila

tietoasiantuntija
Haaga-Helia ammattikorkeakoulu

Katri Hollo

tietoasiantuntija
Haaga-Helia ammattikorkeakoulu

Julkaistu : 30.03.2023

ChatGPT:n ilmaisversion ympärille syntyneelle hypelle ei täysin löytynyt katetta testissämme. Tekoälybotti tuotti esimerkiksi sujuvan esseevastauksen, jonka faktat eivät ihan olleet kohdillaan, ja väitti käyttäneensä esseen kirjoittamiseen lähteitä, joita ei ole olemassakaan. Alustavien testiemme mukaan uusi maksullinen versio ChatGPT-4 ei suoriudu lähteiden ja sivunumeroiden merkitsemisestä yhtään edeltäjäänsä paremmin. Se myös keksii edelleen artikkeleita ja kirjoittajia, joita ei todellisuudessa ole olemassa.

Tekoälybottien käyttö on vaivatonta ja tekstiä syntyy. Varmuudella niitä myös käytetään mitä erilaisemmissa yhteyksissä. Tiedonhakijan ja erilaisten tekstien lukijan onkin syytä olla valppaana. Teknisesti hyvältä näyttävästä lähdeluettelosta saattaa olla syytä tehdä pistokokeita: ovatko lähteet olemassa? Lähteiden kriittistä arviointia ja faktantarkistuksen merkitystä ei voi liikaa korostaa.

Tiedonhakijan ChatGPT-muistilista

  • ChatGPT ei ole Googlen kaltainen hakukone, joka etsisi vastauksia kysymyksiin netistä.
  • Sekä ilmaisversiota että uutta maksullista GPT-4 -kielimallia hyödyntävää versiota on koulutettu valtavalla määrällä internetin tekstisisältöä, joka on kerätty ennen syksyä 2021. Tuoreempaa dataa ei kummallakaan versiolla ole käytössään.
  • Ei voi luottaa, että tekoälybotin vastaukset perustuvat faktoihin. ChatGPT:n käyttämän kielimallin algoritmi pyrkii ennustamaan, mikä sana todennäköisimmin seuraa edellistä. Se ei ”ymmärrä” sanojen merkitystä, tuottamansa tekstin sisältöä tai sen paikkansapitävyyttä.
  • Tekoälyn opettamiseen käytetyn, netistä kerätyn datan laatu heijastuu botin antamissa vastauksissa. Netissä julkaistun tiedon tavoin koulutusdata sisältänee vinoutunutta, vajavaista tietoa ja suoranaisia valheita. Tarkempaa tietoa datasta ei ole saatavilla.
  • ChatGPT myös ”hallusinoi” (artificial hallucination). Kun siltä kysyy kysymyksen, johon ei löydy vastausta sen koulutusdatasta, botti saattaa keksiä sellaisen. Näin on selvästi käynyt testeissämme ainakin keksittyjen lähteiden ja hatusta vedettyjen sivunumeroiden kohdalla. Paljon vaarallisempiakin hallusinointitilanteita voi helposti kuvitella.
  • Botin kouluttamiseen on käytetty lukuisia eri kieliä ja sen kanssa voi jutella muun muassa suomeksi. Se on kuitenkin pääasiassa suunniteltu ymmärtämään ja tuottamaan tekstiä englanniksi. Koulutusdatan määrän vaihtelu eri kielien kohdalla saattaa vaikuttaa lopputuloksiin. Englannin kielen hallitsevuus on syytä pitää mielessä tässäkin yhteydessä.
  • Kirjoittajalle työkalu voi olla apuna esimerkiksi näkökulmien etsimisessä, tekstin rakenteen hahmottelussa tai valkoisen paperin kammon voittamisessa. Tietojen tarkistaminen, lähdemateriaaleihin tutustuminen, tekstin muokkaaminen ja varsinainen ajattelutyö jää ihmiskäyttäjälle.
  • Tekoälybotin tuottaman tekstin tarkistaminen voi tosin olla työlästä. Helpotusta tähän saattaa olla tuomassa ChatGPT:n kilpailija. Ennakkotietojen mukaan Googlen Bard-chattibottiin olisi tulossa hakunappi, jolla voi näppärästi tehdä Google-haun samasta aiheesta. Toki tällöinkin on otettu vasta tiedon arviointimatkan ensimmäinen askel: haulla löytyvät nettilähteet on joka tapauksessa luettava itse ja arvioitava kriittisesti.

Tekoälyn tunnistustyökalut

Plagioinnintunnistukseen on kehitetty palveluja, niin myös tekoälyn tuottaman tekstin tunnistukseen. Osa työkaluista on tarkoitettu sisällöntuottajille hakukoneoptimointiin. Tarkista, miten tekstiä kannattaa muokata, jotta liiallinen AI-generoitu teksti ei laske sivusi rankkausta hakukoneiden tuloslistalla.

Toiset tunnistusohjelmat ovat puolestaan suunnattu oppilaitoksille opiskelijoiden tekstien tarkistamiseen. Esimerkiksi Turnitin, joka omistaa Haaga-Heliassakin käytössä olevan Ouriginal-palvelun, on tuomassa korkeakouluille työkalua tekoälyn tuottaman tekstin tunnistamiseen vielä tämän vuoden aikana. Vastaavia työkaluja on jo vapaasti verkossa käytettävissä, esimerkiksi plagioinnintunnistuspalvelu Crossplagin testikäytössä oleva AI Content Detector ja Princeton-yliopiston tietojenkäsittelytieteiden opiskelijan ylläpitämä GPTZero. Onpahan vastaava myös OpenAI:lla itsellään.

Testasimme lyhyesti näitäkin työkaluja. Lopputulos on, etteivät ne näytä toimivan aukottomasti. Edes OpenAI:n oma työkalu ei tunnista kaikkia englanninkielisiä tekstejä AI-generoiduiksi, saati suomenkielisiä. Koska tunnistustyökalujen käytössä on monia tietosuojaan ja tekijänoikeuksiin liittyviä kysymyksiä, niihin ei kannata suin päin syöttää ainakaan muiden – esimerkiksi opiskelijoiden – tekstejä. Samoja avoimia kysymyksiä on toki myös itse tekoälybotin käytössä.

Kuva: www.shutterstock.com