Pro
Siirry sisältöön
Viestintä ja markkinointi

Näin disinformaatio leviää LLM-groomauksen kautta

Kirjoittajat:

Martti Asikainen

viestinnän asiantuntija
Haaga-Helia ammattikorkeakoulu

Julkaistu : 09.06.2025

Viime vuosina suuret kielimallit (LLM), kuten ChatGPT, Gemini ja Claude, ovat nousseet merkittäviksi työkaluiksi tiedonhaussa, kirjoittamisessa ja jopa päätöksenteon tukena. Kielellinen kyvykkyys ja yleishyödyllisyys tekevät niistä houkuttelevia paitsi tavallisille kuluttajille myös niille, joilla ei ole puhtaat jauhot pussissa. Huoli on todellinen. Kielimalleja on jo nyt pyritty käyttämään vaikuttamistarkoituksiin (Faktabaari 2025; McKenzie & Isis 2025).

Tekoäly voi neuvoa, kirjoittaa ja selittää – mutta entä jos se alkaa valehdella? LLM-groomaus on nouseva ilmiö, jossa kielimalleja manipuloidaan toistamaan propagandaa. Kehityksellä voi olla vakavia seurauksia demokratialle ja tiedon luotettavuudelle.

LLM-groomaus on kielimallin manipulointia

Niin kutsuttu LLM-groomaus on nouseva ilmiö, jossa uhrin sijaan pyritään manipuloimaan kielimallia, jotta se tarjoaisi vääristeltyjä näkökulmia eli disinformaatiota. Tämä tapahtuu syöttämällä sille tarkoituksellisesti vinoutunutta, vääristelevää tai harhaanjohtavaa sisältöä joko käyttöliittymän kautta tapahtuvan syötteen manipulaation muodossa tai syvemmällä tasolla osana sen koulutusaineiston vääristämistä. (ASP 2025.)

Tavoitteena on saada malli toistamaan tietyntyyppisiä viestejä, maailmankuvia tai jopa propagandistisia väitteitä, jotka saattavat alkujaan olla hyvin marginaalisia, mutta saada sitten uskottavuutta tekoälyn välityksellä. Pohjoismaisen faktantarkastajaverkosto EDMO NORDISin tekemän selvityksen mukaan venäläinen propaganda on jo nyt soluttautunut suuriin kielimalleihin lähteinä käytettyjen Pravda-verkoston kautta (Faktabaari 2025).

Bulletin of the Atomic Scientistissa julkaistun tutkimuksen mukaan verkoston lonkerot ulottuvat 182 eri verkkotunnukseen, ja sen toiminta kohdistuu 74 maahan jopa 12 eri kielellä. Pravda-verkoston arvioidaan tuottavan vuosittain vähintään 3,6 miljoonaa Venäjä-myönteistä artikkelia, jotka vaikuttavat myös kielimallien toimintaan. (Newport & Jankowicz 2025.)

Syötteen manipulaatio pähkinänkuoressa

Syötemanipulaatio kuulostaa paljon monimutkaisemmalta kuin se todellisuudessa on. Käytännössä kyse on toiminnasta, jossa käyttäjä antaa kielimallille ohjeita, jotka pyrkivät ohittamaan sen sisäänrakennetut suodattimet tai turvamekanismit. Yksinkertaisimmillaan tämä tapahtuu niin, että disinformaatio naamioidaan osaksi muuta kommunikaatiota tai ohjeet annetaan epäsuorasti, jolloin mallin sisäiset filtterit eivät tunnista sisältöä haitalliseksi.

Esimerkiksi jos mallia pyydetään kirjoittamaan teksti perustuen ainoastaan tiettyihin, epärelevantteihiin tai harhaanjohtaviin lähteisiin, se saattaa alkaa toistamaan virheellisiä väitteitä kritiikittömästi. Kun toimintaan valjastetaan kokonainen bottiarmeija, niin kielimallin käyttämä data saastuu ja harhaanjohtavien väitteiden näennäinen luotettavuus mallin silmissä kasvaa. Tämä voi johtaa väärän tiedon systemaattiseen vahvistumiseen ja leviämiseen.

Toisaalta tätäkin huolestuttavampaa on kielimallien koulutusaineistojen manipulointi (eng. data poisoning), jossa malliin pyritään vaikuttamaan jo ennen sen kouluttamista julkaisemalla verkkoon suuria määriä sisältöjä, jotka esittävät valheita faktoina. Monet kielimallit oppivat ainakin osittain avoimista verkkolähteistä, jolloin väärä tieto voi kulkeutua huomaamatta osaksi niiden sisäistä ’maailmankuvaa’ (esim. Carlini et al. 2023; Qiang et al. 2024; Zhou et al. 2025).

Poisoning Web-Scale Training Datasets is Practical -tutkimus osoitti kokeellisesti, että tällainen vaikuttaminen ja kielimallien harjoitusdatan saastuttaminen ei ole pelkästään mahdollista, mutta myös yllättävän helppoa ja edullista. Jopa 60 dollarin budjetti riitti hyökkäyksen tekemiseen, kun se käytetään vanhentuneiden verkkotunnusten ostamiseen (Carlini et al. 2023). Tämä tekee manipuloinnista realistisen uhan ja paljastaa vakavia heikkouksia nykyisissä datankeruuprosesseissa.

On siis täysin mahdollista, että tekoäly alkaa toistamaan disinformaatiota neutraalin asiantuntijan äänellä – ilman että käyttäjä osaa epäillä mitään.

Miten turvautua vaikuttamisyrityksiltä

LLM-groomaus kytkeytyy läheisesti tekoälyn haavoittuvuuteen ja sen luonteeseen tilastollisena kielimallina. Vaikka malli ei ymmärrä maailmaa ihmisen tavoin, se tuottaa vastauksia ennustamalla tilastollisesti todennäköisimpiä sanayhdistelmiä. Tässä piilee myös sen akilleen kantapää: jos harhaanjohtavaa tietoa esiintyy toistuvasti mallin koulutusaineistossa tai sitä esitetään johdonmukaisesti vakuuttavassa muodossa, malli ei kykene erottamaan sitä luotettavasta tiedosta.

Disinformaatiolta on kuitenkin mahdollista suojautua. Yrityksen näkökulmasta keskeisiä keinoja ovat koulutusdatan valvominen ja sen laadun varmistaminen sekä vastauksien reaaliaikainen valvominen erilaisilla suodattimilla (Carlini et al. 2023; OWASP 2023). Lisäksi mallien tulisi aina kertoa, mihin lähteisiin ne perustavat väitteensä. Jäljitettävyys ja auditointi auttavat tunnistamaan manipulointia jälkikäteen.

Käyttäjän näkökulmasta laki on hänen suojanaan, mutta se ei estä vaikuttamisyrityksiä. Medialukutaito on avainasemassa, jotta käyttäjä kykenee arvioimaan tekoälyn tarjoamia lähteitä ja vastauksia kriittisesti. Myös promptaamisen opettelusta ja hallitsemisesta on hyötyä virheellisten väittämien arvioinnissa. Tärkeintä on, että käyttäjä muistaa kysyä erikseen, mihin lähteisiin tekoäly perustaa väittämänsä, ja miten se on tullut kyseiseen johtopäätökseen. Käyttäjän on itse kyettävä arvioimaan lähteiden luotettavuutta.

Demokratia ja yhteiskunnallinen luottamus

Tekoälyn saastumisen vaikutukset voivat olla dramaattiset. Esimerkiksi ChatGPT:llä on lähes 800 miljoonaa kuukausittaista käyttäjää (Nolan 2025). Jos se alkaa toistamaan salaliittoteorioita, kyseenalaistaa vaalituloksia tai esittää rokotevastaisia väitteitä uskottavana tietona, niin vaikutus yhteiskunnalliseen luottamukseen ja päätöksentekoon voi olla mittava. Erityisen ongelmallista tämä on siksi, että huomattava osa kielimallien käyttäjistä ei tarkista tekoälyltä saamaansa tietoa muista lähteistä (esim. Jacob et al. 2025; Si et al. 2023).

Tutkimukset ovat myös osoittaneet, että ihmiset ovat taipuvaisia yliarvioimaan kielimallien asiantuntemusta, joka näkyy erityisesti silloin, kun vastaus on sujuvasti ja vakuuttavasti muotoiltu (Zou et al. 2023; Ovide 2025). Lisäksi ne ovat koulutettu tuottamaan kieltä tavalla, joka saa ne vaikuttamaan empaattisilta, hyväksyviltä ja kuuntelevilta, joka saa käyttäjän kokemaan syvää luottamusta, vaikka kyse on simuloidusta ymmärryksestä (Ennis-O’Connor 2024).

Edellä mainituista syistä kysymys LLM-groomauksesta ei ole vain tekninen, vaan se on syvästi yhteiskunnallinen kysymys. Jos tekoälyä voidaan manipuloida ihmisen tapaan, mutta paljon ihmistä nopeammin ja laajemmassa mittakaavassa, niin meillä on edessämme täysin uudenlainen informaatiovaikuttamisen aikakausi. Tämä kehitys haastaa kaikki perinteiset käsityksemme siitä, miten tieto leviää ja miten mielipiteitä muokataan.

Haasteeseen ei ole yksinkertaisia ratkaisuja. Kielimallien on kyettävä tunnistamaan ja torjumaan haitallisia syötteitä säilyttäen samalla hyödyllisyytensä. Liian tiukka suodatus voi estää tehdä kielimalleista hyödyttömiä. Euroopan unionin regulaation lisäksi avainasemaan voi nousta läpinäkyvyys. Käyttäjät on saatava ymmärtämään, millä perusteilla kielimallit tekevät päätöksiä ja miten ne käsittelevät erilaisia pyyntöjä.

Kirjoittaja on Haaga-Helia ammattikorkeakoulun viestinnän asiantuntija ja tekoälykouluttaja, SOMA-verkoston jäsen (Social Observatory for Disinformation and Social Media Analysis) sekä palkitun Faktabaarin entinen faktantarkistaja.

Lähteet

American Sunlight Project. 2025. A Pro-Russia Content Network Foreshadows the Auomated Future of Info Ops. Sunlight Foundation. Washington.

Carlini, N., Jagielski, M., Choquette-Choo, C.A., Paleka, D., Pearce, W., Anderson, H., Terzis, A., Thomas, K. & Tramér, F. 2023. Poisoning Web-Scale Training Datasets is Practical. arXiv. Cornellin yliopisto.

Ennis-O’Connor, M. 2024. The AI Empathy Paradox: Can Machines Understand What They Cannot Feel?. Julkaistu Mediumissa 23.12.2024. Viitattu 30.5.2025.

Faktabaari. 2025. Venäjä on soluttanut propagandaansa tekoälymalleihin pohjoismaisilla kielillä. Julkaistu Faktabaarin verkkosivuilla 28.5.2025. Viitattu 30.5.2025.

Jacob, C., Kerrigan, P. & Bastos, M. 2025. The chat-chamber effect. Trusting the AI hallucination. Big Data & Society, 12(1). Sage Journals.

Newport, A. & Jankowicz, N. 2025. Russian networks flood the Internet with propaganda, aiming to corrupt AI chatbots. Julkaistu Bulletin of Atomic Scientististin verkkosivuilla 26.3.2025. Viitattu 6.6.2025.

Nolan, B. 2025. Sam Altman says ‘10% of the world now uses our systems a lot’ as Studio Ghibli-style AI images help boost OpenAI signups. Julkaistu Fortunen verkkosivuilla 14.4.2025. Viitattu 30.5.2025.

Ovide, S. 2025. You are hardwired to blindly trust AI. Here’s how to fight it. Julkaistu Washington Postin verkkosivuilla 3.6.2025. Viitattu 6.6.2025.

Qiang, Y., Zhou, X., Zade, S.Z., Roshani, M. A., Khanduri, P., Zytko, D. & Zhu, D. 2024. Learning to Poison Large Language Models During Instruction Tuning. arXiv. Cornellin yliopisto.

Ruchira, R. & Bhalani, R. 2024. Mitigating Exaggerated Safety in Large Language Models. arXiv. Cornellin yliopisto.

Si, C., Goyal, N., Wu, S.T., Zhao, C., Feng, S., Daume, H. & Boyd-Graber, J. 2023. Large Language Models Help Humans Verify Truthfulness — Except When They Are Convincingly Wrong. arXiv. Cornellin yliopisto.

Zhou, X., Qiang, Y., Roshani, M. A., Khanduri, P., Zytko, D. & Zhu, D. 2025. Learning to Poison Large Language Models for Downstream Manipulation. arXiv. Cornellin yliopisto.

Zou, A., Wang, Z., Carlini, N., Nars, M., Kolter, J.Z. & Fredrikson, M. 2023. Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv. Cornellin yliopisto.

Kuva: Haaga-Helia/ Kuulu.fi