AI-näkyvyys
Robots.txt ja AI-bottien pääsy — pk-yrityksen päätösopas 2026
Pitäisikö pk-yrityksen sallia vai estää GPTBot, ClaudeBot, PerplexityBot ja Google-Extended robots.txt:ssä? Käytännön päätösopas ja valmis esimerkki 2026.
Lyhyt vastaus ensin, koska tämä on yleisin kysymys jonka saan AI-näkyvyysauditeissa: useimpien pk-yritysten kannattaa sallia tunnettujen AI-bottien (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) pääsy sivustolleen. Jos estät ne, et päädy AI-vastauksiin. Tämä on yksinkertainen syy-seuraussuhde, joka monilla unohtuu kun joku jakaa LinkedInissä copy-paste-vinkin "blokkaa AI-botit suojellaksesi sisältöäsi".
Käyn alla läpi mitä robots.txt tarkkaan ottaen on, mitkä AI-botit ovat 2026 olennaisia, miten teet päätöksen oman yrityksesi näkökulmasta ja missä tapauksissa estäminen on perusteltua. Lopussa valmis konfiguraatio, jonka voit kopioida lähes sellaisenaan.
Mikä robots.txt on ja miksi se on vapaaehtoinen
Robots.txt on yksinkertainen tekstitiedosto, joka sijaitsee verkkotunnuksesi juuressa osoitteessa https://yritys.fi/robots.txt. Tiedosto kertoo verkkocrawlereille mihin sivustosi osiin niillä on pääsy ja mihin ei. Standardi on vuodelta 1994 ja perustuu nimensä mukaisesti vapaaehtoisuuteen: tiedosto on pelkkä pyyntö, ei tekninen este.
Käytännössä tämä tarkoittaa kahta asiaa. Vakavat toimijat (Google, OpenAI, Anthropic, Perplexity, Microsoft) noudattavat robots.txt-direktiivejä julkisesti ja dokumentoidusti. Vähemmän vakavat scraperit ja huijariliikenne ohittavat tiedoston täysin. Tästä seuraa olennainen rajaus: robots.txt ei suojaa sisältöäsi väärinkäytöltä, vaan ohjaa luotettujen crawlerien käyttäytymistä. Jos tarvitset oikean teknisen suojan, käytä pääsynhallintaa, salasanasuojausta tai IP-rajauksia, älä robots.txt:ää.
Tärkeimmät AI-botit 2026 ja mihin kukin niistä käyttää dataa
AI-bottien kenttä on jakautunut viime vuoden aikana selkeämpiin alaryhmiin. On olennaista ymmärtää ero training-bottien ja search- tai user-bottien välillä. Training-botit keräävät dataa mallien kouluttamiseen. Search- ja user-botit hakevat sisältöä reaaliaikaisesti silloin kun käyttäjä kysyy jotain. Päätöksesi voi olla erilainen näille kahdelle ryhmälle.
OpenAI — kolme erillistä bottia:
GPTBot— kerää dataa OpenAI:n mallien kouluttamiseen. Jos estät tämän, et vaikuta siihen näytkö ChatGPT-vastauksissa nyt, mutta tuleviin mallisukupolviin kyllä.OAI-SearchBot— indeksoi sisältöä SearchGPT:tä ja ChatGPT:n reaaliaikaista verkkohakua varten. Tämä on olennaisin botti, jos haluat näkyä ChatGPT:n vastauksissa 2026.ChatGPT-User— käy hakemassa sivun silloin, kun käyttäjä erikseen ohjaa ChatGPT:n selailemaan. Esto vaikuttaa suoraan käyttäjäkokemukseen.
Anthropic — Claude:
ClaudeBot— Anthropicin pääasiallinen crawler, käytetään mallien koulutukseen.anthropic-aijaClaude-Web— käytetään Clauden reaaliaikaiseen hakuun ja käyttäjän pyytämään selailuun.
Perplexity — kaksi bottia:
PerplexityBot— yleinen indeksointi.Perplexity-User— käyttäjäaktivoitu haku.
Google — Gemini ja AI Overviews:
Google-Extended— kontrolloi käyttääkö Google sisältöäsi Geminin koulutukseen ja AI Overviews -vastauksiin. Olennaista on, että tämä on erillinen tavallisestaGooglebot-direktiivistä. Voit sallia perinteisen hakuindeksoinnin ja estää AI-käytön, tai päinvastoin.
Microsoft ja muut:
Bingbotkattaa edelleen Bing-haun ja Copilotin osittain.CCBoton Common Crawl, jonka avointa datasettia käyttävät lukemattomat tutkijat ja avoimet kielimallit. Tämä on epäsuora reitti useiden mallien koulutusdataan.
Salli-päätös on oletus useimmille pk-yrityksille
Pk-yrityksen lähtökohta on yleensä yksinkertainen. Sivustosi sisältö palvelee markkinointia: haluat että potentiaalinen asiakas löytää sinut. Vuonna 2026 hän etsii yhä useammin ChatGPT:llä, Perplexityllä tai Geminillä. Jos estät AI-botit, suljet itsesi pois siitä keskustelusta.
Tähän liittyy yksi konkreettinen havainto omasta työstäni asiakkaiden kanssa. Suomalaisilla pk-yrityksillä on harvoin todellista kilpailuetua sisällössään siinä mielessä, että sen koulutuskäyttö LLM-malleissa veisi liiketoiminnan pohjaa. Päinvastoin, sisältö on markkinointimateriaalia jonka tarkoitus on tavoittaa lukijoita. Mitä laajemmin se näkyy, sitä paremmin se palvelee tarkoitustaan.
Milloin estäminen on perusteltua
On muutama tilanne, joissa AI-bottien estäminen tai rajaaminen on harkitsemisen arvoista.
Maksullinen tilausluonteinen sisältö. Jos myyt artikkeleita, raportteja tai tutkimustietoa tilausmallilla, training-bottien estäminen on perusteltua. Voit silti sallia search-botit, koska haluat että hakukoneet löytävät myyntisivut.
Uniikki tutkimusdata kilpailuetuna. Jos yrityksesi liiketoiminta perustuu juuri siihen, että sinulla on dataa jota kilpailijoilla ei ole, training-bottien rajaaminen on rationaalinen suojatoimenpide. Tämä koskee harvoja pk-yrityksiä.
Henkilötietoja sisältävät sivut. Mikäli sivustollasi on osioita joissa on henkilötietoja (asiakaslistauksia, työntekijäprofiileja tunnistetietoineen), niiden tulee olla joka tapauksessa pääsynhallinnan takana. Lisää näille sivuille myös noindex-meta ja blokkaa kaikki botit.
Huomaa että nämä ovat poikkeustapauksia. Jos perusteesi estämiselle on "joku LinkedInissä sanoi että pitää suojautua AI:lta", se ei riitä päätöksen perusteeksi.
Yleinen virhe: koko sivuston blokkaaminen vahingossa
Yksi tyypillisimpiä virheitä, joita näen pk-yritysten robots.txt-tiedostoissa, on tämä rivi:
User-agent: *
Disallow: / Rivit pyytävät kaikkia crawlereita pysymään poissa koko sivustolta. Tulos: et näy missään hakukoneessa, et missään AI-vastauksessa, et missään. Tämä päätyy sivustolle yleensä kahta reittiä: kehittäjä unohti vaihtaa staging-vaiheen asetukset tuotantoon, tai joku jakoi copy-paste-vinkin "näin suojaat sivustosi AI:lta" ymmärtämättä mitä rivit oikeasti tekevät.
Tarkista oma robots.txt:si nyt komennolla curl https://yritys.fi/robots.txt. Jos rivit yllä ovat siellä, korjaa heti.
Valmis esimerkki — salli AI-botit, ohjaa sitemapiin
Tämä on lähtökohta jonka suosittelen tyypilliselle pk-yritykselle. Vaihda verkkotunnus omaksesi:
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
Sitemap: https://yritys.fi/sitemap.xml Tämä konfiguraatio sallii kaiken crawlauksen ja kertoo botille sitemap-tiedoston sijainnin. Jos haluat estää yksittäisen botin, vaihda kyseinen Allow: / riviksi Disallow: /. Jos haluat estää vain tietyt kansiot kaikilta boteilta, lisää alkuun:
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /yksityinen/ Miten tarkistat nykytilan kahdessa minuutissa
Avaa terminaali ja aja:
curl https://yritys.fi/robots.txt Käy tulos läpi rivi riviltä. Etsi erityisesti riviä Disallow: / ilman tarkennuksia, sekä yksittäisten AI-bottien nimien jälkeisiä Disallow-direktiivejä. Jos havaitset jotain, mitä et tunnista, älä poista riviä umpimähkään — selvitä ensin miksi se on siellä, koska joskus rajaukset on tehty hyvästä syystä esimerkiksi WordPress-pluginien ohjeistuksen mukaan.
Jos olet Resahost-asiakas, voit pyytää meitä tarkistamaan robots.txt:n osana AI-näkyvyysauditointia. Käymme samalla läpi myös llms.txt:n ja sivuston Schema.org-merkinnät, koska ne kytkeytyvät samaan kysymykseen siitä, miten näyt AI-vastauksissa.
Resahost-asiakkaalle oletukset on viritetty AI-näkyvyyttä varten
Kun siirrät sivustosi Resahostille, oletuksena tulee AI-bottiystävällinen robots.txt, llms.txt-tiedosto ja Schema.org-merkinnät keskeisille sivuille. Et joudu pohtimaan jokaisen yksittäisen botin user-agent-stringiä, koska olemme tehneet työn puolestasi. Päivitämme listan kun OpenAI, Anthropic tai Google lanseeraa uuden botin.
Tämä on osa yhden oven mallia: hosting, sähköpostin tietoturva ja AI-näkyvyyden perusteet samasta paikasta, samalla sopimuksella, samalla yhteyshenkilöllä. Sinun ei tarvitse koordinoida kolmen eri toimittajan kanssa siitä, kuka vastaa robots.txt:stä.
Aloita ilmaisella tietoturva- ja AI-näkyvyysauditilla, joka näyttää nykytilan omalle verkkotunnuksellesi. Jos haluat keskustella siitä, miten AI-näkyvyys koskee juuri sinun yritystäsi, ota yhteyttä niin käymme tilanteen läpi puolen tunnin puhelussa veloituksetta.