A leggyakoribb hibák a robots.txt fájlban, amikkel véletlenül kizárhatod magad

A digitális világ útvesztőjében a robots.txt fájl olyan, mint egy forgalomirányító rendőr a weboldaladon. Egyszerű szöveges fájlnak tűnhet, de valójában hatalmas befolyással bír arra, hogy a keresőmotorok robotjai hogyan látogatják és indexelik a webhelyedet. Egy apró elütés, egy rossz formázás vagy egy átgondolatlan utasítás, és máris kizárhatod az oldaladat a Google és más keresőmotorok találati listáiból. Ez olyan, mintha egy láthatatlan függönyt húznál a weboldalad elé, amit csak te nem veszel észre, miközben csodálkozol, miért nem talál rád senki.

Cikk tartalma

A robots.txt hibák különösen alattomosak, mert gyakran észrevétlenek maradnak, amíg nem szembesülsz a következményekkel: zuhanó látogatottsággal, eltűnő keresési találatokkal és értékes tartalmakkal, amelyeket senki sem lát. Nem ritka, hogy webmesterek hónapokig küzdenek az organikus forgalom visszaesésével, mielőtt rájönnének, hogy a probléma gyökere egy rosszul konfigurált robots.txt fájl.

Mi is az a robots.txt és miért olyan fontos?

A robots.txt egy egyszerű szöveges fájl, amit a webhelyed gyökérkönyvtárában helyezel el (pl. www.teoldalad.hu/robots.txt). Ez az első dolog, amit a keresőmotorok robotjai (más néven crawlerek vagy pókok) ellenőriznek, amikor meglátogatják az oldaladat. Ez a fájl utasításokat ad nekik arról, hogy mely részeket látogathatják, indexelhetik, és melyeket nem.

A robots.txt alapvető célja, hogy segítsen kontrollálni a keresőrobotok viselkedését a weboldaladon, például:

Megakadályozhatod, hogy bizonyos oldalak megjelenjenek a keresési találatokban
Korlátozhatod a kereső robotok hozzáférését a szerver erőforrásokat túlzottan igénybe vevő részekhez
Megadhatod a sitemap.xml fájl helyét, ami segíti a keresőmotorokat a webhelyed struktúrájának megértésében

„A robots.txt nem biztonsági eszköz! Soha ne használd érzékeny információk elrejtésére, mivel bárki megtekintheti a tartalmát egyszerűen a böngészőbe beírva a webcímet.”

A robots.txt fájl alapvető felépítése

Mielőtt belemerülnénk a gyakori hibákba, fontos megérteni a robots.txt alapvető felépítését:

User-agent: [robot neve]
Disallow: [tiltott útvonal]
Allow: [engedélyezett útvonal]
Sitemap: [sitemap URL]

User-agent: Meghatározza, melyik robotra vonatkoznak az utasítások. A * minden robotra vonatkozik.
Disallow: Megadja azokat az útvonalakat, amiket nem látogathat meg a robot.
Allow: Megadja azokat az útvonalakat, amiket meglátogathat a robot (még akkor is, ha egy tágabb Disallow szabály alá esnek).
Sitemap: Megadja a sitemap.xml fájl teljes URL-jét.

Egy egyszerű példa:

User-agent: *
Disallow: /admin/
Allow: /admin/public-info/
Sitemap: https://www.teoldalad.hu/sitemap.xml

A leggyakoribb végzetes hibák a robots.txt fájlban

1. Az egész weboldal véletlen kitiltása

Talán a legkatasztrofálisabb hiba, amit elkövethetsz, ha véletlenül az egész weboldaladat kitiltod az indexelésből. Ez egyetlen sorral megtörténhet:

User-agent: *
Disallow: /

Ez a konfiguráció azt mondja minden keresőrobotnak, hogy a webhelyed egyetlen részét se látogassa meg. Ha ezt a beállítást alkalmazod és nincs más specifikusabb szabály, a teljes weboldalad eltűnik a keresési találatokból.

Gyakran ez a hiba fejlesztési környezetből kerül át éles környezetbe, amikor a fejlesztők jogosan blokkolják a tesztoldalt, de elfelejtik módosítani a beállítást az éles indulás előtt.

2. Helytelen szintaxis és formázási hibák

A robots.txt fájl érzékeny a szintaxisra és a formázásra. Néhány gyakori formázási hiba:

🔴 Helytelen betűméret használata a direktívákban (pl. „disallow” „Disallow” helyett)
🟢 Hiányzó kettőspont a direktíva után
🟡 Felesleges szóközök a sorok elején vagy végén
🔵 Hiányzó perjel (/) az útvonalak elején
🟣 Érvénytelen karakterek használata

Példa egy hibás szintaxisra:

user-agent: Googlebot
disallow /titkos-folder/
allow: /publikus-tartalom

Helyesen így kellene kinéznie:

User-agent: Googlebot
Disallow: /titkos-folder/
Allow: /publikus-tartalom/

3. Fontos tartalmak véletlen kitiltása

Különösen veszélyes, amikor fontos, értékes tartalmakat tiltasz ki véletlenül. Ez gyakran akkor fordul elő, amikor túl általános szabályokat használsz, vagy nem gondolod át a mintaillesztés következményeit.

Például:

User-agent: *
Disallow: /content/

Ez a szabály kitiltja a /content/ könyvtárat, de mi van, ha ebben vannak a legfontosabb blogbejegyzéseid vagy termékleírásaid? Minden, ami ebben a mappában van, láthatatlanná válik a keresőmotorok számára.

„A túl általános tiltások olyan hatással lehetnek a weboldaladra, mint amikor egy könyvesboltban a legjobb könyveket a raktárban hagyod, ahelyett hogy a kirakatba tennéd.”

4. Ellentmondó szabályok

A robots.txt fájlban az ellentmondó szabályok komoly fejfájást okozhatnak. A különböző keresőmotorok eltérően értelmezhetik ezeket, ami kiszámíthatatlan eredményhez vezethet.

User-agent: *
Disallow: /*.pdf$
Allow: /

Ebben a példában nem egyértelmű, hogy a PDF fájlokat indexelni kellene-e vagy sem. A Google például a legspecifikusabb szabályt követi, így valószínűleg nem indexeli a PDF-eket, de más keresőmotorok másképp dönthetnek.

5. A relatív URL-ek használata

A robots.txt fájlban csak relatív URL-eket használhatsz a Disallow és Allow direktívákban (a Sitemap kivétel). Gyakori hiba a teljes URL-ek használata:

User-agent: *
Disallow: https://www.teoldalad.hu/privat/

Helyesen:

User-agent: *
Disallow: /privat/

6. A fájl rossz helyre helyezése

A robots.txt fájlnak a webhelyed gyökérkönyvtárában kell lennie, nem pedig egy almappában. Csak így tudják megtalálni a keresőrobotok.

Helyes elhelyezés: https://www.teoldalad.hu/robots.txt
Helytelen elhelyezés: https://www.teoldalad.hu/config/robots.txt

Ha aldomainen vagy alkönyvtárban üzemeltetsz webhelyet, tudnod kell, hogy csak a gyökérdomainhez tartozó robots.txt fájl érvényes. Például ha a blogod a blog.teoldalad.hu címen fut, akkor a https://blog.teoldalad.hu/robots.txt fájlt kell használnod, nem pedig a https://www.teoldalad.hu/robots.txt fájlt.

Speciális robots.txt hibák és következményeik

Wildcard karakterek helytelen használata

A robots.txt támogat bizonyos wildcard karaktereket, de ezek használata gyakran félreértésekhez vezet:

User-agent: *
Disallow: /*.php

Ez a szabály nem tiltja le az összes PHP fájlt, ahogy sokan gondolnák. A helyes formátum:

User-agent: *
Disallow: /*.php$

A $ karakter jelzi, hogy az URL-nek .php-ra kell végződnie.

Kommentek nem megfelelő használata

A robots.txt fájlban használhatsz kommenteket a # karakter segítségével, de gyakori hiba, hogy a komment ugyanabban a sorban van, mint egy direktíva:

User-agent: * # Ez minden robotra vonatkozik
Disallow: /admin/

Ez hibás, mert a # Ez minden robotra vonatkozik részt a rendszer a User-agent értékeként értelmezheti. A helyes formátum:

# Ez minden robotra vonatkozik
User-agent: *
Disallow: /admin/

Sitemap hibák

A Sitemap direktíva helytelen használata is gyakori:

User-agent: *
Disallow: /privat/
Sitemap: sitemap.xml

A Sitemap direktívának teljes URL-t kell tartalmaznia:

User-agent: *
Disallow: /privat/
Sitemap: https://www.teoldalad.hu/sitemap.xml

A robots.txt hibák felismerése és elhárítása

Hogyan ellenőrizzük a robots.txt fájlt?

A robots.txt hibák észlelése kulcsfontosságú a problémák megelőzésében. Íme néhány módszer az ellenőrzésre:

Google Search Console: A „Robots.txt tesztelő” eszköz segítségével ellenőrizheted a fájlodat és szimulálhatod, hogyan értelmezik a különböző keresőrobotok.
Közvetlen böngészés: Egyszerűen írd be a böngészőbe: www.teoldalad.hu/robots.txt és nézd meg, helyesen jelenik-e meg.
Robots.txt validátorok: Számos online eszköz áll rendelkezésre, amelyek segítenek azonosítani a szintaktikai hibákat.
Logfájlok elemzése: Ellenőrizd a szerver naplófájljait, hogy lásd, a keresőrobotok hogyan reagálnak a robots.txt fájlra.

A legfontosabb ellenőrzési pontok

Ellenőrzési pont	Mit kell figyelni?
Szintaxis	Helyes direktíva nevek, kettőspontok, szóközök
Elérési utak	Kezdődjenek `/` karakterrel, legyenek relatívak
Lefedettség	Ne tiltsd le véletlenül a fontos tartalmakat
Elhelyezés	A fájl a gyökérkönyvtárban legyen
Következetesség	Nincsenek ellentmondó szabályok

A robots.txt hibák hatásának mérése

Ha azt gyanítod, hogy a robots.txt hibák befolyásolják a webhelyed teljesítményét, érdemes figyelni ezeket a metrikákat:

Metrika	Lehetséges robots.txt probléma jele
Hirtelen forgalomcsökkenés	Túl sok tartalom kitiltása
Csökkenő indexelt oldalak	Fontos tartalmak véletlen kitiltása
Hiányzó kulcsszavas találatok	Releváns oldalak kitiltása
Crawl hibák növekedése	Ellentmondásos szabályok
Új tartalmak késleltetett indexelése	Túlzott crawl korlátozások

„A robots.txt olyan, mint egy térkép a keresőmotorok számára. Ha rossz irányba küldöd őket, ne csodálkozz, ha a látogatóid sem találnak rád.”

Gyakorlati példák és megoldások

Példa 1: Csak bizonyos robotok kitiltása

Ha csak bizonyos keresőrobotokat szeretnél kitiltani, miközben másokat beengeded:

User-agent: BadBot
Disallow: /

User-agent: *
Allow: /

Ez a konfiguráció csak a „BadBot” nevű robotot tiltja ki, minden más robotnak teljes hozzáférést biztosít.

Példa 2: Bizonyos fájltípusok kitiltása

Ha bizonyos fájltípusokat szeretnél kitiltani az indexelésből:

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$
Disallow: /*.xls$

Ez a konfiguráció megakadályozza a PDF, DOC és XLS fájlok indexelését.

Példa 3: Ideiglenes tartalom kitiltása

Fejlesztés alatt álló részek kitiltása:

User-agent: *
Disallow: /fejlesztes-alatt/
Disallow: /beta/
Allow: /beta/public-demo/

Ez a konfiguráció megakadályozza a fejlesztés alatt álló részek indexelését, kivéve a nyilvános demót.

„A jól konfigurált robots.txt olyan, mint egy jó kapus: csak azokat engedi be, akiket kell, és pontosan tudja, kit kell kint tartani.”

Speciális esetek és modern megoldások

Mobilbarát oldalak és a robots.txt

A reszponzív design korában különösen fontos, hogy ne blokkold a mobilspecifikus keresőrobotokat:

# ROSSZ PÉLDA - Ne csináld ezt!
User-agent: Googlebot-Mobile
Disallow: /

Ehelyett használj reszponzív designt, és engedd, hogy minden robot hozzáférjen az oldalaidhoz.

JavaScript és AJAX tartalmak kezelése

A modern weboldalak gyakran JavaScript segítségével töltik be a tartalmat, ami kihívást jelenthet a keresőrobotok számára:

# Segítsd a robotokat a JS tartalmak eléréséhez
User-agent: *
Disallow: /api/
Allow: /api/public-data/

Fontos, hogy ne tiltsd le azokat az API végpontokat, amelyek a nyilvános tartalmak megjelenítéséhez szükségesek.

Több domain és subdomain kezelése

Ha több domained vagy subdomained van, mindegyikhez külön robots.txt fájlra van szükség:

# www.teoldalad.hu/robots.txt
User-agent: *
Allow: /
Sitemap: https://www.teoldalad.hu/sitemap.xml

# blog.teoldalad.hu/robots.txt
User-agent: *
Allow: /
Disallow: /draft/
Sitemap: https://blog.teoldalad.hu/sitemap.xml

„Minden aldomain egy külön birodalom a keresőrobotok szemében, saját szabályokkal és határokkal. Ne feledd, hogy mindegyikhez külön robots.txt fájlra van szükség.”

A robots.txt alternatívái és kiegészítői

Meta robots tag

A robots.txt mellett vagy helyett használhatod a meta robots taget is az egyes oldalak indexelésének szabályozására:

<meta name="robots" content="noindex, nofollow">

Ez a módszer sokkal precízebb, mivel oldalanként alkalmazható, míg a robots.txt az egész webhelyre vonatkozik.

X-Robots-Tag HTTP fejléc

Nem HTML fájlok esetén (pl. PDF, DOC) használhatod az X-Robots-Tag HTTP fejlécet:

X-Robots-Tag: noindex

Ez a módszer lehetővé teszi a nem HTML tartalmak indexelésének szabályozását.

„A robots.txt csak az első védelmi vonal. A valóban hatékony indexelés-szabályozáshoz kombinálnod kell a robots.txt fájlt, a meta robots tageket és az X-Robots-Tag HTTP fejléceket.”

Robots.txt hibaelhárítási útmutató

Ha problémákat tapasztalsz a robots.txt fájloddal kapcsolatban, kövesd ezt az ellenőrzőlistát:

Ellenőrizd az elérhetőséget: Győződj meg róla, hogy a robots.txt fájl elérhető a helyes URL-en.
Validáld a szintaxist: Használj online validátort vagy a Google Search Console-t.
Ellenőrizd a tiltott útvonalakat: Győződj meg róla, hogy nem tiltottad le véletlenül a fontos tartalmakat.
Nézd meg a szerver válaszkódját: A robots.txt fájlnak 200 OK válaszkóddal kell visszatérnie.
Ellenőrizd a MIME típust: A robots.txt fájl MIME típusának text/plain-nek kell lennie.

Fejlett robots.txt technikák

Crawl-delay direktíva

Bizonyos keresőmotorok támogatják a Crawl-delay direktívát, amely segít szabályozni, milyen gyakran látogathatják a robotok az oldaladat:

User-agent: *
Crawl-delay: 10

Ez a beállítás arra utasítja a robotokat, hogy várjanak 10 másodpercet az oldalak között.

Fontos megjegyezni, hogy a Google nem támogatja a Crawl-delay direktívát. Helyette a Google Search Console-ban állíthatod be a crawl rátát.

Különböző szabályok különböző robotoknak

Különböző keresőrobotoknak különböző szabályokat állíthatsz be:

User-agent: Googlebot
Disallow: /csak-bingnek/

User-agent: Bingbot
Allow: /csak-bingnek/
Disallow: /csak-googlenak/

User-agent: *
Disallow: /csak-bingnek/
Disallow: /csak-googlenak/

Ez a konfiguráció lehetővé teszi, hogy bizonyos tartalmakat csak bizonyos keresőmotoroknak mutass meg.

„A robots.txt fájl olyan, mint egy személyre szabott útiterv minden keresőrobot számára. Ha jól csinálod, mindegyik megtalálja, amit keresnie kell, és elkerüli, amit nem.”

A robots.txt jövője

A webtechnológiák fejlődésével a robots.txt is változik. A Google nemrég nyílt forráskódúvá tette a robots.txt elemző könyvtárát, és dolgozik a robots.txt szabvány hivatalos RFC-vé alakításán.

Az új szabvány várhatóan tisztázza a jelenlegi kétértelműségeket, és új funkciókat vezet be, amelyek segítenek a webmestereknek a keresőrobotok viselkedésének jobb szabályozásában.

Végső tanácsok a robots.txt hibák elkerüléséhez

Teszteld a változtatásokat: Mielőtt élesben módosítanád a robots.txt fájlt, teszteld a Google Search Console-ban.
Monitorozd a hatásokat: A módosítások után figyeld a keresési forgalmat és az indexelési statisztikákat.
Használj verziókezelést: Tartsd nyilván a robots.txt változtatásait, hogy szükség esetén visszaállíthasd a korábbi verziót.
Légy specifikus: Kerüld az általános tiltásokat, helyette használj specifikus útvonalakat.
Rendszeresen ellenőrizd: A robots.txt nem „set it and forget it” típusú fájl, rendszeresen felül kell vizsgálni.

„A jó robots.txt olyan, mint egy jól megírt törvénykönyv: egyértelmű, következetes, és csak azt szabályozza, amit valóban kell.”

A robots.txt fájl megfelelő kezelése kulcsfontosságú a webhelyed SEO sikeréhez. Az ebben a szövegben bemutatott gyakori hibák elkerülésével és a bevált gyakorlatok követésével biztosíthatod, hogy a keresőrobotok pontosan azt lássák a webhelyedből, amit szeretnél – se többet, se kevesebbet.