A weboldalak világában néha olyan helyzetbe kerülhetsz, amikor bizonyos tartalmakat szeretnél elrejteni a keresőmotorok elől. Talán fejlesztés alatt áll egy új szekció, esetleg bizalmas információkat tartalmazó oldalaid vannak, vagy egyszerűen csak szeretnéd optimalizálni, hogy a Google és más keresőrobotok mely tartalmaidat indexeljék. A robots.txt fájl ebben nyújt segítséget – ez a kis, de annál fontosabb szöveges fájl utasításokat ad a keresőrobotoknak arról, hogy mit tehetnek és mit nem a weboldaladon.
A robots.txt nem egy bonyolult technikai megoldás, inkább egy egyszerű, de hatékony kommunikációs eszköz közted és a keresőrobotok között. Olyan, mint amikor a házad ajtajára kiteszel egy „Kérem, ne zavarjanak” táblát – a tisztességes látogatók (ebben az esetben a keresőrobotok) tiszteletben tartják ezt a kérést. Azonban fontos tudni, hogy ez nem egy biztonsági eszköz, hanem egy kérés, amit a robotok általában betartanak, de nem kötelező számukra.
A robots.txt alapjai és működése
A robots.txt egy egyszerű szöveges fájl, amit a webhelyed gyökérkönyvtárában kell elhelyezned. Ez azt jelenti, hogy a fájlnak a https://teweboldalad.hu/robots.txt
címen kell elérhetőnek lennie. Amikor egy keresőrobot, mint például a Googlebot meglátogatja a weboldaladat, először ezt a fájlt keresi meg, hogy megtudja, mely részeket indexelheti és melyeket nem.
A robots.txt fájl alapvető szintaxisa meglehetősen egyszerű:
User-agent: [robot neve]
Disallow: [tiltott útvonal]
Allow: [engedélyezett útvonal]
- User-agent: Meghatározza, melyik robotra vonatkoznak a szabályok. A
*
karakter minden robotra vonatkozik. - Disallow: Megadja azokat az útvonalakat, amelyeket nem szeretnél, hogy a robotok bejárjanak.
- Allow: Meghatározza azokat az útvonalakat, amelyeket engedélyezel a robotok számára (akkor használatos, ha egy tiltott könyvtáron belül bizonyos fájlokat mégis engedélyezni szeretnél).
Íme egy egyszerű példa:
User-agent: *
Disallow: /admin/
Disallow: /titkos-projektek/
Allow: /titkos-projektek/publikus-demo/
Ez a példa minden keresőrobotnak megtiltja, hogy hozzáférjen az /admin/
és /titkos-projektek/
könyvtárakhoz, kivéve a /titkos-projektek/publikus-demo/
könyvtárat, amit kifejezetten engedélyez.
A robots.txt fájl létrehozása és elhelyezése
A robots.txt fájl létrehozása rendkívül egyszerű, mivel csak egy sima szöveges fájlról van szó. Íme a lépések, amelyeket követned kell:
- Nyiss meg egy szövegszerkesztőt (például Jegyzettömb, Visual Studio Code, Sublime Text).
- Írd be a robots.txt szabályokat a fenti szintaxis szerint.
- Mentsd el a fájlt „robots.txt” néven.
- Töltsd fel a fájlt a webhelyed gyökérkönyvtárába (root directory).
Fontos, hogy a fájl pontosan a gyökérkönyvtárban legyen, nem pedig egy alkönyvtárban. A keresőrobotok csak a https://teweboldalad.hu/robots.txt
címen keresik a fájlt, máshol nem.
Ha WordPress-t használsz, több plugin is rendelkezésedre áll a robots.txt kezeléséhez, mint például a Yoast SEO vagy az All in One SEO Pack. Ezek felhasználóbarát felületet biztosítanak a robots.txt szerkesztéséhez anélkül, hogy közvetlenül kellene feltöltened a fájlt.
Specifikus utasítások a Google számára
Bár a robots.txt szabványt minden jelentős keresőmotor támogatja, a Google néhány extra funkcióval bővítette azt. Ezek közé tartozik a Sitemap
direktíva, amely megadja a weboldal sitemap.xml fájljának helyét, segítve ezzel a Google-t a webhely struktúrájának jobb megértésében.
User-agent: *
Disallow: /admin/
Sitemap: https://teweboldalad.hu/sitemap.xml
A Google a Crawl-delay
direktívát nem veszi figyelembe, ehelyett a Google Search Console-ban állíthatod be a crawl sebességet. Más keresőmotorok, mint a Bing, támogatják ezt a funkciót, amely meghatározza, hány másodpercet kell várnia a robotnak két oldal letöltése között.
Gyakori robots.txt minták különböző helyzetekre
Különböző helyzetekben különböző robots.txt konfigurációkra lehet szükséged. Íme néhány gyakori forgatókönyv és a hozzájuk tartozó robots.txt beállítások:
Teljes webhely blokkolása minden keresőrobot elől
User-agent: *
Disallow: /
Ez a konfiguráció minden keresőrobotnak megtiltja, hogy bármit is indexeljen a webhelyeden. Akkor hasznos, ha egy fejlesztés alatt álló webhelyet nem szeretnél, hogy a keresőmotorok megtaláljanak.
Csak bizonyos robotok blokkolása
User-agent: BadBot
Disallow: /
User-agent: *
Allow: /
Ez a példa csak a „BadBot” nevű robotot blokkolja, míg minden más robotnak teljes hozzáférést biztosít.
Csak bizonyos könyvtárak és fájlok blokkolása
User-agent: *
Disallow: /admin/
Disallow: /belso-dokumentumok/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /*.pdf$
Ez a konfiguráció megtiltja minden robotnak, hogy hozzáférjen az admin, belső dokumentumok, WordPress admin és includes könyvtárakhoz, valamint bármilyen PDF fájlhoz a webhelyen.
Csak egy specifikus robot engedélyezése
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
Ez a beállítás csak a Google keresőrobotjának (Googlebot) engedi meg a webhely indexelését, minden más robotot kizár.
Speciális szabályok és wildcard karakterek használata
A robots.txt fájlban használhatsz wildcard karaktereket és speciális szabályokat is a pontosabb irányítás érdekében:
A $ jel használata
A $
jel a fájlnév vagy útvonal végét jelöli:
User-agent: *
Disallow: /*.php$
Ez a szabály minden PHP fájlt blokkol, de nem blokkolja azokat az URL-eket, amelyekben a „.php” csak egy része az útvonalnak.
A * wildcard használata
A *
karakter bármilyen karaktersorozatot helyettesíthet:
User-agent: *
Disallow: /*?download=*
Ez a szabály blokkolja az összes olyan URL-t, amely tartalmazza a „?download=” paramétert, függetlenül attól, mi áll előtte vagy utána.
A robots.txt tesztelése
Mielőtt élesben bevezetnéd a robots.txt változtatásait, mindenképpen teszteld azokat. A Google Search Console rendelkezik egy hasznos „robots.txt Tester” eszközzel, amely lehetővé teszi, hogy ellenőrizd a szabályaidat és megtudd, hogyan értelmezi azokat a Googlebot.

A tesztelés során add meg a robots.txt tartalmát és egy URL-t, majd az eszköz megmutatja, hogy a megadott URL engedélyezett vagy tiltott lenne-e a Googlebot számára.
Gyakori hibák és félreértések a robots.txt használatában
A robots.txt használata során számos gyakori hiba fordulhat elő. Ezek ismerete segíthet elkerülni a nem kívánt problémákat:
🌟 Túl megengedő szabályok: Ha nem vagy elég specifikus a szabályaidban, előfordulhat, hogy olyan tartalmakat is indexelnek a keresőrobotok, amelyeket valójában szeretnél elrejteni.
🔒 A robots.txt-re támaszkodás érzékeny információk védelmére: A robots.txt nem biztonsági eszköz! Bárki megtekintheti a tartalmát, és a rosszhiszemű robotok figyelmen kívül hagyhatják az utasításokat.
🚫 Túl korlátozó szabályok: Ha túl sok tartalmat blokkolsz, az negatívan befolyásolhatja a webhelyed SEO teljesítményét, mivel a keresőmotorok nem tudják indexelni a fontos oldalaidat.
🔍 A noindex meta tag és a robots.txt összekeverése: A robots.txt megakadályozza a robotokat abban, hogy bejárják az oldalakat, de nem feltétlenül akadályozza meg az indexelést. A noindex meta tag ezzel szemben kifejezetten az indexelést tiltja meg.
⚠️ A robots.txt fájl rossz helyre való feltöltése: Ha nem a gyökérkönyvtárba töltöd fel a fájlt, a keresőrobotok nem fogják megtalálni.
A robots.txt és a SEO kapcsolata
A robots.txt fájl helyes használata jelentős hatással lehet a webhelyed SEO teljesítményére. Íme néhány fontos szempont:
Crawl költségvetés optimalizálása
Minden webhelynek van egy úgynevezett „crawl költségvetése” – ez az a mennyiségű idő és erőforrás, amit a keresőrobotok hajlandóak a webhelyed feltérképezésére fordítani. Ha túl sok felesleges vagy duplikált tartalmat engedsz crawlolni, az pazarolja ezt a költségvetést.
A robots.txt segítségével irányíthatod a robotokat, hogy a legértékesebb tartalmaidra összpontosítsanak:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /category/
Disallow: /tag/
Ez a példa megakadályozza, hogy a robotok időt pazaroljanak a WordPress rendszerfájlokra és a kategória/címke archívumokra, amelyek gyakran duplikált tartalmat eredményeznek.
A noindex meta tag vs. robots.txt
Fontos megérteni a különbséget a robots.txt és a noindex meta tag között:
- A robots.txt megakadályozza, hogy a robotok bejárják az oldalakat
- A noindex meta tag megakadályozza, hogy a robotok indexeljék az oldalakat
Ha egy oldalt blokkolsz a robots.txt-ben, a keresőrobotok nem fogják tudni látni a noindex meta taget sem, mivel nem férnek hozzá az oldalhoz. Ez paradox helyzetet teremthet: az oldal még mindig megjelenhet a keresési eredményekben (minimális információval), de a robotok nem tudják frissíteni vagy eltávolítani, mivel nem férnek hozzá.
„A robots.txt nem helyettesíti a noindex meta taget. Ha azt szeretnéd, hogy egy oldal ne jelenjen meg a keresési eredményekben, engedd, hogy a robotok hozzáférjenek, de használj noindex meta taget az indexelés megakadályozására.”
Különböző keresőmotorok eltérő értelmezései
Bár a robots.txt alapvető szintaxisa szabványos, a különböző keresőmotorok némileg eltérően értelmezhetik a speciális szabályokat. Az alábbi táblázat összefoglalja a főbb keresőmotorok robots.txt értelmezési különbségeit:
Funkció | Bing | Yandex | Baidu | |
---|---|---|---|---|
Wildcard (*) | Támogatott | Támogatott | Támogatott | Korlátozott |
$ jel | Támogatott | Támogatott | Támogatott | Nem támogatott |
Crawl-delay | Nem támogatott | Támogatott | Támogatott | Támogatott |
Sitemap | Támogatott | Támogatott | Támogatott | Nem támogatott |
Allow direktíva | Támogatott | Támogatott | Támogatott | Korlátozott |
Ha nemzetközi közönséget célzol meg, érdemes figyelembe venni ezeket a különbségeket a robots.txt fájlod konfigurálásánál.
Robots.txt ellenőrzése és nyomon követése
A robots.txt fájlod hatékonyságának ellenőrzése és nyomon követése kulcsfontosságú a webhelyed optimális teljesítményének biztosításához. Íme néhány módszer erre:
Google Search Console használata
A Google Search Console több eszközt is kínál a robots.txt működésének ellenőrzéséhez:
- Lefedettségi jelentés: Megmutatja, mely oldalakat indexelte a Google és melyek vannak kizárva.
- URL-ellenőrzés: Lehetővé teszi, hogy megnézd, egy adott URL indexelve van-e, és ha nem, miért.
- robots.txt Tester: Tesztelheted a robots.txt fájlodat és szimulálhatod, hogyan reagál a Googlebot különböző URL-ekre.
Szerver naplófájlok elemzése
A szerver naplófájlok elemzése részletes információkat nyújthat arról, hogyan lépnek kapcsolatba a keresőrobotok a webhelyeddel:
- Ellenőrizd, hogy a robotok valóban tiszteletben tartják-e a robots.txt utasításait.
- Azonosítsd azokat a robotokat, amelyek figyelmen kívül hagyják a szabályaidat.
- Figyeld meg a crawlolási mintákat és azonosítsd a potenciális problémákat.
„A szerver naplófájlok elemzése olyan betekintést nyújthat a webhelyed teljesítményébe, amit semmilyen más eszköz nem tud biztosítani. Ez az egyik leghatékonyabb módja annak, hogy megértsd, hogyan lépnek kapcsolatba a keresőrobotok a tartalmaddal.”
Robots.txt alternatívák és kiegészítők
A robots.txt csak egy eszköz a keresőrobotok irányítására. Más módszerek is rendelkezésedre állnak, amelyeket érdemes megfontolni:
Meta robotok tag
A HTML oldalak fejlécében elhelyezett meta robotok tag lehetővé teszi az oldal szintű irányítást:
<meta name="robots" content="noindex, nofollow">
Ez az oldal nem lesz indexelve, és a robotok nem fogják követni az oldalon található linkeket.
X-Robots-Tag HTTP fejléc
Az X-Robots-Tag HTTP fejléc hasonló funkciót lát el, mint a meta robotok tag, de nem HTML fájlokra is alkalmazható (például PDF-ek, képek):
X-Robots-Tag: noindex
Robots meta tag vs. robots.txt összehasonlítása
Tulajdonság | Robots.txt | Meta robots tag |
---|---|---|
Hatókör | Teljes webhely vagy szekciók | Egyedi oldalak |
Alkalmazás | Megakadályozza a crawlolást | Megakadályozza az indexelést |
Fájltípusok | Minden URL | Csak HTML oldalak (kivéve X-Robots-Tag) |
Láthatóság | Nyilvános | Csak az oldal megtekintésekor látható |
Frissítési idő | Azonnali (cache-től függően) | Következő crawloláskor |
Speciális esetek és haladó technikák
Dinamikus tartalom kezelése
A dinamikus tartalom (például keresési eredmények, szűrők) gyakran okoz problémákat a keresőrobotoknak. A robots.txt segítségével megakadályozhatod, hogy a robotok végtelen számú dinamikusan generált oldalt járjanak be:
User-agent: *
Disallow: /*?*
Allow: /*?page=*
Ez a példa blokkolja az összes paraméteres URL-t, kivéve a lapozást tartalmazókat.
Mobilbarát és asztali verziók kezelése
Ha különböző verziókat kínálsz a mobilos és asztali felhasználók számára, fontos megfelelően irányítani a robotokat:
User-agent: Googlebot
Allow: /
User-agent: Googlebot-Mobile
Allow: /m/
Disallow: /
Ez a konfiguráció a Googlebot-ot az asztali verzióhoz, a Googlebot-Mobile-t pedig a mobil verzióhoz irányítja.
„A mobilbarát weboldalak korában kritikus fontosságú, hogy a keresőrobotok számára világos legyen, melyik verzió a preferált. A robots.txt helyes konfigurálása ebben kulcsszerepet játszik, de fontold meg a canonical tagek használatát is a duplikált tartalom problémák elkerülése érdekében.”
Nemzetközi és többnyelvű webhelyek
A többnyelvű webhelyek esetében különösen fontos a robots.txt helyes konfigurálása:
User-agent: *
Allow: /en/
Allow: /fr/
Allow: /de/
Disallow: /old-content/
Disallow: /duplicate-content/
Ez a példa lehetővé teszi a különböző nyelvi verziók indexelését, miközben blokkolja a régi vagy duplikált tartalmakat.
Ideiglenes blokkolás fejlesztés vagy karbantartás során
Webhelyfejlesztés vagy jelentős frissítés során hasznos lehet ideiglenesen blokkolni a keresőrobotokat:
User-agent: *
Disallow: /
# Megjegyzés: Távolítsd el ezt a blokkolást a fejlesztés befejezése után (2023.10.15)
„Az ideiglenes blokkolás hatékony módja annak, hogy megakadályozd a keresőrobotokat a félkész tartalmak indexelésében. Azonban ne felejtsd el eltávolítani a korlátozásokat, amikor a munka elkészült!”
Gyakori kérdések és válaszok a robots.txt-ről
Mennyi ideig tart, amíg a keresőrobotok figyelembe veszik a robots.txt változásait?
A keresőrobotok általában minden látogatáskor ellenőrzik a robots.txt fájlt, de a változások teljes érvényesülése akár hetekig is tarthat, különösen ritkán látogatott webhelyek esetén. A Google általában néhány napon belül észleli és alkalmazza a változásokat.
Blokkolhatom a robots.txt-t a robots.txt-ben?
Nem, ez logikai ellentmondás lenne. A robotoknak először el kell olvasniuk a robots.txt fájlt, hogy megtudják, mit blokkolhatnak, így a robots.txt fájl maga soha nem blokkolható a saját utasításaival.
A robots.txt megakadályozza, hogy az oldalak megjelenjenek a Google keresési eredményeiben?
Nem feltétlenül. A robots.txt megakadályozza a crawlolást, de az oldalak még mindig megjelenhetnek a keresési eredményekben minimális információval (általában csak az URL-lel). Ha teljesen el akarod távolítani az oldalakat a keresési eredményekből, használj noindex meta taget vagy kérd a tartalom eltávolítását a Google Search Console-on keresztül.
„A robots.txt nem garancia arra, hogy egy oldal nem jelenik meg a keresési eredményekben. Ha abszolút biztos akarsz lenni abban, hogy egy oldal nem kerül indexelésre, használj noindex meta taget, és győződj meg róla, hogy a robotok hozzáférhetnek az oldalhoz, hogy láthassák ezt a taget.”
Mi történik, ha nincs robots.txt fájlom?
Ha nincs robots.txt fájlod, a keresőrobotok alapértelmezés szerint minden nyilvánosan elérhető tartalmat bejárhatnak és indexelhetnek a webhelyeden. Ez nem feltétlenül probléma, ha szeretnéd, hogy minden tartalmadat indexeljék.
Hogyan kezeljem a robots.txt-t egy fejlesztői és egy éles környezetben?
A fejlesztői környezetben általában érdemes minden robotot blokkolni:
User-agent: *
Disallow: /
Az éles környezetben pedig csak azokat a részeket blokkold, amelyeket valóban szeretnél elrejteni:
User-agent: *
Disallow: /admin/
Disallow: /belso/
„A fejlesztői és teszt környezetek blokkolása kritikus fontosságú a duplikált tartalom problémák elkerülése érdekében. Mindig győződj meg róla, hogy a fejlesztői verziók nem kerülnek indexelésre, különösen ha azok az éles webhelyed másolatai.”
Esettanulmányok és valós példák
E-kereskedelmi weboldal robots.txt optimalizálása
Egy tipikus e-kereskedelmi weboldal robots.txt fájlja így nézhet ki:
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /search?
Disallow: /product/*?sort=
Disallow: /*?filter=
Allow: /product-sitemap.xml
Sitemap: https://webshop.hu/sitemap.xml
Ez a konfiguráció megakadályozza a kosár, fizetési és felhasználói fiókoldalak indexelését, valamint blokkolja a szűrő és rendezési paraméterekkel ellátott URL-eket, amelyek gyakran duplikált tartalmat eredményeznek.
Vállalati weboldal robots.txt stratégiája
Egy vállalati weboldal esetében:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /belso-dokumentumok/
Disallow: /temp/
Disallow: /draft/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://vallalat.hu/sitemap_index.xml
Ez a példa blokkolja a WordPress adminisztrációs területet, a belső dokumentumokat és az ideiglenes vagy vázlat tartalmakat, miközben engedélyezi az admin-ajax.php fájlt, amely gyakran szükséges bizonyos frontend funkciók működéséhez.
„A vállalati weboldalakon különösen fontos a belső és bizalmas információk megfelelő kezelése. A robots.txt csak az első védelmi vonal – mindig kombinálni kell megfelelő hozzáférés-szabályozással és biztonsági intézkedésekkel.”
Jövőbeli trendek és fejlesztések
A robots.txt szabvány folyamatosan fejlődik. Néhány jelenlegi és várható trend:
A robots.txt szabványosítása
A Google 2019-ben javaslatot tett a robots.txt protokoll hivatalos internetes szabvánnyá tételére (RFC). Ez a szabványosítás egyértelműbb iránymutatásokat és jobb kompatibilitást eredményezhet a különböző keresőmotorok között.
Új direktívák és funkciók
Új direktívák bevezetése várható, amelyek még pontosabb irányítást tesznek lehetővé a webmesterek számára. Például specifikusabb crawl-rate szabályozás vagy fejlettebb wildcard támogatás.
AI és gépi tanulás integrációja
A keresőmotorok egyre intelligensebbé válnak a robots.txt értelmezésében, és gépi tanulási algoritmusokat használhatnak a webmesterek szándékainak jobb megértésére, még akkor is, ha a szintaxis nem tökéletes.
„A robots.txt jövője valószínűleg a nagyobb rugalmasság és a pontosabb irányítás felé halad. Ahogy a webes technológiák fejlődnek, a robotok irányításának módszerei is fejlődni fognak, hogy lépést tartsanak a változó igényekkel.”
Összegzés: A robots.txt hatékony használata
A robots.txt egy egyszerű, de rendkívül hatékony eszköz a webhelyed keresőrobot-forgalmának irányítására. A megfelelő konfigurációval optimalizálhatod a crawl költségvetésedet, megvédheted a bizalmas vagy fejlesztés alatt álló tartalmakat, és javíthatod a webhelyed általános SEO teljesítményét.
Emlékezz a legfontosabb pontokra:
- A robots.txt egy kérés, nem egy biztonsági intézkedés
- Helyezd a fájlt a webhelyed gyökérkönyvtárába
- Teszteld a konfigurációdat a Google Search Console segítségével
- Használj kiegészítő módszereket (meta robots tag, X-Robots-Tag) a pontosabb irányításhoz
- Rendszeresen ellenőrizd és frissítsd a robots.txt fájlodat a webhelyed változásainak megfelelően
„A robots.txt helyes használata egyensúlyt teremt a között, amit meg akarsz mutatni a keresőmotoroknak és amit el akarsz rejteni előlük. Ez nem egy ‘beállítsd és felejtsd el’ megoldás, hanem egy folyamatosan karbantartandó eszköz a webhelyed optimális teljesítményének biztosításához.”