Hogyan akadályozd meg a Google-t bizonyos oldalak feltérképezésében a robots.txt-vel?

A weboldalak világában néha olyan helyzetbe kerülhetsz, amikor bizonyos tartalmakat szeretnél elrejteni a keresőmotorok elől. Talán fejlesztés alatt áll egy új szekció, esetleg bizalmas információkat tartalmazó oldalaid vannak, vagy egyszerűen csak szeretnéd optimalizálni, hogy a Google és más keresőrobotok mely tartalmaidat indexeljék. A robots.txt fájl ebben nyújt segítséget – ez a kis, de annál fontosabb szöveges fájl utasításokat ad a keresőrobotoknak arról, hogy mit tehetnek és mit nem a weboldaladon.

Cikk tartalma

A robots.txt nem egy bonyolult technikai megoldás, inkább egy egyszerű, de hatékony kommunikációs eszköz közted és a keresőrobotok között. Olyan, mint amikor a házad ajtajára kiteszel egy „Kérem, ne zavarjanak” táblát – a tisztességes látogatók (ebben az esetben a keresőrobotok) tiszteletben tartják ezt a kérést. Azonban fontos tudni, hogy ez nem egy biztonsági eszköz, hanem egy kérés, amit a robotok általában betartanak, de nem kötelező számukra.

A robots.txt alapjai és működése

A robots.txt egy egyszerű szöveges fájl, amit a webhelyed gyökérkönyvtárában kell elhelyezned. Ez azt jelenti, hogy a fájlnak a https://teweboldalad.hu/robots.txt címen kell elérhetőnek lennie. Amikor egy keresőrobot, mint például a Googlebot meglátogatja a weboldaladat, először ezt a fájlt keresi meg, hogy megtudja, mely részeket indexelheti és melyeket nem.

A robots.txt fájl alapvető szintaxisa meglehetősen egyszerű:

User-agent: [robot neve]
Disallow: [tiltott útvonal]
Allow: [engedélyezett útvonal]

User-agent: Meghatározza, melyik robotra vonatkoznak a szabályok. A * karakter minden robotra vonatkozik.
Disallow: Megadja azokat az útvonalakat, amelyeket nem szeretnél, hogy a robotok bejárjanak.
Allow: Meghatározza azokat az útvonalakat, amelyeket engedélyezel a robotok számára (akkor használatos, ha egy tiltott könyvtáron belül bizonyos fájlokat mégis engedélyezni szeretnél).

Íme egy egyszerű példa:

User-agent: *
Disallow: /admin/
Disallow: /titkos-projektek/
Allow: /titkos-projektek/publikus-demo/

Ez a példa minden keresőrobotnak megtiltja, hogy hozzáférjen az /admin/ és /titkos-projektek/ könyvtárakhoz, kivéve a /titkos-projektek/publikus-demo/ könyvtárat, amit kifejezetten engedélyez.

A robots.txt fájl létrehozása és elhelyezése

A robots.txt fájl létrehozása rendkívül egyszerű, mivel csak egy sima szöveges fájlról van szó. Íme a lépések, amelyeket követned kell:

Nyiss meg egy szövegszerkesztőt (például Jegyzettömb, Visual Studio Code, Sublime Text).
Írd be a robots.txt szabályokat a fenti szintaxis szerint.
Mentsd el a fájlt „robots.txt” néven.
Töltsd fel a fájlt a webhelyed gyökérkönyvtárába (root directory).

Fontos, hogy a fájl pontosan a gyökérkönyvtárban legyen, nem pedig egy alkönyvtárban. A keresőrobotok csak a https://teweboldalad.hu/robots.txt címen keresik a fájlt, máshol nem.

Ha WordPress-t használsz, több plugin is rendelkezésedre áll a robots.txt kezeléséhez, mint például a Yoast SEO vagy az All in One SEO Pack. Ezek felhasználóbarát felületet biztosítanak a robots.txt szerkesztéséhez anélkül, hogy közvetlenül kellene feltöltened a fájlt.

Specifikus utasítások a Google számára

Bár a robots.txt szabványt minden jelentős keresőmotor támogatja, a Google néhány extra funkcióval bővítette azt. Ezek közé tartozik a Sitemap direktíva, amely megadja a weboldal sitemap.xml fájljának helyét, segítve ezzel a Google-t a webhely struktúrájának jobb megértésében.

User-agent: *
Disallow: /admin/
Sitemap: https://teweboldalad.hu/sitemap.xml

A Google a Crawl-delay direktívát nem veszi figyelembe, ehelyett a Google Search Console-ban állíthatod be a crawl sebességet. Más keresőmotorok, mint a Bing, támogatják ezt a funkciót, amely meghatározza, hány másodpercet kell várnia a robotnak két oldal letöltése között.

Gyakori robots.txt minták különböző helyzetekre

Különböző helyzetekben különböző robots.txt konfigurációkra lehet szükséged. Íme néhány gyakori forgatókönyv és a hozzájuk tartozó robots.txt beállítások:

Teljes webhely blokkolása minden keresőrobot elől

User-agent: *
Disallow: /

Ez a konfiguráció minden keresőrobotnak megtiltja, hogy bármit is indexeljen a webhelyeden. Akkor hasznos, ha egy fejlesztés alatt álló webhelyet nem szeretnél, hogy a keresőmotorok megtaláljanak.

Csak bizonyos robotok blokkolása

User-agent: BadBot
Disallow: /

User-agent: *
Allow: /

Ez a példa csak a „BadBot” nevű robotot blokkolja, míg minden más robotnak teljes hozzáférést biztosít.

Csak bizonyos könyvtárak és fájlok blokkolása

User-agent: *
Disallow: /admin/
Disallow: /belso-dokumentumok/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /*.pdf$

Ez a konfiguráció megtiltja minden robotnak, hogy hozzáférjen az admin, belső dokumentumok, WordPress admin és includes könyvtárakhoz, valamint bármilyen PDF fájlhoz a webhelyen.

Csak egy specifikus robot engedélyezése

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

Ez a beállítás csak a Google keresőrobotjának (Googlebot) engedi meg a webhely indexelését, minden más robotot kizár.

Speciális szabályok és wildcard karakterek használata

A robots.txt fájlban használhatsz wildcard karaktereket és speciális szabályokat is a pontosabb irányítás érdekében:

A $ jel használata

A $ jel a fájlnév vagy útvonal végét jelöli:

User-agent: *
Disallow: /*.php$

Ez a szabály minden PHP fájlt blokkol, de nem blokkolja azokat az URL-eket, amelyekben a „.php” csak egy része az útvonalnak.

A * wildcard használata

A * karakter bármilyen karaktersorozatot helyettesíthet:

User-agent: *
Disallow: /*?download=*

Ez a szabály blokkolja az összes olyan URL-t, amely tartalmazza a „?download=” paramétert, függetlenül attól, mi áll előtte vagy utána.

A robots.txt tesztelése

Mielőtt élesben bevezetnéd a robots.txt változtatásait, mindenképpen teszteld azokat. A Google Search Console rendelkezik egy hasznos „robots.txt Tester” eszközzel, amely lehetővé teszi, hogy ellenőrizd a szabályaidat és megtudd, hogyan értelmezi azokat a Googlebot.

A tesztelés során add meg a robots.txt tartalmát és egy URL-t, majd az eszköz megmutatja, hogy a megadott URL engedélyezett vagy tiltott lenne-e a Googlebot számára.

Gyakori hibák és félreértések a robots.txt használatában

A robots.txt használata során számos gyakori hiba fordulhat elő. Ezek ismerete segíthet elkerülni a nem kívánt problémákat:

🌟 Túl megengedő szabályok: Ha nem vagy elég specifikus a szabályaidban, előfordulhat, hogy olyan tartalmakat is indexelnek a keresőrobotok, amelyeket valójában szeretnél elrejteni.

🔒 A robots.txt-re támaszkodás érzékeny információk védelmére: A robots.txt nem biztonsági eszköz! Bárki megtekintheti a tartalmát, és a rosszhiszemű robotok figyelmen kívül hagyhatják az utasításokat.

🚫 Túl korlátozó szabályok: Ha túl sok tartalmat blokkolsz, az negatívan befolyásolhatja a webhelyed SEO teljesítményét, mivel a keresőmotorok nem tudják indexelni a fontos oldalaidat.

🔍 A noindex meta tag és a robots.txt összekeverése: A robots.txt megakadályozza a robotokat abban, hogy bejárják az oldalakat, de nem feltétlenül akadályozza meg az indexelést. A noindex meta tag ezzel szemben kifejezetten az indexelést tiltja meg.

⚠️ A robots.txt fájl rossz helyre való feltöltése: Ha nem a gyökérkönyvtárba töltöd fel a fájlt, a keresőrobotok nem fogják megtalálni.

A robots.txt és a SEO kapcsolata

A robots.txt fájl helyes használata jelentős hatással lehet a webhelyed SEO teljesítményére. Íme néhány fontos szempont:

Crawl költségvetés optimalizálása

Minden webhelynek van egy úgynevezett „crawl költségvetése” – ez az a mennyiségű idő és erőforrás, amit a keresőrobotok hajlandóak a webhelyed feltérképezésére fordítani. Ha túl sok felesleges vagy duplikált tartalmat engedsz crawlolni, az pazarolja ezt a költségvetést.

A robots.txt segítségével irányíthatod a robotokat, hogy a legértékesebb tartalmaidra összpontosítsanak:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /category/
Disallow: /tag/

Ez a példa megakadályozza, hogy a robotok időt pazaroljanak a WordPress rendszerfájlokra és a kategória/címke archívumokra, amelyek gyakran duplikált tartalmat eredményeznek.

A noindex meta tag vs. robots.txt

Fontos megérteni a különbséget a robots.txt és a noindex meta tag között:

A robots.txt megakadályozza, hogy a robotok bejárják az oldalakat
A noindex meta tag megakadályozza, hogy a robotok indexeljék az oldalakat

Ha egy oldalt blokkolsz a robots.txt-ben, a keresőrobotok nem fogják tudni látni a noindex meta taget sem, mivel nem férnek hozzá az oldalhoz. Ez paradox helyzetet teremthet: az oldal még mindig megjelenhet a keresési eredményekben (minimális információval), de a robotok nem tudják frissíteni vagy eltávolítani, mivel nem férnek hozzá.

„A robots.txt nem helyettesíti a noindex meta taget. Ha azt szeretnéd, hogy egy oldal ne jelenjen meg a keresési eredményekben, engedd, hogy a robotok hozzáférjenek, de használj noindex meta taget az indexelés megakadályozására.”

Különböző keresőmotorok eltérő értelmezései

Bár a robots.txt alapvető szintaxisa szabványos, a különböző keresőmotorok némileg eltérően értelmezhetik a speciális szabályokat. Az alábbi táblázat összefoglalja a főbb keresőmotorok robots.txt értelmezési különbségeit:

Funkció	Google	Bing	Yandex	Baidu
Wildcard (*)	Támogatott	Támogatott	Támogatott	Korlátozott
$ jel	Támogatott	Támogatott	Támogatott	Nem támogatott
Crawl-delay	Nem támogatott	Támogatott	Támogatott	Támogatott
Sitemap	Támogatott	Támogatott	Támogatott	Nem támogatott
Allow direktíva	Támogatott	Támogatott	Támogatott	Korlátozott

Ha nemzetközi közönséget célzol meg, érdemes figyelembe venni ezeket a különbségeket a robots.txt fájlod konfigurálásánál.

Robots.txt ellenőrzése és nyomon követése

A robots.txt fájlod hatékonyságának ellenőrzése és nyomon követése kulcsfontosságú a webhelyed optimális teljesítményének biztosításához. Íme néhány módszer erre:

Google Search Console használata

A Google Search Console több eszközt is kínál a robots.txt működésének ellenőrzéséhez:

Lefedettségi jelentés: Megmutatja, mely oldalakat indexelte a Google és melyek vannak kizárva.
URL-ellenőrzés: Lehetővé teszi, hogy megnézd, egy adott URL indexelve van-e, és ha nem, miért.
robots.txt Tester: Tesztelheted a robots.txt fájlodat és szimulálhatod, hogyan reagál a Googlebot különböző URL-ekre.

Szerver naplófájlok elemzése

A szerver naplófájlok elemzése részletes információkat nyújthat arról, hogyan lépnek kapcsolatba a keresőrobotok a webhelyeddel:

Ellenőrizd, hogy a robotok valóban tiszteletben tartják-e a robots.txt utasításait.
Azonosítsd azokat a robotokat, amelyek figyelmen kívül hagyják a szabályaidat.
Figyeld meg a crawlolási mintákat és azonosítsd a potenciális problémákat.

„A szerver naplófájlok elemzése olyan betekintést nyújthat a webhelyed teljesítményébe, amit semmilyen más eszköz nem tud biztosítani. Ez az egyik leghatékonyabb módja annak, hogy megértsd, hogyan lépnek kapcsolatba a keresőrobotok a tartalmaddal.”

Robots.txt alternatívák és kiegészítők

A robots.txt csak egy eszköz a keresőrobotok irányítására. Más módszerek is rendelkezésedre állnak, amelyeket érdemes megfontolni:

Meta robotok tag

A HTML oldalak fejlécében elhelyezett meta robotok tag lehetővé teszi az oldal szintű irányítást:

<meta name="robots" content="noindex, nofollow">

Ez az oldal nem lesz indexelve, és a robotok nem fogják követni az oldalon található linkeket.

X-Robots-Tag HTTP fejléc

Az X-Robots-Tag HTTP fejléc hasonló funkciót lát el, mint a meta robotok tag, de nem HTML fájlokra is alkalmazható (például PDF-ek, képek):

X-Robots-Tag: noindex

Robots meta tag vs. robots.txt összehasonlítása

Tulajdonság	Robots.txt	Meta robots tag
Hatókör	Teljes webhely vagy szekciók	Egyedi oldalak
Alkalmazás	Megakadályozza a crawlolást	Megakadályozza az indexelést
Fájltípusok	Minden URL	Csak HTML oldalak (kivéve X-Robots-Tag)
Láthatóság	Nyilvános	Csak az oldal megtekintésekor látható
Frissítési idő	Azonnali (cache-től függően)	Következő crawloláskor

Speciális esetek és haladó technikák

Dinamikus tartalom kezelése

A dinamikus tartalom (például keresési eredmények, szűrők) gyakran okoz problémákat a keresőrobotoknak. A robots.txt segítségével megakadályozhatod, hogy a robotok végtelen számú dinamikusan generált oldalt járjanak be:

User-agent: *
Disallow: /*?*
Allow: /*?page=*

Ez a példa blokkolja az összes paraméteres URL-t, kivéve a lapozást tartalmazókat.

Mobilbarát és asztali verziók kezelése

Ha különböző verziókat kínálsz a mobilos és asztali felhasználók számára, fontos megfelelően irányítani a robotokat:

User-agent: Googlebot
Allow: /

User-agent: Googlebot-Mobile
Allow: /m/
Disallow: /

Ez a konfiguráció a Googlebot-ot az asztali verzióhoz, a Googlebot-Mobile-t pedig a mobil verzióhoz irányítja.

„A mobilbarát weboldalak korában kritikus fontosságú, hogy a keresőrobotok számára világos legyen, melyik verzió a preferált. A robots.txt helyes konfigurálása ebben kulcsszerepet játszik, de fontold meg a canonical tagek használatát is a duplikált tartalom problémák elkerülése érdekében.”

Nemzetközi és többnyelvű webhelyek

A többnyelvű webhelyek esetében különösen fontos a robots.txt helyes konfigurálása:

User-agent: *
Allow: /en/
Allow: /fr/
Allow: /de/
Disallow: /old-content/
Disallow: /duplicate-content/

Ez a példa lehetővé teszi a különböző nyelvi verziók indexelését, miközben blokkolja a régi vagy duplikált tartalmakat.

Ideiglenes blokkolás fejlesztés vagy karbantartás során

Webhelyfejlesztés vagy jelentős frissítés során hasznos lehet ideiglenesen blokkolni a keresőrobotokat:

User-agent: *
Disallow: /

# Megjegyzés: Távolítsd el ezt a blokkolást a fejlesztés befejezése után (2023.10.15)

„Az ideiglenes blokkolás hatékony módja annak, hogy megakadályozd a keresőrobotokat a félkész tartalmak indexelésében. Azonban ne felejtsd el eltávolítani a korlátozásokat, amikor a munka elkészült!”

Gyakori kérdések és válaszok a robots.txt-ről

Mennyi ideig tart, amíg a keresőrobotok figyelembe veszik a robots.txt változásait?

A keresőrobotok általában minden látogatáskor ellenőrzik a robots.txt fájlt, de a változások teljes érvényesülése akár hetekig is tarthat, különösen ritkán látogatott webhelyek esetén. A Google általában néhány napon belül észleli és alkalmazza a változásokat.

Blokkolhatom a robots.txt-t a robots.txt-ben?

Nem, ez logikai ellentmondás lenne. A robotoknak először el kell olvasniuk a robots.txt fájlt, hogy megtudják, mit blokkolhatnak, így a robots.txt fájl maga soha nem blokkolható a saját utasításaival.

A robots.txt megakadályozza, hogy az oldalak megjelenjenek a Google keresési eredményeiben?

Nem feltétlenül. A robots.txt megakadályozza a crawlolást, de az oldalak még mindig megjelenhetnek a keresési eredményekben minimális információval (általában csak az URL-lel). Ha teljesen el akarod távolítani az oldalakat a keresési eredményekből, használj noindex meta taget vagy kérd a tartalom eltávolítását a Google Search Console-on keresztül.

„A robots.txt nem garancia arra, hogy egy oldal nem jelenik meg a keresési eredményekben. Ha abszolút biztos akarsz lenni abban, hogy egy oldal nem kerül indexelésre, használj noindex meta taget, és győződj meg róla, hogy a robotok hozzáférhetnek az oldalhoz, hogy láthassák ezt a taget.”

Mi történik, ha nincs robots.txt fájlom?

Ha nincs robots.txt fájlod, a keresőrobotok alapértelmezés szerint minden nyilvánosan elérhető tartalmat bejárhatnak és indexelhetnek a webhelyeden. Ez nem feltétlenül probléma, ha szeretnéd, hogy minden tartalmadat indexeljék.

Hogyan kezeljem a robots.txt-t egy fejlesztői és egy éles környezetben?

A fejlesztői környezetben általában érdemes minden robotot blokkolni:

User-agent: *
Disallow: /

Az éles környezetben pedig csak azokat a részeket blokkold, amelyeket valóban szeretnél elrejteni:

User-agent: *
Disallow: /admin/
Disallow: /belso/

„A fejlesztői és teszt környezetek blokkolása kritikus fontosságú a duplikált tartalom problémák elkerülése érdekében. Mindig győződj meg róla, hogy a fejlesztői verziók nem kerülnek indexelésre, különösen ha azok az éles webhelyed másolatai.”

Esettanulmányok és valós példák

E-kereskedelmi weboldal robots.txt optimalizálása

Egy tipikus e-kereskedelmi weboldal robots.txt fájlja így nézhet ki:

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /search?
Disallow: /product/*?sort=
Disallow: /*?filter=
Allow: /product-sitemap.xml

Sitemap: https://webshop.hu/sitemap.xml

Ez a konfiguráció megakadályozza a kosár, fizetési és felhasználói fiókoldalak indexelését, valamint blokkolja a szűrő és rendezési paraméterekkel ellátott URL-eket, amelyek gyakran duplikált tartalmat eredményeznek.

Vállalati weboldal robots.txt stratégiája

Egy vállalati weboldal esetében:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /belso-dokumentumok/
Disallow: /temp/
Disallow: /draft/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://vallalat.hu/sitemap_index.xml

Ez a példa blokkolja a WordPress adminisztrációs területet, a belső dokumentumokat és az ideiglenes vagy vázlat tartalmakat, miközben engedélyezi az admin-ajax.php fájlt, amely gyakran szükséges bizonyos frontend funkciók működéséhez.

„A vállalati weboldalakon különösen fontos a belső és bizalmas információk megfelelő kezelése. A robots.txt csak az első védelmi vonal – mindig kombinálni kell megfelelő hozzáférés-szabályozással és biztonsági intézkedésekkel.”

Jövőbeli trendek és fejlesztések

A robots.txt szabvány folyamatosan fejlődik. Néhány jelenlegi és várható trend:

A robots.txt szabványosítása

A Google 2019-ben javaslatot tett a robots.txt protokoll hivatalos internetes szabvánnyá tételére (RFC). Ez a szabványosítás egyértelműbb iránymutatásokat és jobb kompatibilitást eredményezhet a különböző keresőmotorok között.

Új direktívák és funkciók

Új direktívák bevezetése várható, amelyek még pontosabb irányítást tesznek lehetővé a webmesterek számára. Például specifikusabb crawl-rate szabályozás vagy fejlettebb wildcard támogatás.

AI és gépi tanulás integrációja

A keresőmotorok egyre intelligensebbé válnak a robots.txt értelmezésében, és gépi tanulási algoritmusokat használhatnak a webmesterek szándékainak jobb megértésére, még akkor is, ha a szintaxis nem tökéletes.

„A robots.txt jövője valószínűleg a nagyobb rugalmasság és a pontosabb irányítás felé halad. Ahogy a webes technológiák fejlődnek, a robotok irányításának módszerei is fejlődni fognak, hogy lépést tartsanak a változó igényekkel.”

Összegzés: A robots.txt hatékony használata

A robots.txt egy egyszerű, de rendkívül hatékony eszköz a webhelyed keresőrobot-forgalmának irányítására. A megfelelő konfigurációval optimalizálhatod a crawl költségvetésedet, megvédheted a bizalmas vagy fejlesztés alatt álló tartalmakat, és javíthatod a webhelyed általános SEO teljesítményét.

Emlékezz a legfontosabb pontokra:

A robots.txt egy kérés, nem egy biztonsági intézkedés
Helyezd a fájlt a webhelyed gyökérkönyvtárába
Teszteld a konfigurációdat a Google Search Console segítségével
Használj kiegészítő módszereket (meta robots tag, X-Robots-Tag) a pontosabb irányításhoz
Rendszeresen ellenőrizd és frissítsd a robots.txt fájlodat a webhelyed változásainak megfelelően

„A robots.txt helyes használata egyensúlyt teremt a között, amit meg akarsz mutatni a keresőmotoroknak és amit el akarsz rejteni előlük. Ez nem egy ‘beállítsd és felejtsd el’ megoldás, hanem egy folyamatosan karbantartandó eszköz a webhelyed optimális teljesítményének biztosításához.”