Jak nastavit txt soubor wordpress robots. Pracovní ukázkové pokyny pro WordPress

Robots.txt – hraje velmi důležitou roli při indexování. Správný soubor robots.txt je obecně velmi důležitý. Jak moc je správný? A kdo to řekl? Ale určitě to pomůže při propagaci zdroje ve vyhledávačích? Také jsem měl spoustu podobných dotazů, když jsem o tom optimalizoval a hledal informace na internetu. V principu jsem se o roboty začal zajímat, když jsem měl web na Ucoz (možná se vám mimochodem článek o tom bude líbit), jelikož se tam dalo konfigurovat, a naučil jsem se základy.

Jednoduše řečeno: pro správnou prezentaci vašeho zdroje. Například vyhledávací roboti mohou při návštěvě a indexování vašich stránek brát a indexovat nepotřebné systémové prvky. Takové stránky zpravidla nejsou příliš vhodné pro procházení roboty, a proto budou považovány za špatně optimalizované. Pokud je těchto stránek příliš mnoho, vyhledávač může snížit váš projekt ve výsledcích vyhledávání.

V naprosto opačném případě, což je neméně politováníhodné, se může stát, že váš web bude zcela uzavřen pro indexování. Nestává se to tak často, ale přesto byste to měli zvážit.

Správné nastavení souboru robots.txt pro WordPress

Abych nevyléval vodu, hned řeknu, že existují dva způsoby. Soubor robots.txt můžete nastavit buď pomocí editoru pluginu Yoast SEO (který VYSOCE DOPORUČENO pro instalaci), nebo takový soubor vytvořte ručně (například v poznámkovém bloku) a umístěte jej do kořenového adresáře webu. V druhém případě, mimochodem, stojí za to připomenout, že musíte soubor umístit tak, aby byl k dispozici na: site.ru/robots.txt.

I když si myslím, že s těmito maličkostmi to vyřešíte. Zaměřme se na obsah tohoto souboru.

User-agent: * Disallow: /cgi-bin Disallow: /? Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: */ embed Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Disallow: /tag/ # Zavřít, aby se zabránilo indexování příliš mnoha duplikátů. # Pokud chcete, aby byly štítky indexovány, odeberte toto pravidlo. Povolit: */uploads User-agent: GoogleBot Disallow: /cgi-bin Disallow: /? Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ embed Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Povolit: */uploads Povolit: /*/*.js Povolit: /*/*.css Povolit: /wp-*.png Povolit: /wp -*.jpg Povolit: /wp-*.jpeg Povolit: /wp-*.gif Povolit: /wp-admin/admin-ajax.php User-agent: Yandex Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ vložit Zakázat: /xmlrpc.php Povolit: /wp-*.jpg Povolit: /wp-admin/admin-ajax.php Povolit: */uploads Povolit: /wp-*.jpeg Povolit: /wp-*.gif Povolit: /*/*.js Povolit: /*/*.css Povolit: /wp-*.png Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat Mapa webu: https://site.ru/sitemap.xml Mapa webu: https:/ /site.ru/sitemap.xml.gz # Určete, zda byl k vytvoření mapy použit hostitel Google XML Sitemap: https://site.ru # Určete pomocí protokolu

Několik velmi důležitých bodů:

Pokud používáte / přecházíte na, budete muset Yandexu povolit přístup k souboru xml
Když zkopírujete obsah do souboru, je lepší odstranit komentáře (vysvětlení pomocí #)
Jak jsem již řekl, pravidlo Disallow: /tag/ lze odstranit. Osobně jsem tagy z indexování odstranil kvůli obrovskému množství duplicit (stránek se stejným obsahem), protože mají neblahý vliv na propagaci.
Pokud NEPOUŽÍVÁTE certifikát SSL (a protokol https), NEMUSÍTE zadávat protokol http v Host: . Direktiva bude vypadat jako Host: www.site.ru nebo Host: site.ru .

Proč potřebujete specifikovat pravidla pro každého robota?

Díky tomuto přístupu můžete podle některých optimalizátorů a webmasterů dosáhnout mnohem lepších výsledků v propagaci webu. A to je logické: pokud pravidla obsahují přímé instrukce pro každého robota, pak budou indexovat aktivněji a častěji.

Pokud jste navštívili tuto stránku, pak vás zajímá, kde je ve WordPressu soubor robots.txt. Tento problém se běžně vyskytuje. Po přečtení tohoto krátkého článku se dozvíte vše, co potřebujete vědět.

Celkově mohu jednoduše napsat "Soubor je umístěn v kořenovém adresáři webu." Bohužel tato odpověď uspokojí jen část návštěvníků, ne každý ví o „kořenech“ a podobně. Na to pojďme analyzovat vše, jako poprvé.

Jak zkontrolovat, zda soubor robots.txt existuje

Nejprve zkontrolujeme, zda požadovaný soubor vůbec existuje, za tímto účelem do řádku prohlížeče zadáme web address.ru/robots.txt, pokud se dokument otevře a vidíte text v angličtině, něco takového:

Vše je tedy v pořádku, soubor existuje, jinak s největší pravděpodobností chybí, nebo se nenachází tam, kde je potřeba, bude potřeba jej vytvořit.

Pojďme se nejprve rozhodnout, jak je pro vás výhodné pracovat se soubory webu. Existuje několik způsobů, jak to udělat. První z nich není příliš pohodlný, ale pro milovníky Windows známější - jedná se o program na vašem hostingu, pomocí kterého vytváříte a odstraňujete soubory a složky na svém webu. Celá věc by měla vypadat nějak takto:

Ve složce WWW/VAŠE STRÁNKY by měly být složky wp-includes, wp-content, wp-admin pod nimi je soubor robots, který potřebujete. Jedna metoda byla vyřešena, můžete přejít k další.

Soubor sitemap.xml a správný soubor robots.txt pro daný web jsou dva povinné dokumenty, které přispívají k rychlému a úplnému indexování všech potřebných stránek webového zdroje vyhledávacími roboty. Správné indexování stránek v Yandex a Google je klíčem k úspěšné propagaci blogu ve vyhledávačích.

Již jsem psal, jak vytvořit mapu webu ve formátu XML a proč je to potřeba. A nyní si povíme, jak vytvořit správný robots.txt pro web WordPress a proč je vůbec potřeba. Podrobné informace o tomto souboru lze získat od samotných Yandex a Google. Dotknu se samotné podstaty a dotknu se hlavního nastavení robots.txt pro WordPress pomocí mého souboru jako příkladu.

Proč pro web potřebujete soubor robots.txt

Standard robots.txt byl zaveden již v lednu 1994. Při procházení webového zdroje hledají roboti nejprve textový soubor robots.txt umístěný v kořenové složce webu nebo blogu. S jeho pomocí můžeme robotům různých vyhledávačů určit určitá pravidla, podle kterých budou stránky indexovat.

Správné nastavení souboru robots.txt umožní:

vyloučit duplikáty a různé odpadní stránky z indexu;
uvalit zákaz indexování stránek, souborů a složek, které chceme skrýt;
obecně odmítají indexování některým vyhledávacím robotům (například Yahoo, aby skryli informace o příchozích odkazech před konkurenty);
označte hlavní zrcadlo webu (s www nebo bez www);
zadejte cestu k souboru sitemap.xml.

Jak vytvořit správný soubor robots.txt pro web

Pro tento účel existují speciální generátory a pluginy, ale správnější je to udělat ručně.

Stačí vytvořit prostý textový soubor s názvem robots.txt pomocí libovolného textového editoru (například Notepad nebo Notepad ++) a nahrát jej na hosting v kořenové složce blogu. Do tohoto souboru je potřeba zapsat určité direktivy, tzn. pravidla indexování pro roboty Yandex, Google atd.

Pokud jste líní se s tím trápit, tak níže uvedu příklad z mého pohledu správného robots.txt pro WordPress z mého blogu. Můžete jej použít nahrazením názvu domény na třech místech.

Pravidla a směrnice pro vytváření robots.txt

Pro úspěšnou optimalizaci blogu pro vyhledávače potřebujete znát některá pravidla pro vytváření robots.txt:

Nepřítomnost nebo prázdný soubor robots.txt bude znamenat, že vyhledávače mohou indexovat veškerý obsah webového zdroje.
Soubor robots.txt by se měl otevřít na adrese site.ru/robots.txt a dát robotovi kód odpovědi 200 OK a jeho velikost není větší než 32 kB. Soubor, který nelze otevřít (například kvůli chybě 404) nebo je větší, bude považován za povolený.
Počet direktiv v souboru by neměl přesáhnout 1024. Délka jednoho řádku by neměla přesáhnout 1024 znaků.
Platný soubor robots.txt může mít více instrukcí, z nichž každá musí začínat direktivou User-agent a musí obsahovat alespoň jednu direktivu Disallow. Obvykle píší pokyny do souboru robots.txt pro Google a všechny ostatní roboty a samostatně pro Yandex.

Hlavní pokyny pro soubor robots.txt:

User-agent – označuje, kterému prolézacímu modulu je instrukce adresována.

Symbol „*“ znamená, že to platí pro všechny roboty, například:

User-agent: *

Pokud potřebujeme vytvořit pravidlo v robots.txt pro Yandex, napíšeme:

Uživatelský agent: Yandex

Pokud je pro konkrétního robota zadána direktiva, direktiva User-agent: * je tímto robotem ignorována.

Disallow a Allow – zakáže a umožní robotům indexovat zadané stránky. Všechny adresy musí být zadány z kořenového adresáře webu, tzn. počínaje třetím lomítkem. Například:

Zákaz indexování celého webu pro všechny roboty:
User-agent: *
zakázat: /
Yandexu není povoleno indexovat všechny stránky začínající na /wp-admin:
Uživatelský agent: Yandex
Disallow: /wp-admin
Prázdná direktiva Disallow umožňuje vše indexovat a je podobná jako Povolit. Například povoluji Yandexu indexovat celý web:
Uživatelský agent: Yandex
Zakázat:
A naopak, zakazuji indexování všech stránek všemi vyhledávacími roboty:
User-agent: *
dovolit:
Direktivy Allow a Disallow ze stejného bloku User-agent jsou seřazeny podle délky předpony URL a prováděny postupně. Pokud je pro jednu stránku webu vhodné několik direktiv, provede se poslední v seznamu. Nyní na pořadí jejich psaní nezáleží pro použití příkazů robotem. Pokud mají direktivy předpony stejné délky, nejprve se provede Allow. Tato pravidla nabyla účinnosti dnem 8. března 2012. Například umožňuje indexovat pouze stránky začínající /wp-includes:
Uživatelský agent: Yandex
zakázat: /
Povolit: /wp-includes

Sitemap – Určuje adresu URL souboru Sitemap XML. Na stejném webu může být více direktiv Sitemap, které lze vnořit. Všechny adresy souborů Sitemap musí být uvedeny v souboru robots.txt, aby se urychlilo indexování stránek:

Soubor Sitemap: http://site/sitemap.xml.gz
Soubor Sitemap: http://site/sitemap.xml

Host – říká zrcadlovému robotu, které zrcadlo webu je považováno za hlavní.

Pokud je stránka dostupná na více adresách (např. s www a bez www), pak se vytvoří plně duplicitní stránky, na které se můžete dostat pod filtr. Také v tomto případě nelze indexovat hlavní stránku, ale ta hlavní bude naopak z indexu vyhledávače vyloučena. Aby se tomu zabránilo, používá se direktiva Host, která je v souboru robots.txt určena pouze pro Yandex a může být pouze jedna. Je napsáno za Disallow a Allow a vypadá takto:

hostitel: webové stránky

Crawl-delay – nastavuje prodlevu mezi stahováním stránek v sekundách. Používá se, pokud je velká zátěž a server nemá čas zpracovávat požadavky. Na mladých webech je lepší direktivu Crawl-delay nepoužívat. Ona píše takto:

Uživatelský agent: Yandex
Zpoždění procházení: 4

Clean-param - podporuje pouze Yandex a používá se k odstranění duplicitních stránek s proměnnými jejich slepením do jedné. Robot Yandex tedy nebude stahovat podobné stránky mnohokrát, například ty, které jsou spojené s odkazy na doporučení. Tuto direktivu jsem ještě nepoužil, ale v nápovědě robots.txt pro Yandex na odkazu na začátku článku si tuto direktivu můžete podrobně přečíst.

Speciální znaky * a $ se v robots.txt používají k určení cest k direktivám Disallow a Allow:

Speciální znak „*“ znamená libovolnou posloupnost znaků. Například Disallow: /*?* znamená zákaz na všech stránkách, kde se v adrese vyskytuje „?“, bez ohledu na to, jaké znaky následují před a za tímto znakem. Ve výchozím nastavení je na konec každého pravidla přidán speciální znak „*“, i když není konkrétně zapsán.
Znak „$“ ruší „*“ na konci pravidla a znamená přesnou shodu. Například direktiva Disallow: /*?$ zakáže indexování stránek končících „?“.

Příklad WordPress robots.txt

Zde je příklad mého souboru robots.txt pro blog WordPress:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Abyste se nepletli s vytvořením správného souboru robots.txt pro WordPress, můžete použít tento soubor. S indexováním nejsou žádné problémy. Mám skript ochrany proti kopírování, takže bude pohodlnější stáhnout si hotový robots.txt a nahrát ho na svůj hosting. Jen nezapomeňte nahradit název mého webu vaším v direktivách Host a Sitemap.

Užitečné doplňky pro správnou konfiguraci souboru robots.txt pro WordPress

Pokud jsou na vašem blogu WordPress nainstalovány stromové komentáře, vytvářejí duplicitní stránky jako ?replytocom= . V robots.txt jsou takové stránky uzavřeny direktivou Disallow: /*?*. Ale to není cesta ven a je lepší odstranit zákazy, ale řešit respondtocom jiným způsobem. Co, .

Aktuální soubor robots.txt pro červenec 2014 tedy vypadá takto:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Hostitel: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ User-agent: YandexImages Povolit: /wp-content/uploads/ Sitemap: http://site.ru/sitemap.xml

Navíc obsahuje pravidla pro roboty pro indexování obrázků.

Uživatelský agent: Mediapartners-Google
Zakázat:

Pokud plánujete propagovat stránky kategorií nebo značek, měli byste je otevřít pro roboty. Například na webu blogu nejsou sekce uzavřeny před indexováním, protože publikují pouze malá oznámení článků, což je z hlediska duplikování obsahu zcela nepodstatné. A pokud použijete výstup uvozovek v blogovém zdroji, které jsou plné jedinečných oznámení, nedojde k žádné duplicitě.

Pokud výše uvedený plugin nepoužíváte, můžete v souboru robots.txt určit, že indexování značek, kategorií a archivů je zakázáno. Například přidáním těchto řádků:

Disallow: /autor/
Disallow: /tag
Disallow: /category/*/*
Disallow: /20*

Nezapomeňte zkontrolovat soubor robots.txt na panelu Yandex.Webmaster a poté jej znovu nahrát na hosting.

Pokud máte nějaké doplňky pro nastavení robots.txt, napište o tom do komentářů. A nyní se podívejte na video o tom, co to je a jak vytvořit správný soubor robots.txt pro web, jak zakázat indexování v souboru robots.txt a opravit chyby.

Robots.txt- textový soubor, který říká vyhledávacím robotům, které soubory a složky by se měly procházet (indexovat) a které by se neměly procházet.

Vyhledávače jako Yandex a Google nejprve zkontrolují soubor robots.txt a poté začnou procházet webovými roboty, kteří archivují a kategorizují webové stránky.

Soubor robots.txt obsahuje sadu instrukcí, které robotovi říkají, aby ignoroval určité soubory nebo adresáře. Může to být z důvodu ochrany osobních údajů nebo proto, že se vlastník webu domnívá, že obsah těchto souborů a adresářů by se neměl objevit ve výsledcích vyhledávače.

Pokud má web více než jednu subdoménu, každá subdoména musí mít svůj vlastní soubor robots.txt. Je důležité si uvědomit, že ne všichni roboti budou používat soubor robots.txt. Někteří škodliví roboti dokonce čtou soubor robots.txt, aby zjistili, které soubory a adresáře chcete skrýt. I když soubor robots.txt určuje ignorování určitých stránek na webu, mohou se tyto stránky stále zobrazovat ve výsledcích vyhledávání, pokud na ně odkazují jiné procházené stránky. Standardní robots txt pro WordPress otevře celý web pro index, takže musíme zavřít nepotřebné sekce WordPressu z indexování.

Optimální soubor robots.txt

User-agent: * # obecná pravidla pro roboty, kromě Yandex a Google, # protože pravidla pro ně jsou níže Disallow: /cgi-bin # složka hostitelského systému, vždy uzavřeno Disallow: /? # všechny možnosti dotazu na hlavní stránce Zakázat: /wp- # všechny soubory WP: /wp-json/, /wp-includes, /wp-content/plugins Zakázat: /wp/ # pokud existuje podadresář /wp/, kde CMS je nainstalován (pokud ne, # pravidlo lze odstranit) Disallow: *?s= # vyhledávací dotaz Disallow: *&s= # vyhledávací dotaz Disallow: /search/ # vyhledávací dotaz Disallow: /author/ # archiv autora, pokud mít zpravodajský blog se sloupci o autorech , pak můžete otevřít # archiv autora, pokud máte zpravodajský blog se sloupci autora, můžete otevřít Disallow: /users/ # archiv autorů Disallow: */trackback # zpětné odkazy, upozornění v komentářích o otevřeném # odkazu na článek Disallow: */ feed # all feeds Disallow: */rss # rss feed Disallow: */embed # all embeds Disallow: */wlwmanifest.xml # Windows Live Writer manifest xml soubor (pokud nepoužíváte , # pravidlo lze odstranit) Disallow: /xmlrpc.php # Soubor WordPress API Disallow: *utm*= # odkazy se značkami utm Disallow: *openstat= # odkazy se značkami openstat Povolit: */uploads # uploads složky open files # Zadejte jeden nebo více souborů Sitemap (duplicitní pro každý User -agent # není potřeba). Google XML Sitemap vytvoří 2 soubory Sitemap jako v příkladu níže. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Host již není vyžadován.

Rozšířená verze (samostatná pravidla pro Google a Yandex)

User-agent: * # obecná pravidla pro roboty, kromě Yandex a Google, # protože pravidla pro ně jsou níže Disallow: /cgi-bin # hostingová složka Disallow: /? # všechny možnosti dotazu na hlavní stránce Zakázat: /wp- # všechny soubory WP: /wp-json/, /wp-includes, /wp-content/plugins Zakázat: /wp/ # pokud existuje podadresář /wp/, kde CMS je nainstalován (pokud ne, # pravidlo lze odstranit) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # archiv autora Disallow: /users/ # archiv autorů Disallow: */ trackback # trackbacks, upozornění v komentářích, když se objeví otevřený # odkaz na článek Disallow: */feed # all feeds Disallow: */rss # rss feed Disallow: */embed # all embeds Disallow: */wlwmanifest .xml # manifest xml soubor Windows Live Writer (pokud nepoužíváte, # lze odebrat) Disallow: /xmlrpc.php # Soubor WordPress API Disallow: *utm*= # odkazy se značkami utm Disallow: *openstat= # odkazy se značkami openstat Povolit: */uploads # otevřít složku s nahráváním souborů User-agent: GoogleBot # pravidla pro Google (neduplikovat komentáře) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # open js scripts inside / wp - (/*/ - pro prioritu) Povolit: /*/*.css # otevřít soubory css uvnitř /wp- (/*/ - pro prioritu) Povolit: /wp-*.png # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.jpg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.jpeg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.gif # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-admin/admin-ajax.php # používá pluginy k zamezení blokování JS a CSS User-agent: Pravidla Yandex # pro Yandex (neduplikovat komentáře) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Povolit: */uploads Allow: /*/*.js Povolit: /*/*.css Povolit: /wp-*.png Povolit: /wp-*.jpg Povolit: /wp-*.jpeg Povolit: /wp-*.gif Povolit: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex doporučuje nezavírat # z indexování, ale smazat parametry značek, # Google taková pravidla nepodporuje Clean-Param: openstat # podobné # Zadejte jeden nebo více souborů Sitemap (není třeba duplikovat pro každý User-agent #). Google XML Sitemap vytvoří 2 soubory Sitemap jako v příkladu níže. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Host již není vyžadován.

Optimální Robots.txt pro WooCommerce

O správný robots.txt by se měli starat i majitelé internetových obchodů na WordPressu – WooCommerce. Uzavřeme košík, stránku pokladny a odkazy pro přidání položek do košíku z indexování.

User-agent: * Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Disallow: /cart/ Disallow: /checkout/ Disallow: /*add-to-cart= * Povolit: */uploads Povolit: /*/*.js Povolit: /*/*.css Povolit: /wp-*.png Povolit: /wp-*.jpg Povolit: /wp-*.jpeg Povolit: /wp -*.gif Povolit: /wp-admin/admin-ajax.php Mapa webu: https://site.ru/sitemap_index.xml

Otázka odpověď

Kde je soubor robots.txt ve wordpressu

Soubor robots.txt se obvykle nachází v kořenovém adresáři webu. Pokud tam není, budete muset vytvořit textový soubor a nahrát ho na web přes FTP nebo ovládací panel hostingu. Pokud jste nemohli najít robots txt v kořenovém adresáři webu, ale když kliknete na odkaz yoursite.ru/robots.txt, otevře se, vygenerují ho některé SEO pluginy.

Správně vytvořený soubor robots.txt přispívá k rychlému indexování stránek webu. Tento soubor je soubor služeb a je navržen pro zlepšení optimalizace webu pro vyhledávače. Pro projekt je důležitá i vnitřní optimalizace stránky a je potřeba se s ní vypořádat.

Soubor robots.txt vám umožňuje omezit indexování těch stránek, které není třeba indexovat. Vyhledávací roboti věnují pozornost tomuto souboru služeb, aby zabránili zobrazování stránek ve vyhledávačích, které jsou zavřené v indexování. Mimochodem, mapa webu a její zrcadlo jsou také uvedeny v souboru.

Jak vytvořit soubor robots.txt pro wordpress

Chcete-li začít vytvářet správný soubor, nejprve si ujasněme, kde se nachází WordPress robots.txt. Nachází se v kořenovém adresáři webu. Chcete-li zobrazit kořenové složky a soubory vašeho projektu, musíte použít libovolného FTP klienta, k tomu stačí kliknout na nakonfigurované "Připojení".

Chcete-li zobrazit obsah souboru naší služby, jednoduše zadejte za název webu do adresního řádku robots.txt. Příklad:https://moje stránka.com/roboty.txt

Kde leží WordPress robots.txt, víte, zbývá se podívat na to, jak by měl vypadat ideální soubor služeb pro výše uvedený engine.

Nejprve musíte v souboru zadat cestu k souboru Sitemap:

Sitemap: http://web-profy.com/sitemap.xml

A nyní přímo správná struktura souboru robots.txt pro WordPress:

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Uživatelský agent: Yandex

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Hostitel: mysite.com

Soubor Sitemap: http://mysite.com/sitemap.xml.gz

Soubor Sitemap: http://mysite.com/sitemap.xml

Jednoduše zkopírujte tato data do svého souboru. Takto vypadá správný soubor robots.txt pro WordPress.

Nyní se podívejme, co každý z řádků ve struktuře servisního souboru znamená:

User-agent: * - řetězec, který označuje, že všechna níže zadaná data budou použitelná pro všechny vyhledávače.

Pro Yandex však bude pravidlo vypadat takto: User-agent: Yandex.

Povolit: - stránky, které mohou vyhledávací roboti indexovat.

Disallow: - stránky, které mají vyhledávací roboti zakázáno indexovat.

Host: mysite.com je zrcadlo webu, které musí být specifikováno v tomto souboru služby.

Sitemap: - cesta k souboru sitemap.

robots.txt pro web WordPress bez nakonfigurovaných CNC

robots.txt pro web WordPress, kde se nachází seznam pravidel, bude vypadat trochu jinak, pokud web nemá nakonfigurované CNC.

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Uživatelský agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Hostitel: mysite.com

Soubor Sitemap: http://mysite.com/sitemap.xml.gz

Soubor Sitemap: http://mysite.com/sitemap.xml

Jaké problémy mohou nastat na webu WordPress, pokud není nakonfigurováno žádné CNC. Řádek v souboru služby robots.txt Zakázat: /*?* neumožňuje indexování stránek webu a přesně tak vypadají adresy stránek projektu při absenci CNC nastavení. To může negativně ovlivnit hodnocení internetového projektu ve vyhledávačích, protože obsah, který uživatelé potřebují, se jim ve výsledcích vyhledávání prostě nezobrazí.

Tento řádek lze samozřejmě ze souboru snadno odstranit. Poté bude web fungovat normálně.

Jak se ujistit, že je soubor robots.txt správný

To lze provést pomocí speciálního nástroje od společnosti Yandex - Yandex.Webmaster.

Je třeba jít do Nastavení indexování – analýzarobotů.txt

Uvnitř je vše intuitivní. Musíte kliknout na "Staženírobotů.txtz webu“. Každou stránku si také můžete prohlédnout zvlášť pro možnost její indexace. Do "Seznamu URL" stačí zadat adresu stránek, o které máte zájem, systém vše sám zobrazí.

Nezapomeňte, že všechny změny, které v souboru robots.txt provedete, nebudou k dispozici okamžitě, ale až po několika měsících.

Jak správně uložit soubor robots.txt

Aby byl náš soubor služeb dostupný ve vyhledávači, jako je Google, musí být uložen následovně:

Soubor musí být v textovém formátu;
Musíte jej umístit do kořenového adresáře vašeho webu;
Soubor se musí jmenovat robots.txt a nic jiného.

Adresa, kde vyhledávací roboti najdou soubor robots.txt, by měla vypadat takto - https://mysite.com/robots.txt