Генератор и тестер за robots.txt

Q: Што е robots.txt датотека?

Robots.txt датотеката е обична текстуална датотека поставена во коренот на веб-страницата која им кажува на пребарувачките ботови кои страници или делови од страницата смеат или не смеат да ги пребаруваат. Го следи протоколот за исклучување на роботи, стандард кој е во употреба од 1994 година. Пребарувачките ботови на пребарувачите како Googlebot, Bingbot и други ја проверуваат оваа датотека пред да пребаруваат страница. Датотеката користи едноставни директиви како User-agent, Disallow, Allow и Sitemap за да им ги соопшти правилата на ботовите.

Q: Каде да ја поставите robots.txt датотеката?

Robots.txt датотеката мора да биде поставена во коренскиот директориум на вашата веб-страница за да биде достапна на адресата https://example.com/robots.txt. Мора да се сервира на точната локација /robots.txt на доменот. Поставувањето во поддиректориум или користење друго име на датотека нема да функционира. Датотеката мора да биде обична текстуална датотека кодирана во UTF-8 и сервирана со тип на содржина text/plain. Секој поддомен бара своја сопствена robots.txt датотека.

Q: Може ли robots.txt да ги блокира сите ботови?

Да. За да ги блокирате сите ботови од сите страници, користете 'User-agent: *' проследено со 'Disallow: /' во вашата robots.txt датотека. Ова му кажува на секој бот дека ниедна страница не треба да се пребарува. Меѓутоа, robots.txt е советодавен, не обврзувачки. Добро однесените ботови како Googlebot и Bingbot ќе го почитуваат, но злонамерните ботови може да го игнорираат. За вистинско ограничување на пристапот, користете серверска автентикација или правила за заштитен ѕид.

Q: Дали Google ја почитува robots.txt датотеката?

Да, Google ги почитува директивите на robots.txt датотеката. Googlebot ја проверува robots.txt датотеката пред да пребарува која било URL на страницата. Ако некоја страница е забранета, Googlebot нема да ја пребарува. Меѓутоа, ако други страници водат кон забранета страница, Google сепак може да ја индексира URL адресата (прикажувајќи ја во резултатите од пребарувањето со белешка дека описот не е достапен) бидејќи robots.txt го спречува пребарувањето, не индексирањето. За да го спречите индексирањето, наместо тоа користете noindex мета ознака или X-Robots-Tag HTTP заглавие.

Q: Може ли да блокирам одредени страници со robots.txt?

Да. Користете специфична Disallow директива со патеката што сакате да ја блокирате. На пример, 'Disallow: /private/' ги блокира сите URL адреси што започнуваат со /private/. 'Disallow: /page.html' ја блокира таа точна страница. Можете да го користите џокер знакот * за совпаѓање на обрасци, како 'Disallow: /*.pdf$' за блокирање на сите PDF датотеки. Исто така можете да користите Allow директиви за создавање исклучоци во рамките на поширока Disallow директива.

Генерирајте robots.txt датотеки со прилагодени правила за пребарувачки ботови и сајтмапи, или тестирајте постоечка robots.txt датотека за да проверите дали одредени URL адреси се дозволени или блокирани.

Разбирање на robots.txt датотеката

Robots.txt датотеката е првата датотека која добро однесените пребарувачки ботови ја проверуваат кога посетуваат страница. Се наоѓа во коренот на вашиот домен и го користи протоколот за исклучување на роботи за да соопшти кои делови од вашата страница ботовите треба или не треба да ги пребаруваат. Иако стандардот е во употреба од 1994 година, Google го формализираше своето толкување во детална спецификација и објави парсер со отворен код во 2019 година. Секоја веб-страница која сака да контролира како пребарувачите ги пребаруваат нејзините страници има потреба од правилно конфигурирана robots.txt датотека.

Датотеката користи едноставна синтакса. Секоја секција започнува со директива User-agent која специфицира на кој бот се однесуваат правилата. Ѕвездичката одговара на сите ботови. Disallow директивите ги наведуваат патеките кои не треба да се пребаруваат, додека Allow директивите создаваат исклучоци во рамките на пошироки Disallow правила. Директивата Sitemap ги насочува ботовите кон вашата XML сајтмапа, помагајќи им да ги откријат сите страници на вашата страница. Линиите кои започнуваат со знак за диез се коментари и се игнорираат од ботовите.

Како пребарувачките ботови ја користат robots.txt датотеката

Кога бот на пребарувач ја посетува вашата страница за прв пат, тој ја бара датотеката /robots.txt пред да пребарува која било друга страница. Ако датотеката постои и содржи правила за user agent-от на тој бот, ботот ги следи тие правила. Ако датотеката не постои или враќа грешка 404, ботот претпоставува дека сите страници се дозволени. Ако датотеката враќа грешка 5xx, повеќето ботови привремено го запираат пребарувањето на страницата и повторно се обидуваат подоцна, третирајќи ја неможноста да се прочита robots.txt како претпазливост наместо дозвола. Google ги кешира robots.txt датотеките и ги освежува најмалку еднаш дневно.

Вообичаени правила за robots.txt

Најчестиот случај на употреба е блокирање на ботовите за административните области, страниците за најава, страниците со резултати од пребарување и дупликат содржината. На пример, Disallow: /admin/ ги спречува ботовите да го индексираат вашиот административен панел. Disallow: /search спречува страниците со резултати од пребарување да се појавуваат во резултатите на пребарувачите, што би било дупликат и тенка содржина. Блокирањето на PDF датотеки, верзии за печатење или staging околини се други чести примени. Важно е да се запамети дека robots.txt го контролира пребарувањето, не индексирањето. Страница блокирана со robots.txt сепак може да се појави во резултатите од пребарување ако други страници водат кон неа.

Пребарување наспроти индексирање

Честа заблуда е дека robots.txt може да спречи страница да се појави во резултатите од пребарување. Блокирањето на страница во robots.txt ги спречува ботовите да пристапат до нејзината содржина, но URL адресата сепак може да се појави во резултатите од пребарување ако надворешни страници водат кон неа. Google ќе ја прикаже URL адресата со белешка дека описот не е достапен бидејќи страницата е блокирана за пребарување. За вистински да го спречите индексирањето, наместо тоа користете ја noindex мета ознаката или X-Robots-Tag HTTP заглавието. Клучно е дека страницата мора да биде достапна за пребарување за Google да ја види noindex директивата, затоа не блокирајте страница во robots.txt ако сакате да користите noindex на неа.

Тестирање на вашата robots.txt датотека

Пред да ја поставите robots.txt датотеката, секогаш тестирајте ја за да бидете сигурни дека не блокира случајно важни страници. Google Search Console обезбедува тестер за robots.txt кој ви покажува точно како Googlebot ги толкува вашите правила. Исто така можете да го користите табот за тестирање на оваа алатка за да ја залепите вашата robots.txt содржина и да проверите дали одредени URL адреси се дозволени или блокирани. Тестирајте ги вашите најважни страници, URL адресата на вашата сајтмапа и сите страници кои конкретно сакате да ги блокирате за да потврдите дека правилата функционираат како што е предвидено.

Често поставувани прашања

Што е robots.txt датотека?

Обична текстуална датотека во коренот на веб-страницата која им кажува на ботовите кои страници можат или не можат да ги пребаруваат. Го следи протоколот за исклучување на роботи користејќи директиви како User-agent, Disallow, Allow и Sitemap.

Каде да ја поставите robots.txt датотеката?

Мора да се наоѓа во коренот на доменот на точната патека /robots.txt. Секој поддомен бара своја сопствена датотека. Мора да се сервира како text/plain со UTF-8 кодирање.

Може ли robots.txt да ги блокира сите ботови?

Користењето на "User-agent: * / Disallow: /" ги блокира сите добро однесени ботови. Меѓутоа, злонамерните ботови може да го игнорираат. За вистинско ограничување на пристапот, користете серверска автентикација.

Дали Google ја почитува robots.txt датотеката?

Да. Googlebot ја проверува robots.txt датотеката пред да пребарува која било URL адреса. Меѓутоа, блокираните страници сепак може да се појават во резултатите од пребарување ако други страници водат кон нив. Користете noindex за да го спречите индексирањето.

Може ли да блокирам одредени страници со robots.txt?

Да. Користете "Disallow: /pateka/" за директориуми или "Disallow: /page.html" за одредени страници. Џокер знаци како *.pdf$ можат да совпаѓаат со обрасци. Allow директивите создаваат исклучоци.

Embed This

Разбирање на robots.txt датотеката

Како пребарувачките ботови ја користат robots.txt датотеката

Вообичаени правила за robots.txt

Пребарување наспроти индексирање

Тестирање на вашата robots.txt датотека

Често поставувани прашања

Што е robots.txt датотека?

Каде да ја поставите robots.txt датотеката?

Може ли robots.txt да ги блокира сите ботови?

Дали Google ја почитува robots.txt датотеката?

Може ли да блокирам одредени страници со robots.txt?

Related Calculators

.htaccess Generator

Nginx Config Generator

CSP Header Builder

You Might Also Need

Meta Tag Generator

Schema Markup Generator

.htaccess Generator

Recommended Reading

The Rule of 72 is wrong. Here's why that's fine, and the exact rule when it isn't.

15-Year vs 30-Year Mortgage: Which Saves You More?

How to Calculate Your Monthly Mortgage Payment (Step by Step)