Разбирање на robots.txt датотеката
Robots.txt датотеката е првата датотека која добро однесените пребарувачки ботови ја проверуваат кога посетуваат страница. Се наоѓа во коренот на вашиот домен и го користи протоколот за исклучување на роботи за да соопшти кои делови од вашата страница ботовите треба или не треба да ги пребаруваат. Иако стандардот е во употреба од 1994 година, Google го формализираше своето толкување во детална спецификација и објави парсер со отворен код во 2019 година. Секоја веб-страница која сака да контролира како пребарувачите ги пребаруваат нејзините страници има потреба од правилно конфигурирана robots.txt датотека.
Датотеката користи едноставна синтакса. Секоја секција започнува со директива User-agent која специфицира на кој бот се однесуваат правилата. Ѕвездичката одговара на сите ботови. Disallow директивите ги наведуваат патеките кои не треба да се пребаруваат, додека Allow директивите создаваат исклучоци во рамките на пошироки Disallow правила. Директивата Sitemap ги насочува ботовите кон вашата XML сајтмапа, помагајќи им да ги откријат сите страници на вашата страница. Линиите кои започнуваат со знак за диез се коментари и се игнорираат од ботовите.
Како пребарувачките ботови ја користат robots.txt датотеката
Кога бот на пребарувач ја посетува вашата страница за прв пат, тој ја бара датотеката /robots.txt пред да пребарува која било друга страница. Ако датотеката постои и содржи правила за user agent-от на тој бот, ботот ги следи тие правила. Ако датотеката не постои или враќа грешка 404, ботот претпоставува дека сите страници се дозволени. Ако датотеката враќа грешка 5xx, повеќето ботови привремено го запираат пребарувањето на страницата и повторно се обидуваат подоцна, третирајќи ја неможноста да се прочита robots.txt како претпазливост наместо дозвола. Google ги кешира robots.txt датотеките и ги освежува најмалку еднаш дневно.
Вообичаени правила за robots.txt
Најчестиот случај на употреба е блокирање на ботовите за административните области, страниците за најава, страниците со резултати од пребарување и дупликат содржината. На пример, Disallow: /admin/ ги спречува ботовите да го индексираат вашиот административен панел. Disallow: /search спречува страниците со резултати од пребарување да се појавуваат во резултатите на пребарувачите, што би било дупликат и тенка содржина. Блокирањето на PDF датотеки, верзии за печатење или staging околини се други чести примени. Важно е да се запамети дека robots.txt го контролира пребарувањето, не индексирањето. Страница блокирана со robots.txt сепак може да се појави во резултатите од пребарување ако други страници водат кон неа.
Пребарување наспроти индексирање
Честа заблуда е дека robots.txt може да спречи страница да се појави во резултатите од пребарување. Блокирањето на страница во robots.txt ги спречува ботовите да пристапат до нејзината содржина, но URL адресата сепак може да се појави во резултатите од пребарување ако надворешни страници водат кон неа. Google ќе ја прикаже URL адресата со белешка дека описот не е достапен бидејќи страницата е блокирана за пребарување. За вистински да го спречите индексирањето, наместо тоа користете ја noindex мета ознаката или X-Robots-Tag HTTP заглавието. Клучно е дека страницата мора да биде достапна за пребарување за Google да ја види noindex директивата, затоа не блокирајте страница во robots.txt ако сакате да користите noindex на неа.
Тестирање на вашата robots.txt датотека
Пред да ја поставите robots.txt датотеката, секогаш тестирајте ја за да бидете сигурни дека не блокира случајно важни страници. Google Search Console обезбедува тестер за robots.txt кој ви покажува точно како Googlebot ги толкува вашите правила. Исто така можете да го користите табот за тестирање на оваа алатка за да ја залепите вашата robots.txt содржина и да проверите дали одредени URL адреси се дозволени или блокирани. Тестирајте ги вашите најважни страници, URL адресата на вашата сајтмапа и сите страници кои конкретно сакате да ги блокирате за да потврдите дека правилата функционираат како што е предвидено.
Често поставувани прашања
Што е robots.txt датотека?
Обична текстуална датотека во коренот на веб-страницата која им кажува на ботовите кои страници можат или не можат да ги пребаруваат. Го следи протоколот за исклучување на роботи користејќи директиви како User-agent, Disallow, Allow и Sitemap.
Каде да ја поставите robots.txt датотеката?
Мора да се наоѓа во коренот на доменот на точната патека /robots.txt. Секој поддомен бара своја сопствена датотека. Мора да се сервира како text/plain со UTF-8 кодирање.
Може ли robots.txt да ги блокира сите ботови?
Користењето на "User-agent: * / Disallow: /" ги блокира сите добро однесени ботови. Меѓутоа, злонамерните ботови може да го игнорираат. За вистинско ограничување на пристапот, користете серверска автентикација.
Дали Google ја почитува robots.txt датотеката?
Да. Googlebot ја проверува robots.txt датотеката пред да пребарува која било URL адреса. Меѓутоа, блокираните страници сепак може да се појават во резултатите од пребарување ако други страници водат кон нив. Користете noindex за да го спречите индексирањето.
Може ли да блокирам одредени страници со robots.txt?
Да. Користете "Disallow: /pateka/" за директориуми или "Disallow: /page.html" за одредени страници. Џокер знаци како *.pdf$ можат да совпаѓаат со обрасци. Allow директивите создаваат исклучоци.
Save your results & get weekly tips
Get calculator tips, formula guides, and financial insights delivered weekly. Join 10,000+ readers.
No spam. Unsubscribe anytime.