Robots.txt: Как може да помогне или да навреди на класацията за търсене на уебсайта ви

Разкриване на информация Вашата поддръжка помага за поддържането на сайта! Печелим такса за препращане за някои от услугите, които препоръчваме на тази страница.


Файлът robots.txt е специален инструмент, използван от уебсайтове, за да каже на всички роботи в интернет, които могат да посетят какво могат и не могат.

Например, преди Googlebot да посети уебсайта ви, той прочита файла robots.txt, за да види къде може и не може да отиде, каква информация може да събира и подобни неща. Разбира се, прави това, защото представлява утвърдена компания, която се грижи за репутацията си.

Ако някои интернет измамници създадоха ScamBot5000, той вероятно дори не би прочел файла robots.txt – освен може би, за да видите къде не сте го искали да търси.

Така че защо да използвате Robots.txt?

Като се има предвид, че роботите не трябва да спазват това, което е във файла robots.txt, това може да изглежда загуба на време. Но всъщност може да бъде много важно. Разбира се, спам ботове ще влязат в уебсайта ви и ще публикуват безполезни коментари, но това е различен проблем с различни решения. Файлът robots.txt се използва, за да помогне на търсачките и архиваторите да знаят как да навигират в сайта ви.

При повечето обстоятелства уебсайтовете искат роботи да проверяват своите сайтове. Но не винаги. Представете си, че имате сайт, който е разделен на две части. Една част съдържа блог, в който казвате на света какво мислите за всеки нов смартфон, който идва на пазара. А другата част има снимки на новото ви бебе. Нямате нищо против хората да гледат снимките на вашето бебе, защото тя в крайна сметка е сладка като копче.

Но не искате онези снимки да бъдат включени в базите данни на търсачките, където хората, които дори не знаят кой сте, могат да се натъкнат на тях. Или може би просто не искате вашият сървър да се облага с данък, защото просто имате над 10 000 снимки с висока резолюция на новото си бебе.

Независимо от причината, можете да използвате файл robots.txt, за да кажете на търсачките: индексирайте статиите ми за смартфони, но оставете снимките на бебето ми на мира.

Как работи Robots.txt

Командите вътре в него се наричат ​​протокол за изключване на роботи. Това е от 1994 г. насам и никога не е официално стандартизирано. Но така или иначе успява да работи доста добре.

Има много неща (до които ще стигнем). Но най-вече има само две команди: (1) тези, които казват към кои роботи се прилагат командите; и (2) тези, които казват на роботите какво могат и не могат да направят.

Команда за потребителски агент

Всички раздели на файл robots.txt започват с команда User-agent. Формата е:

Потребителски агент: [име на робота]

В този случай [robot-name] може да бъде или името на конкретен робот (например, Googlebot), или на всички роботи, което е обозначено със символ на звездички. Последният случай е най-често срещаният. Следвайки User-agent, всички команди се отнасят до него до следващия ред User-agent (ако има такъв).

Забрана

Най-често срещаните команди във файл robots.txt са тези, които забраняват на робота да отиде на различни места в уебсайта. Всички редове имат подобен формат с формата на User-agent:

Дезактивиране: [име на файл или директория]

В този случай [име на файл или директория] се дава спрямо корена на уебсайта. Например, общо местоположение за уебсайт на споделен сървър е / home / websiteName / public_html. Що се отнася до robots.txt, това е само основната директория или /.

Прости примери

Може би най-простият файл robots.txt е този, който казва на всички роботи да отидат където искат:

Потребителски агент: *

Но ако искате уебсайт, който е „извън мрежата“ и не може да бъде намерен от нормалните търсачки, вашият файл robots.txt може да изглежда така:

Потребителски агент: * Забрани: /

По-реалистичен случай е случаят, в който не искате роботът за търсене на Google да отива в частни зони:

Потребителски агент: Googlebot Disallow: / cgi-bin / Disallow: / wp-admin /

Какво друго прави Robots.txt?

Тъй като стандартът за изключване на роботи не е подкрепен от авторитетен орган като ISO и W3C, точно това, на което всеки робот ще обърне внимание, е променливо. По този начин командите user-agent и disallow, които току-що обсъдихме, са всичко, от което наистина можете да разчитате. Но има и други нестандартни команди, които можете да добавите към файла си robots.txt.

Позволява

Командата разрешаване е почти стандартна. Повечето роботи го разбират. Но наистина не е от голяма полза. Обикновено се използва като начин за изчертаване на малка част от иначе забранен сайт за обхождане. Повечето роботи дават предимство на командата, която е по-дълга. Тя може да бъде объркваща и трябва да се избягва.

пример

Потребителски агент: * Забрани: / Разреши: / wp

Crawl-Delay

Забавяне на обхождане казва на робота колко често може да посещава сайта. Първоначалната идея беше да се предпази роботът да не доминира над уеб сървъра. С други думи, това беше начин да се избегне невнимателна DoS атака. Но повечето роботи не го използват, а тези, които го правят, използват го по различни начини.

пример

Потребителски агент: * Забавяне при обхождане: 10

домакин

Командата хост казва на робота кой хост трябва да изпълнява. Това може да изглежда странно, но е предназначено за огледални сайтове. Ако имате основен уебсайт, наречен freeware.com и огледала freeware1.com и freeware2.com, би имало смисъл роботите да обхождат само freeware.com, като се има предвид, че другите двама ще бъдат абсолютно същите.

пример

Потребителски агент: * Водещ: freeware.com

Карта на сайта

Тази команда казва на роботите къде може да се намери карта на XML на сайта. По принцип Sitemap се изпращат директно към търсачките.

пример

Потребителски агент: * Карта на сайта: http://www.mysite.com/sitemap.xml

Meta Tags

В допълнение към файла robots.txt има и мета тагове за роботи. Използвайки ги, можете да посочите какво трябва да правят роботите на ниво страница. Както при повечето мета тагове, той използва два атрибута: име и съдържание.

Атрибутът на името обикновено съдържа думата „роботи“. Въпреки това може да включва името на конкретен робот – или дори няколко такива, разделени със запетаи.

Атрибутът за съдържание съдържа една или повече команди, разделени със запетаи. Най-често срещаните от тях са „noindex“ (не индексирайте страницата) и „nofollow“ (не следвайте връзките на страницата). Има много други параметри, включително: index, follow, none, noarchive, nocache и nosnippet. Вижте разширените ресурси за повече информация.

пример

Допълнителни ресурси

По-долу ще намерите актуална колекция от ръководства, ръководства и инструменти за robots.txt.

Основни въведения

  • Как да създадете и конфигурирате вашия Robots.txt файл: чудесно и задълбочено въведение в темата.
  • Страници за уеб роботи: основно въведение към файла robots.txt.
  • Какво е Robots.txt: страницата на MOZ, която е фокусирана повече върху SEO страницата на нещата.
  • Какво е файл Robots.txt: статията на Патрик Секстън, която предоставя добро въведение към всички основни положения.
  • За тага Robots: основна информация за контролиране на роботи с мета маркера.
  • Научете за Robots.txt с интерактивни примери: подробно запознаване с файловете robots.txt.

Разширена информация

  • По-задълбочен поглед към Robots.txt: добра дискусия по темата, включително съвпадение на модел.
  • Спецификации на Robots.txt: спецификация на Google, която обяснява как точно използват файла.
  • Протокол за изключване на роботи: информация от Bing за това как се използват файловете robots.txt.
  • Robots.txt е самоубийствена бележка: обяснение от Archive.org за това, защо вече не чете дори файлове robots.txt, което смята за „глупава, глупава идея в съвременната ера“.
  • Как да спрем търсачките от индексиране на конкретни публикации и страници в WordPress: въпреки че акцентът е върху WordPress, тази статия предоставя задълбочено въвеждане в мета таговете за роботи.
  • Как да блокирате и унищожите SEO с 5K + директиви: казус за това как един уебсайт унищожи видимостта си поради прекалено сложен файл robots.txt.
  • Robots.txt Disallow: 20 години грешки, които трябва да се избягват: добър съвет за това какво да не правите с файла си robots.txt.

Robots.txt Инструменти

  • Инструментът за генериране на кодове за управление на McAnerin: пълнофункционален генератор robots.txt с редица конкретни роботи за създаване на правила за.
  • Инструменти за SEO книги: прости инструменти за създаване и проверка на robots.txt файлове.
  • База данни за роботи: списък с над 300 роботи и подробности за всеки.
  • Robots.txt Tester: Инструментът на Google за проверка на файла robots.txt. Важно е да знаете какво Google смята, че може и какво не може да направи на вашия сайт.

резюме

Файлът robots.txt и мета таговете robots могат да бъдат полезни инструменти за собственици на уебсайтове и администратори. Но трябва да се грижите много с тях. Ако се използват неправилно, те могат значително да навредят на видимостта на уебсайта Ви.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map