Robots.txt: Kuinka se voi auttaa tai haitata verkkosivustosi hakutuloksia

Disclosure: Tukisi auttaa pitämään sivuston toiminnassa! Ansaitsemme lähetysmaksun joistakin tämän sivun suosittelemista palveluista.


Robots.txt-tiedosto on erityinen työkalu, jota verkkosivustot käyttävät kertoakseen kaikille Internet-roboteille, jotka saattavat käydä vieraillaan siinä, mitä he voivat ja eivät pysty.

Esimerkiksi, ennen kuin Googlebot vierailee verkkosivustollasi, se lukee robots.txt-tiedoston nähdäkseen mihin se voi ja ei voi mennä, mitä tietoja se voi kerätä ja mitä vastaavaa. Tietysti se tekee tämän, koska edustaa vakiintunutta yritystä, joka välittää maineestaan.

Jos jotkut Internet-huijarit loivat ScamBot5000: n, se ei todennäköisesti edes lukenut robots.txt-tiedostoa – paitsi ehkä nähdäksesi, mistä et halunnut sen hakevan.

Joten miksi käyttää Robots.txt-tiedostoa?

Koska robottien ei tarvitse noudattaa robots.txt-tiedostoa, se voi tuntua ajanhukalta. Mutta se voi todella olla erittäin tärkeä. Varmasti, spambot tulevat verkkosivustollesi ja lähettävät turhia kommentteja, mutta se on erilainen ongelma erilaisilla ratkaisuilla. Robots.txt-tiedostoa käytetään hakukoneiden ja arkistoijien auttamiseen sivustossa liikkumiseen.

Useimmissa tapauksissa verkkosivustot haluavat robottien tarkistavan koko sivuston. Mutta ei aina. Kuvittele, että sinulla on sivusto, joka on jaettu kahteen osaan. Yksi osa sisältää blogin, jossa kerrot maailmalle mitä ajattelet jokaisesta markkinoille tulevasta älypuhelimesta. Ja toisessa osassa on kuvia uudesta vauvasi. Et unohda ihmisiä, jotka katsovat vauvasi kuvia, koska hän on loppujen lopuksi söpö kuin painike.

Mutta et halua, että kuvat sisällytetään hakukoneiden tietokantoihin, joissa ihmiset, jotka eivät edes tiedä kuka olet, saattavat tulla heidän luokseen. Tai ehkä et vain halua palvelimeltasi verotusta, koska sinulla on juuri yli 10 000 korkearesoluutioista kuvaa uudesta vauvasi.

Syystä riippumatta, voit käyttää robots.txt-tiedostoa kertoaksesi hakukoneille: indeksoida älypuhelimen artikkeleita, mutta jättää lapseni kuvat yksin.

Kuinka Robots.txt toimii

Sen sisällä oleviin komentoihin viitataan nimellä Robots Exclusion Protocol. Se on ollut olemassa jo vuodesta 1994, eikä sitä ole koskaan virallisesti standardisoitu. Mutta se onnistuu joka tapauksessa toimimaan melko hyvin.

Sillä on paljon (mihin pääsemme). Mutta useimmiten on vain kaksi komentoa: (1) ne, jotka kertovat mihin robotteihin komennot koskevat; ja (2) ne, jotka kertovat robotille, mitä he voivat ja eivät voi tehdä.

Käyttäjä-agentin komento

Kaikki robots.txt-tiedoston osat alkavat User-agent-komennolla. Sen muoto on:

Käyttäjäagentti: [robotin nimi]

Tässä tapauksessa [robotin nimi] voi olla joko tietyn robotin (esim. Googlebot) tai kaikkien robotien nimi, joka on merkitty tähdellä. Jälkimmäinen tapaus on yleisin. User-agentin jälkeen kaikki komennot viittaavat siihen seuraavaan User-agent-riviin asti (jos sellainen on)..

Estä

Robots.txt-tiedoston yleisimmät komennot ovat niitä, jotka estävät robottia menemästä verkkosivuston eri paikkoihin. Kaikilla riveillä on samanlainen muoto kuin User-agent-muodossa:

Estä: [tiedoston tai hakemiston nimi]

Tässä tapauksessa [tiedoston tai hakemiston nimi] annetaan suhteessa verkkosivuston juureen. Esimerkiksi jaetulla palvelimella olevan verkkosivuston yleinen sijainti on / home / verkkosivun nimi / public_html. Robots.txt: n osalta tämä on vain juurihakemisto tai /.

Yksinkertaisia ​​esimerkkejä

Ehkä yksinkertaisin robots.txt-tiedosto on tiedosto, joka käskee kaikkia robotteja menemään minne haluavat:

Käyttäjä agentti: *

Mutta jos haluat verkkosivuston, joka on “ruudukon ulkopuolella” ja jota normaalit hakukoneet eivät löydä, robots.txt-tiedostosi saattaa näyttää tältä:

Käyttäjäagentti: * Estä: /

Realistisempi tapaus olisi tapaus, jossa et halua, että Google-hakurobotti menee yksityisille alueille:

Käyttäjäagentti: Googlebot Disallow: / cgi-bin / Disallow: / wp-admin /

Mitä muuta tekee Robots.txt?

Koska mikään arvovaltainen elin, kuten ISO ja W3C, ei tue robottien poissulkemisstandardia, tarkalleen mitä robotti kiinnittää huomiota, on muuttuva. Niinpä äskettäin keskustellamme käyttäjäagentit ja kieltävät komennot ovat kaikki mitä voit todella luottaa. Mutta on myös muita epästandardeja komentoja, jotka voit lisätä robots.txt-tiedostoosi.

Sallia

Salli-komento on melkein vakio. Useimmat robotit ymmärtävät sen. Mutta siitä ei todellakaan ole paljon hyötyä. Sitä käytetään yleensä tapaksi porata pieni osa muuten kiellettyä sivustoa indeksoitaviksi. Useimmat robotit antavat etusijan siihen, kumpi komento on pidempi. Se voi olla hämmentävä ja sitä tulisi välttää.

esimerkki

Käyttäjäagentti: * Estä: / Salli: / wp

Crawl-delay

Indeksointiviive kertoo robotille, kuinka usein se voi käydä sivustolla. Alkuperäinen idea oli estää robotti hallitsemasta web-palvelinta. Toisin sanoen, se oli tapa välttää tahatonta DoS-hyökkäystä. Mutta useimmat robotit eivät käytä sitä, ja ne, jotka käyttävät sitä, käyttävät sitä eri tavoin.

esimerkki

Käyttäjäagentti: * Indeksointiviive: 10

isäntä

Isäntäkomento kertoo robotille, minkä isännän se tulisi indeksoida. Tämä voi tuntua oudolta, mutta se on tarkoitettu peilikohdille. Jos sinulla olisi ilmainen verkkosivusto nimeltä freeware.com ja peilaa freeware1.com ja freeware2.com, olisi järkevää, että robotit indeksoisivat vain freeware.com, koska kaksi muuta olisi täsmälleen sama.

esimerkki

User-agent: * Isäntä: freeware.com

Sivukartta

Tämä komento kertoo roboteille, mistä sivuston XML-sivukartta löytyy. Sivustokartat toimitetaan yleensä hakukoneille.

esimerkki

User-agent: * Sivustokartta: http://www.sivusto.com/sivustokartta.xml

Sisällönkuvauskentät

Robots.txt-tiedoston lisäksi on myös robots-metatunnisteita. Niitä käyttämällä voit ilmoittaa, mitkä robotit tulisi tehdä sivutasolla. Kuten useimmissa metakoodeissa, se käyttää kahta attribuuttia: nimi ja sisältö.

Nimimääritteessä on yleensä sana “robotit”. Se voi kuitenkin sisältää tietyn robotin nimen – tai jopa useita pilkuilla erotettuina.

Sisältöattribuutti sisältää yhden tai useamman komennon pilkuin erotettuna. Yleisimpiä ovat “noindex” (älä indeksoi sivua) ja “nofollow” (älä seuraa sivun linkkejä). On monia muita parametreja, mukaan lukien: hakemisto, seuraa, ei mitään, noarchive, nocache ja nosnippet. Katso lisätietoja resursseista.

esimerkki

Lisäresursseja

Alta löydät ajan tasalla olevan kokoelman oppaita, oppaita ja työkaluja robots.txt-tiedostoon.

Perusesittelyt

  • Kuinka luoda ja määrittää Robots.txt-tiedosto: loistava ja perusteellinen johdanto aiheesta.
  • Web-robotit-sivut: perustiedot robots.txt-tiedostolle.
  • Mikä on Robots.txt: MOZ-sivu, joka on keskittynyt enemmän asioiden SEO-puolelle.
  • Mikä on Robots.txt-tiedosto: Patrick Sextonin artikkeli, joka tarjoaa hyvän johdannon kaikkiin perusteisiin.
  • Tietoja robotit-tunnisteesta: perustiedot robottien ohjaamisesta metatunnisteella.
  • Lisätietoja Robots.txt-tiedoista interaktiivisilla esimerkeillä: perusteellinen johdanto robots.txt-tiedostoihin.

Tarkempia tietoja

  • Syvempi katsaus Robots.txt: hyvä keskustelu aiheesta, mukaan lukien kuvioiden sovittaminen.
  • Robots.txt-tekniset tiedot: Googlen määrittely, joka selittää tarkalleen, kuinka he käyttävät tiedostoa.
  • Robottien poissulkemisprotokolla: tiedot Bingiltä robots.txt-tiedostojen käytöstä.
  • Robots.txt on itsemurhahuomautus: Archive.org selittää miksi se ei enää luke edes robots.txt-tiedostoja, joita se pitää ”tyhmän, typerän ajatuksena nykyaikana”.
  • Kuinka estää hakukoneita indeksoimasta tiettyjä viestejä ja sivuja WordPressissä: vaikka painopiste on WordPressissä, tämä artikkeli antaa perusteellisen johdannon robottien sisällönkuvauskenttiin.
  • Kuinka estää ja tuhota SEO 5K + -direktiiveillä: tapaustutkimus siitä, kuinka yksi verkkosivusto tuhosi näkyvyyden liian monimutkaisen robots.txt-tiedoston takia.
  • Robots.txt-esto: 20 vuotta välttämätöntä virhettä: hyviä neuvoja siitä, mitä ei tehdä robots.txt-tiedostolle.

Robots.txt-työkalut

  • McAnerinin robotinhallintakoodien luontityökalu: monipuolinen robots.txt-generaattori, jossa on useita erityisiä robotteja, jotta luodaan sääntöjä.
  • SEO Book Tools: yksinkertaiset työkalut robots.txt-tiedostojen luomiseen ja tarkistamiseen.
  • Robotit-tietokanta: luettelo yli 300 robotista ja yksityiskohdat jokaisesta.
  • Robots.txt -testeri: Googlen työkalu robots.txt-tiedostosi tarkistamiseen. On kriittistä, että tiedät, mitä Google ajattelee voivansa tehdä eikä voi tehdä sivustossasi.

Yhteenveto

Robots.txt-tiedosto ja robots-metatunnisteet voivat olla hyödyllisiä työkaluja verkkosivustojen omistajille ja järjestelmänvalvojille. Mutta sinun on oltava erittäin varovainen heidän kanssaan. Jos niitä käytetään väärin, ne voivat merkittävästi vahingoittaa verkkosivustosi näkyvyyttä.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map