Robots.txt: Πώς μπορεί να βοηθήσει ή να βλάψει τις κατατάξεις αναζήτησης του ιστότοπού σας

Αποκάλυψη: Η υποστήριξή σας βοηθά στη διατήρηση της λειτουργίας του ιστότοπου! Κερδίζουμε ένα τέλος παραπομπής για ορισμένες από τις υπηρεσίες που προτείνουμε σε αυτήν τη σελίδα.


Το αρχείο robots.txt είναι ένα ειδικό εργαλείο που χρησιμοποιείται από ιστότοπους για να πει σε οποιοδήποτε ρομπότ Διαδικτύου που μπορεί να επισκεφτεί τι μπορούν και τι δεν μπορούν να κάνουν.

Για παράδειγμα, προτού το Googlebot επισκεφθεί τον ιστότοπό σας, διαβάζει το αρχείο robots.txt για να δει πού μπορεί και δεν μπορεί να πάει, ποιες πληροφορίες μπορεί να συλλέξει και τέτοια. Φυσικά, το κάνει επειδή αντιπροσωπεύει μια καθιερωμένη εταιρεία που ενδιαφέρεται για τη φήμη της.

Εάν κάποιοι διαδικτυακοί απατεώνες δημιούργησαν το ScamBot5000, πιθανότατα δεν θα διαβάσει καν το αρχείο robots.txt – εκτός ίσως για να δείτε πού δεν το θέλατε.

Γιατί να χρησιμοποιήσετε το Robots.txt?

Δεδομένου ότι τα ρομπότ δεν χρειάζεται να συμμορφώνονται με αυτό που υπάρχει στο αρχείο robots.txt, μπορεί να φαίνεται σαν χάσιμο χρόνου. Αλλά στην πραγματικότητα μπορεί να είναι πολύ σημαντικό. Σίγουρα, τα ανεπιθύμητα μηνύματα θα μεταβούν στον ιστότοπό σας και θα δημοσιεύσουν άχρηστα σχόλια, αλλά αυτό είναι ένα διαφορετικό ζήτημα με διαφορετικές λύσεις. Το αρχείο robots.txt χρησιμοποιείται για να βοηθήσει τις μηχανές αναζήτησης και τους αρχειοθέτες να γνωρίζουν πώς να περιηγούνται στον ιστότοπό σας.

Στις περισσότερες περιπτώσεις, οι ιστότοποι θέλουν τα ρομπότ να ελέγχουν ολόκληρους τους ιστότοπούς τους. Αλλά όχι πάντα. Φανταστείτε ότι έχετε έναν ιστότοπο που χωρίζεται σε δύο μέρη. Ένα μέρος περιέχει ένα blog όπου λέτε στον κόσμο τη γνώμη σας για κάθε νέο smartphone που κυκλοφορεί στην αγορά. Και το άλλο μέρος έχει φωτογραφίες του νέου μωρού σας. Δεν σας πειράζει να βλέπουν οι άνθρωποι τις φωτογραφίες του μωρού σας, γιατί είναι, τελικά, χαριτωμένη ως κουμπί.

Ωστόσο, δεν θέλετε αυτές οι εικόνες να περιλαμβάνονται σε βάσεις δεδομένων μηχανών αναζήτησης, όπου άτομα που δεν γνωρίζουν καν ποιοι είστε ενδέχεται να τους συναντήσουν. Ή μήπως απλά δεν θέλετε ο διακομιστής σας να φορολογείται επειδή τυχαίνει να έχετε πάνω από 10.000 εικόνες υψηλής ανάλυσης του νέου σας μωρού.

Ανεξάρτητα από τον λόγο, θα μπορούσατε να χρησιμοποιήσετε ένα αρχείο robots.txt για να πείτε στις μηχανές αναζήτησης: ευρετήριο των άρθρων του smartphone μου, αλλά αφήστε τις φωτογραφίες του μωρού μου μόνες.

Πώς λειτουργεί το Robots.txt

Οι εντολές μέσα σε αυτό αναφέρονται ως το πρωτόκολλο αποκλεισμού ρομπότ. Έχει υπάρξει από το 1994 και ποτέ δεν τυποποιήθηκε επίσημα. Ωστόσο, καταφέρνει να λειτουργεί αρκετά καλά.

Υπάρχουν πολλά σε αυτό (στα οποία θα φτάσουμε). Αλλά κυρίως, υπάρχουν μόνο δύο εντολές: (1) αυτές που λένε σε ποια ρομπότ εφαρμόζονται οι εντολές. και (2) αυτά που λένε στα ρομπότ τι μπορούν και τι δεν μπορούν να κάνουν.

Εντολή χρήστη-πράκτορα

Όλες οι ενότητες ενός αρχείου robots.txt ξεκινούν με μια εντολή User-agent. Έχει τη μορφή:

Μέλος χρήστη: [όνομα-ρομπότ]

Σε αυτήν την περίπτωση, το [όνομα-ρομπότ] μπορεί να είναι είτε το όνομα ενός συγκεκριμένου ρομπότ (π.χ. Googlebot) είτε όλα τα ρομπότ, το οποίο επισημαίνεται με ένα σύμβολο αστερίσκων. Αυτή η τελευταία περίπτωση είναι η πιο κοινή. Μετά τον πράκτορα χρήστη, όλες οι εντολές αναφέρονται σε αυτήν μέχρι την επόμενη γραμμή παράγοντα χρήστη (εάν υπάρχει).

Απαγορεύω

Οι πιο συνηθισμένες εντολές σε ένα αρχείο robots.txt είναι εκείνες που δεν επιτρέπουν στο ρομπότ να μεταβαίνει σε διαφορετικά μέρη στον ιστότοπο. Όλες οι γραμμές έχουν παρόμοια μορφή με τη μορφή παράγοντα χρήστη:

Απαγόρευση: [όνομα αρχείου ή καταλόγου]

Σε αυτήν την περίπτωση, το [όνομα αρχείου ή καταλόγου] δίνεται σε σχέση με τη ρίζα του ιστότοπου. Για παράδειγμα, μια κοινή τοποθεσία για έναν ιστότοπο σε έναν κοινόχρηστο διακομιστή είναι / home / websiteName / public_html. Όσον αφορά το robots.txt, αυτός είναι μόνο ο ριζικός κατάλογος ή /.

Απλά παραδείγματα

Ίσως το απλούστερο αρχείο robots.txt είναι αυτό που λέει σε όλα τα ρομπότ να πάνε όπου θέλουν:

Αντιπρόσωπος χρήστη: *

Ωστόσο, εάν θέλετε έναν ιστότοπο που είναι “εκτός δικτύου” και δεν μπορεί να βρεθεί από κανονικές μηχανές αναζήτησης, το αρχείο robots.txt μπορεί να μοιάζει με αυτό:

Χρήστης: * Απαγόρευση: /

Μια πιο ρεαλιστική περίπτωση θα ήταν εκείνη που δεν θέλετε το ρομπότ αναζήτησης Google να πηγαίνει σε ιδιωτικούς χώρους:

Μέλος χρήστη: Googlebot Disallow: / cgi-bin / Disallow: / wp-admin /

Τι άλλο κάνει το Robots.txt?

Δεδομένου ότι το πρότυπο αποκλεισμού ρομπότ δεν υποστηρίζεται από κανένα εξουσιοδοτημένο σώμα όπως το ISO και το W3C, ακριβώς αυτό που κάθε ρομπότ θα δώσει προσοχή είναι μεταβλητό. Έτσι, οι εντολές χρήστη-πράκτορα και απαγόρευσης που μόλις συζητήσαμε είναι όλα από τα οποία μπορείτε πραγματικά να βασιστείτε. Υπάρχουν όμως και άλλες μη τυπικές εντολές που μπορείτε να προσθέσετε στο αρχείο robots.txt.

Επιτρέπω

Η εντολή allow είναι σχεδόν τυπική. Τα περισσότερα ρομπότ το καταλαβαίνουν. Αλλά δεν είναι πολύ χρήσιμο. Χρησιμοποιείται γενικά ως τρόπος για να χαράξουμε ένα μικρό μέρος ενός κατά τα άλλα απαγορευμένου ιστότοπου για ανίχνευση. Τα περισσότερα ρομπότ δίνουν προτεραιότητα σε όποια εντολή είναι μεγαλύτερη. Μπορεί να προκαλέσει σύγχυση και πρέπει να αποφεύγεται.

Παράδειγμα

Χρήστης-πράκτορας: * Να μην επιτρέπεται: / Να επιτρέπεται: / wp

Ανίχνευση-Καθυστέρηση

Η ανίχνευση καθυστέρησης λέει στο ρομπότ πόσο συχνά μπορεί να επισκεφτεί τον ιστότοπο. Η αρχική ιδέα ήταν να αποτρέψει το ρομπότ να κυριαρχήσει στον διακομιστή ιστού. Με άλλα λόγια, ήταν ένας τρόπος να αποφευχθεί μια ακούσια επίθεση DoS. Αλλά τα περισσότερα ρομπότ δεν το χρησιμοποιούν και αυτά που το χρησιμοποιούν, το χρησιμοποιούν με διαφορετικούς τρόπους.

Παράδειγμα

Μέλος χρήστη: * Καθυστέρηση ανίχνευσης: 10

Πλήθος

Η εντολή κεντρικού υπολογιστή λέει στο ρομπότ ποιος κεντρικός υπολογιστής πρέπει να ανιχνεύσει. Αυτό μπορεί να φαίνεται περίεργο, αλλά προορίζεται για τοποθεσίες καθρεφτών. Εάν είχατε έναν βασικό ιστότοπο που ονομάζεται freeware.com και αντικατοπτρίζει freeware1.com και freeware2.com, θα ήταν λογικό τα ρομπότ να ανιχνεύσουν μόνο το freeware.com, δεδομένου ότι τα άλλα δύο θα ήταν ακριβώς τα ίδια.

Παράδειγμα

Χρήστης-πράκτορας: * Host: freeware.com

Χάρτης ιστοτόπου

Αυτή η εντολή λέει ρομπότ όπου μπορεί να βρεθεί ο χάρτης ιστότοπου XML του ιστότοπου. Γενικά, οι χάρτες ιστότοπου υποβάλλονται απευθείας στις μηχανές αναζήτησης.

Παράδειγμα

Χρήστης-πράκτορας: * Χάρτης ιστοτόπου: http://www.mysite.com/sitemap.xml

Μεταετικέτες

Εκτός από το αρχείο robots.txt, υπάρχουν επίσης μετα-ετικέτες ρομπότ. Χρησιμοποιώντας τα, μπορείτε να υποδείξετε τι πρέπει να κάνουν τα ρομπότ σε επίπεδο σελίδας. Όπως με τις περισσότερες μετα-ετικέτες, χρησιμοποιεί δύο χαρακτηριστικά: όνομα και περιεχόμενο.

Το χαρακτηριστικό name συνήθως περιέχει τη λέξη “ρομπότ”. Ωστόσο, μπορεί να περιλαμβάνει το όνομα ενός συγκεκριμένου ρομπότ – ή ακόμη και πολλά που διαχωρίζονται με κόμματα.

Το χαρακτηριστικό περιεχομένου περιέχει μία ή περισσότερες εντολές, διαχωρισμένες με κόμματα. Τα πιο συνηθισμένα είναι “noindex” (μην ευρετηριάσετε τη σελίδα) και “nofollow” (μην ακολουθήσετε τους συνδέσμους στη σελίδα). Υπάρχουν πολλές άλλες παράμετροι, όπως: index, follow, none, noarchive, nocache και nosnippet. Δείτε τους προηγμένους πόρους για περισσότερες πληροφορίες.

Παράδειγμα

Περαιτέρω πόροι

Παρακάτω θα βρείτε μια ενημερωμένη συλλογή οδηγών, οδηγών και εργαλείων για το robots.txt.

Βασικές εισαγωγές

  • Τρόπος δημιουργίας και διαμόρφωσης του αρχείου Robots.txt: μια εξαιρετική και διεξοδική εισαγωγή στο θέμα.
  • Οι ιστοσελίδες Robots Web: μια βασική εισαγωγή στο αρχείο robots.txt.
  • Τι είναι το Robots.txt: η σελίδα MOZ που εστιάζει περισσότερο στην πλευρά των πραγμάτων του SEO.
  • Τι είναι ένα αρχείο Robots.txt: Το άρθρο του Patrick Sexton που παρέχει μια καλή εισαγωγή σε όλα τα βασικά.
  • Σχετικά με την ετικέτα ρομπότ: βασικές πληροφορίες σχετικά με τον έλεγχο των ρομπότ με τη μετα-ετικέτα.
  • Μάθετε για το Robots.txt με διαδραστικά παραδείγματα: μια λεπτομερή εισαγωγή στα αρχεία robots.txt.

Προηγμένες πληροφορίες

  • Μια πιο βαθιά ματιά στο Robots.txt: μια καλή συζήτηση για το θέμα, συμπεριλαμβανομένης της αντιστοίχισης προτύπων.
  • Robots.txt Προδιαγραφές: Η προδιαγραφή της Google, η οποία εξηγεί ακριβώς πώς χρησιμοποιούν το αρχείο.
  • Πρωτόκολλο αποκλεισμού ρομπότ: πληροφορίες από το Bing σχετικά με τον τρόπο χρήσης των αρχείων robots.txt.
  • Το Robots.txt είναι μια αυτοκτονία Σημείωση: μια εξήγηση από το Archive.org για το γιατί δεν διαβάζει καν αρχεία robots.txt, τα οποία θεωρεί «μια ηλίθια, ανόητη ιδέα στη σύγχρονη εποχή».
  • Πώς να σταματήσετε τις μηχανές αναζήτησης από την ευρετηρίαση συγκεκριμένων αναρτήσεων και σελίδων στο WordPress: αν και η εστίαση είναι στο WordPress, αυτό το άρθρο παρέχει μια λεπτομερή εισαγωγή σε μετα-ετικέτες ρομπότ.
  • Πώς να αποκλείσετε και να καταστρέψετε SEO με οδηγίες 5K +: μια μελέτη περίπτωσης για το πώς ένας ιστότοπος κατέστρεψε την ορατότητά του λόγω ενός υπερβολικά περίπλοκου αρχείου robots.txt.
  • Robots.txt Απαγόρευση: 20 χρόνια λαθών προς αποφυγή: καλές συμβουλές σχετικά με το τι δεν πρέπει να κάνετε με το αρχείο robots.txt.

Εργαλεία Robots.txt

  • Εργαλείο δημιουργίας κώδικα ελέγχου ρομπότ της McAnerin: μια γεννήτρια robots.txt με πολλές δυνατότητες με έναν αριθμό συγκεκριμένων ρομπότ για τη δημιουργία κανόνων για.
  • Εργαλεία βιβλίου SEO: απλά εργαλεία για τη δημιουργία και τον έλεγχο αρχείων robots.txt.
  • Βάση δεδομένων ρομπότ: μια λίστα με περισσότερα από 300 ρομπότ και λεπτομέρειες για το καθένα.
  • Robots.txt Tester: Εργαλείο της Google για τον έλεγχο του αρχείου robots.txt. Είναι σημαντικό να γνωρίζετε τι πιστεύει η Google ότι μπορεί και τι δεν μπορεί να κάνει στον ιστότοπό σας.

Περίληψη

Το αρχείο robots.txt και οι μετα-ετικέτες robots μπορούν να είναι χρήσιμα εργαλεία για ιδιοκτήτες και διαχειριστές ιστότοπων. Αλλά πρέπει να προσέχετε πολύ μαζί τους. Εάν χρησιμοποιηθεί λανθασμένα, μπορεί να βλάψει σε μεγάλο βαθμό την προβολή του ιστότοπού σας.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map