Robots.txt: كيف يمكن أن يساعد أو يضر بترتيب البحث لموقعك على الويب

إفشاء: يساعدك دعمك في الحفاظ على تشغيل الموقع! نحصل على رسوم إحالة لبعض الخدمات التي نوصي بها في هذه الصفحة.


ملف robots.txt هو أداة خاصة تستخدمها مواقع الويب لإخبار أي روبوتات إنترنت يمكنها زيارة ما يمكنها فعله وما لا يمكنها فعله.

على سبيل المثال ، قبل أن يزور Googlebot موقعك على الويب ، فإنه يقرأ ملف robots.txt لمعرفة المكان الذي يمكنه الوصول إليه أو لا يمكنه الوصول إليه ، وما هي المعلومات التي يمكنه جمعها ، وأشياء من هذا القبيل. بالطبع ، يفعل ذلك لأنه يمثل شركة قائمة تهتم بسمعتها.

إذا قام بعض المحتالين على الإنترنت بإنشاء ScamBot5000 ، فربما لن يقوموا بقراءة ملف robots.txt – ربما باستثناء المكان الذي لا تريد البحث فيه.

فلماذا تستخدم ملف robots.txt?

نظرًا لأن الروبوتات لا يجب أن تلتزم بما هو موجود في ملف robots.txt ، فقد يبدو الأمر مضيعة للوقت. لكنها في الواقع يمكن أن تكون مهمة للغاية. بالتأكيد ، ستصل spambots إلى موقعك على الويب وتنشر تعليقات غير مجدية ، ولكن هذه مشكلة مختلفة مع حلول مختلفة. يُستخدم ملف robots.txt لمساعدة محركات البحث والأرشيف في معرفة كيفية التنقل في موقعك.

في معظم الظروف ، تريد مواقع الويب الروبوتات للتحقق من مواقعها بالكامل. لكن ليس دائما. تخيل أن لديك موقعًا مقسمًا إلى قسمين. يحتوي جزء واحد على مدونة حيث تخبر العالم عن رأيك في كل هاتف ذكي جديد يتم طرحه في السوق. والجزء الآخر يحتوي على صور لطفلك الجديد. لا تمانع في أن ينظر الناس إلى صور طفلك ، لأنها لطيفة بعد كل شيء كزر.

ولكنك لا تريد تضمين هذه الصور في قواعد بيانات محرك البحث حيث قد يأتي عليها أشخاص لا يعرفون حتى من أنت. أو ربما لا ترغب في فرض ضرائب على خادمك لأنك صادف أن لديك أكثر من 10000 صورة عالية الدقة لطفلك الجديد.

بغض النظر عن السبب ، يمكنك استخدام ملف robots.txt لإخبار محركات البحث: بفهرسة مقالات هاتفي الذكي مع ترك صور طفلي وشأنها.

كيف يعمل ملف robots.txt

يشار إلى الأوامر الموجودة بداخله باسم بروتوكول استبعاد الروبوتات. لقد كانت موجودة منذ عام 1994 ، ولم يتم توحيدها رسميًا أبدًا. لكنها تمكن من العمل بشكل جيد على أي حال.

هناك الكثير لذلك (الذي سنصل إليه). ولكن في الغالب ، هناك أمران فقط: (1) تلك الأوامر التي تحدد الروبوتات التي تنطبق عليها الأوامر ؛ و (2) أولئك الذين يخبرون الروبوتات بما يمكنهم وما لا يمكنهم فعله.

أمر وكيل المستخدم

تبدأ جميع أقسام ملف robots.txt بأمر User-agent. وهي من الشكل:

وكيل المستخدم: [اسم الروبوت]

في هذه الحالة ، يمكن أن يكون [robot-name] إما اسم روبوت معين (مثل Googlebot) أو جميع الروبوتات ، والتي يشار إليها برمز العلامات النجمية. هذه الحالة الأخيرة هي الأكثر شيوعًا. بعد User-agent ، تشير جميع الأوامر إليه حتى سطر User-agent التالي (إذا كان هناك واحد).

عدم السماح

الأوامر الأكثر شيوعًا في ملف robots.txt هي تلك التي تمنع الروبوت من الانتقال إلى أماكن مختلفة على موقع الويب. جميع الخطوط لها تنسيق مماثل لتنسيق وكيل المستخدم:

Disallow: [اسم الملف أو الدليل]

في هذه الحالة ، يتم إعطاء [اسم الملف أو الدليل] نسبة إلى جذر الموقع. على سبيل المثال ، الموقع الشائع لموقع ويب على خادم مشترك هو / home / websiteName / public_html. بقدر ما يتعلق الأمر robots.txt ، هذا هو الدليل الجذر فقط ، أو /.

أمثلة بسيطة

ربما يكون أبسط ملف robots.txt هو الملف الذي يطلب من جميع الروبوتات الذهاب إلى أي مكان تريده:

وكيل المستخدم: *

ولكن إذا كنت تريد موقع ويب “خارج الشبكة” ولا يمكن لمحركات البحث العادية العثور عليه ، فقد يبدو ملف robots.txt كما يلي:

وكيل المستخدم: * Disallow: /

قد تكون الحالة الأكثر واقعية هي الحالة التي لا تريد أن يذهب فيها روبوت بحث Google إلى المناطق الخاصة:

وكيل المستخدم: Googlebot Disallow: / cgi-bin / Disallow: / wp-admin /

ماذا يفعل Robots.txt?

نظرًا لأن معيار استبعاد الروبوتات لا يتم دعمه من قبل أي هيئة موثوقة مثل ISO و W3C ، فإن ما سيهتم به أي روبوت معين هو بالضبط متغير. وبالتالي ، فإن أوامر وكيل المستخدم وأوامر عدم السماح التي ناقشناها للتو هي كل ما يمكنك الاعتماد عليه حقًا. ولكن هناك أوامر أخرى غير قياسية يمكنك إضافتها إلى ملف robots.txt الخاص بك.

السماح

الأمر allow قياسي تقريبًا. معظم الروبوتات تفهم ذلك. لكنها ليست ذات فائدة كبيرة. يتم استخدامه عمومًا كوسيلة لاقتطاع جزء صغير من موقع غير مسموح به ليتم الزحف إليه. معظم الروبوتات تعطي الأولوية لأي أمر أطول. يمكن أن يكون مربكا ويجب تجنبه.

مثال

وكيل المستخدم: * Disallow: / Allow: / wp

تأخير الزحف

يخبر تأخير الزحف الروبوت عدد المرات التي يمكنه فيها زيارة الموقع. كانت الفكرة الأصلية هي منع الروبوت من السيطرة على خادم الويب. وبعبارة أخرى ، كانت طريقة لتجنب هجوم غير مقصود من DoS. لكن معظم الروبوتات لا تستخدمه وتلك التي تستخدمه بطرق مختلفة.

مثال

وكيل المستخدم: * تأخير الزحف: 10

مضيف

يخبر الأمر host الروبوت الذي يجب أن يزحف. قد يبدو هذا غريبًا ، ولكنه مخصص لمواقع المرآة. إذا كان لديك موقع ويب أساسي يسمى freeware.com ومرايا freeware1.com و freeware2.com ، فسيكون من المنطقي أن تقوم الروبوتات بالزحف فقط إلى freeware.com ، نظرًا لأن الاثنين الآخرين سيكونان متطابقين تمامًا.

مثال

وكيل المستخدم: * Host: freeware.com

خريطة الموقع

يخبر هذا الأمر الروبوتات حيث يمكن العثور على خريطة موقع XML الخاصة بالموقع. بشكل عام ، يتم إرسال ملفات sitemap مباشرةً إلى محركات البحث.

مثال

وكيل المستخدم: * خريطة الموقع: http://www.mysite.com/sitemap.xml

العلامات الفوقية

بالإضافة إلى ملف robots.txt ، هناك أيضًا علامات وصفية لبرامج الروبوت. باستخدامها ، يمكنك الإشارة إلى ما يجب أن تفعله الروبوتات على مستوى كل صفحة. كما هو الحال مع معظم العلامات الوصفية ، فإنه يستخدم سمتين: الاسم والمحتوى.

عادة ما تحتوي سمة الاسم على كلمة “برامج الروبوت”. ومع ذلك ، يمكن أن يتضمن اسم روبوت معين – أو حتى عدة روبوتات مفصولة بفواصل.

تحتوي سمة المحتوى على أمر واحد أو أكثر ، مفصولة بفواصل. الأكثر شيوعًا هي “noindex” (لا تقم بفهرسة الصفحة) و “nofollow” (لا تتبع الروابط الموجودة على الصفحة). هناك العديد من المعلمات الأخرى ، بما في ذلك: الفهرس ، والمتابعة ، ولا شيء ، و noarchive ، و nocache ، و nosnippet. راجع الموارد المتقدمة لمزيد من المعلومات.

مثال

مزيد من الموارد

تجد أدناه مجموعة محدثة من الأدلة والبرامج التعليمية والأدوات الخاصة بملف robots.txt.

مقدمات أساسية

  • كيفية إنشاء ملف Robots.txt الخاص بك وتكوينه: مقدمة رائعة وشاملة للموضوع.
  • صفحات روبوت الويب: مقدمة أساسية لملف robots.txt.
  • ما هو ملف Robots.txt: صفحة MOZ التي تركز بشكل أكبر على جانب تحسين محركات البحث للأشياء.
  • ما هو ملف Robots.txt: مقالة باتريك سيكستون التي تقدم مقدمة جيدة لجميع الأساسيات.
  • حول علامة الروبوتات: معلومات أساسية حول التحكم في الروبوتات باستخدام العلامة الوصفية.
  • تعرف على ملف Robots.txt مع أمثلة تفاعلية: مقدمة شاملة لملفات robots.txt.

معلومات متقدمة

  • نظرة أعمق على ملف Robots.txt: مناقشة جيدة للموضوع بما في ذلك مطابقة الأنماط.
  • مواصفات Robots.txt: مواصفات Google ، والتي تشرح بالضبط كيفية استخدام الملف.
  • بروتوكول استبعاد برامج الروبوت: معلومات من Bing حول كيفية استخدام ملفات robots.txt.
  • ملف Robots.txt هو ملاحظة انتحارية: شرح من Archive.org لماذا لم يعد يقرأ ملفات robots.txt ، والتي تعتبرها “فكرة سخيفة وغبية في العصر الحديث”.
  • كيفية إيقاف محركات البحث من فهرسة المنشورات والصفحات المحددة في WordPress: على الرغم من أن التركيز ينصب على WordPress ، فإن هذه المقالة تقدم مقدمة شاملة في العلامات الوصفية لبرامج الروبوت.
  • كيفية حظر SEO وتدميره باستخدام توجيهات 5K +: دراسة حالة حول كيفية تدمير أحد مواقع الويب لرؤيته بسبب ملف robots.txt شديد التعقيد.
  • عدم السماح بملفات Robots.txt: 20 عامًا من الأخطاء التي يجب تجنبها: نصيحة جيدة حول ما لا يجب فعله بملف robots.txt.

أدوات Robots.txt

  • أداة إنشاء رمز التحكم في برنامج الروبوت لـ McAnerin: منشئ ملف robots.txt كامل الميزات مع عدد من الروبوتات المحددة لإنشاء قواعد.
  • أدوات SEO Book: أدوات بسيطة لإنشاء ملفات robots.txt والتحقق منها.
  • قاعدة بيانات الروبوتات: قائمة بأكثر من 300 روبوت وتفاصيل حول كل منها.
  • اختبار ملف Robots.txt: أداة Google لفحص ملف robots.txt الخاص بك. من الضروري أن تعرف ما تعتقد Google أنه يمكن وما لا يمكنها فعله على موقعك.

ملخص

يمكن أن يكون ملف robots.txt والعلامات الوصفية لبرامج الروبوت أدوات مفيدة لمالكي مواقع الويب والمسؤولين. ولكن يجب أن تعتني بهم. إذا تم استخدامها بشكل غير صحيح ، فقد تضر بشدة برؤية موقع الويب الخاص بك.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map