Πώς να αποκλείσετε έναν ιστότοπο από την ευρετηρίαση στο robots.txt: οδηγίες και συστάσεις

Πίνακας περιεχομένων:

Πώς να αποκλείσετε έναν ιστότοπο από την ευρετηρίαση στο robots.txt: οδηγίες και συστάσεις
Πώς να αποκλείσετε έναν ιστότοπο από την ευρετηρίαση στο robots.txt: οδηγίες και συστάσεις
Anonim

Η δουλειά ενός SEO-βελτιστοποίησης είναι πολύ μεγάλης κλίμακας. Συνιστάται στους αρχάριους να σημειώσουν τον αλγόριθμο βελτιστοποίησης, ώστε να μην χάνουν κανένα βήμα. Διαφορετικά, η προώθηση δύσκολα θα χαρακτηριστεί επιτυχημένη, καθώς ο ιστότοπος θα αντιμετωπίζει συνεχώς αστοχίες και λάθη που θα πρέπει να διορθωθούν για μεγάλο χρονικό διάστημα.

Ένα από τα βήματα βελτιστοποίησης είναι η εργασία με το αρχείο robots.txt. Κάθε πόρος πρέπει να έχει αυτό το έγγραφο, γιατί χωρίς αυτό θα είναι πιο δύσκολο να αντιμετωπίσετε τη βελτιστοποίηση. Εκτελεί πολλές λειτουργίες που θα πρέπει να κατανοήσετε.

Robot Assistant

Το αρχείο robots.txt είναι ένα έγγραφο απλού κειμένου που μπορεί να προβληθεί στο τυπικό Σημειωματάριο του συστήματος. Κατά τη δημιουργία του, πρέπει να ορίσετε την κωδικοποίηση σε UTF-8, ώστε να μπορεί να διαβαστεί σωστά. Το αρχείο λειτουργεί με πρωτόκολλα http, https και FTP.

Αυτό το έγγραφο είναι ένας βοηθός για την αναζήτηση ρομπότ. Σε περίπτωση που δεν το γνωρίζετε, κάθε σύστημα χρησιμοποιεί "αράχνες" που ανιχνεύουν γρήγορα τον Παγκόσμιο Ιστό για να επιστρέψουν σχετικούς ιστότοπους για ερωτήματα.χρήστες. Αυτά τα ρομπότ πρέπει να έχουν πρόσβαση στα δεδομένα πόρων, το robots.txt λειτουργεί για αυτό.

Για να βρουν οι αράχνες το δρόμο τους, πρέπει να στείλετε το έγγραφο robots.txt στον ριζικό κατάλογο. Για να ελέγξετε εάν ο ιστότοπος έχει αυτό το αρχείο, πληκτρολογήστε "https://site.com.ua/robots.txt" στη γραμμή διευθύνσεων του προγράμματος περιήγησης. Αντί για "site.com.ua" πρέπει να εισαγάγετε τον πόρο που χρειάζεστε.

Εργασία με το robots.txt
Εργασία με το robots.txt

Λειτουργίες εγγράφου

Το αρχείο robots.txt παρέχει στους ανιχνευτές διάφορους τύπους πληροφοριών. Μπορεί να δώσει μερική πρόσβαση έτσι ώστε η "αράχνη" να σαρώνει συγκεκριμένα στοιχεία του πόρου. Η πλήρης πρόσβαση σάς επιτρέπει να ελέγχετε όλες τις διαθέσιμες σελίδες. Μια πλήρης απαγόρευση εμποδίζει τα ρομπότ να αρχίσουν να ελέγχουν και εγκαταλείπουν τον ιστότοπο.

Μετά την επίσκεψη στον πόρο, οι "αράχνες" λαμβάνουν την κατάλληλη απάντηση στο αίτημα. Μπορεί να υπάρχουν πολλά από αυτά, όλα εξαρτώνται από τις πληροφορίες στο robots.txt. Για παράδειγμα, εάν η σάρωση ήταν επιτυχής, το ρομπότ θα λάβει τον κωδικό 2xx.

Ίσως ο ιστότοπος έχει ανακατευθυνθεί από τη μια σελίδα στην άλλη. Σε αυτήν την περίπτωση, το ρομπότ λαμβάνει τον κωδικό 3xx. Εάν αυτός ο κωδικός εμφανίζεται πολλές φορές, τότε η αράχνη θα τον ακολουθήσει μέχρι να λάβει άλλη απάντηση. Αν και, κατά κανόνα, χρησιμοποιεί μόνο 5 προσπάθειες. Διαφορετικά, εμφανίζεται το δημοφιλές σφάλμα 404.

Εάν η απάντηση είναι 4xx, τότε επιτρέπεται στο ρομπότ να ανιχνεύσει ολόκληρο το περιεχόμενο του ιστότοπου. Αλλά στην περίπτωση του κώδικα 5xx, ο έλεγχος μπορεί να σταματήσει εντελώς, καθώς αυτό συχνά υποδεικνύει προσωρινά σφάλματα διακομιστή.

Αναζήτηση ρομπότ
Αναζήτηση ρομπότ

Για ποιο λόγοχρειάζεσαι robots.txt?

Όπως ίσως έχετε μαντέψει, αυτό το αρχείο είναι ο οδηγός των ρομπότ για τη ρίζα του ιστότοπου. Τώρα χρησιμοποιείται για τον μερικό περιορισμό της πρόσβασης σε ακατάλληλο περιεχόμενο:

  • σελίδες με προσωπικά στοιχεία των χρηστών;
  • mirror sites;
  • αποτελέσματα αναζήτησης;
  • φόρμες υποβολής δεδομένων, κ.λπ.

Εάν δεν υπάρχει αρχείο robots.txt στη ρίζα του ιστότοπου, το ρομπότ θα ανιχνεύσει απολύτως όλο το περιεχόμενο. Αντίστοιχα, ενδέχεται να εμφανιστούν ανεπιθύμητα δεδομένα στα αποτελέσματα αναζήτησης, πράγμα που σημαίνει ότι τόσο εσείς όσο και ο ιστότοπος θα υποφέρετε. Εάν υπάρχουν ειδικές οδηγίες στο έγγραφο robots.txt, τότε η "αράχνη" θα τις ακολουθήσει και θα δώσει τις πληροφορίες που επιθυμεί ο κάτοχος του πόρου.

Εργασία με αρχείο

Για να χρησιμοποιήσετε το robots.txt για να αποκλείσετε την ευρετηρίαση του ιστότοπου, πρέπει να μάθετε πώς να δημιουργήσετε αυτό το αρχείο. Για να το κάνετε αυτό, ακολουθήστε τις οδηγίες:

  1. Δημιουργία εγγράφου στο Σημειωματάριο ή στο Σημειωματάριο++.
  2. Ορίστε την επέκταση αρχείου ".txt".
  3. Εισαγάγετε τα απαιτούμενα δεδομένα και εντολές.
  4. Αποθηκεύστε το έγγραφο και μεταφορτώστε το στη ρίζα του ιστότοπου.

Όπως μπορείτε να δείτε, σε ένα από τα στάδια είναι απαραίτητο να ορίσετε εντολές για ρομπότ. Είναι δύο τύπων: επιτρέποντας (Allow) και απαγορεύοντας (Disallow). Επίσης, ορισμένοι βελτιστοποιητές ενδέχεται να καθορίζουν την ταχύτητα ανίχνευσης, τον κεντρικό υπολογιστή και τη σύνδεση με τον χάρτη σελίδας του πόρου.

Πώς να κλείσετε έναν ιστότοπο από τη δημιουργία ευρετηρίου
Πώς να κλείσετε έναν ιστότοπο από τη δημιουργία ευρετηρίου

Για να ξεκινήσετε να εργάζεστε με το robots.txt και να αποκλείσετε εντελώς τον ιστότοπο από την ευρετηρίαση, πρέπει επίσης να κατανοήσετε τα σύμβολα που χρησιμοποιούνται. Για παράδειγμα, σε ένα έγγραφοχρησιμοποιήστε το "/", το οποίο υποδεικνύει ότι έχει επιλεγεί ολόκληρη η τοποθεσία. Εάν χρησιμοποιείται "", τότε απαιτείται μια ακολουθία χαρακτήρων. Με αυτόν τον τρόπο, θα είναι δυνατός ο καθορισμός ενός συγκεκριμένου φακέλου που μπορεί είτε να σαρωθεί είτε όχι.

Δυνατότητα των bots

Τα "Spiders" για τις μηχανές αναζήτησης είναι διαφορετικά, επομένως εάν εργάζεστε για πολλές μηχανές αναζήτησης ταυτόχρονα, τότε θα πρέπει να λάβετε υπόψη σας αυτή τη στιγμή. Τα ονόματά τους είναι διαφορετικά, πράγμα που σημαίνει ότι εάν θέλετε να επικοινωνήσετε με ένα συγκεκριμένο ρομπότ, θα πρέπει να προσδιορίσετε το όνομά του: "User Agent: Yandex" (χωρίς εισαγωγικά).

Εάν θέλετε να ορίσετε οδηγίες για όλες τις μηχανές αναζήτησης, τότε πρέπει να χρησιμοποιήσετε την εντολή: "User Agent: " (χωρίς εισαγωγικά). Για να αποκλείσετε σωστά τον ιστότοπο από τη δημιουργία ευρετηρίου χρησιμοποιώντας το robots.txt, πρέπει να γνωρίζετε τις ιδιαιτερότητες των δημοφιλών μηχανών αναζήτησης.

Το γεγονός είναι ότι οι πιο δημοφιλείς μηχανές αναζήτησης Yandex και Google διαθέτουν πολλά bots. Κάθε ένα από αυτά έχει τα δικά του καθήκοντα. Για παράδειγμα, το Yandex Bot και το Googlebot είναι οι κύριες "αράχνες" που ανιχνεύουν τον ιστότοπο. Γνωρίζοντας όλα τα ρομπότ, θα είναι ευκολότερο να προσαρμόσετε την ευρετηρίαση του πόρου σας.

Πώς λειτουργεί το αρχείο robots.txt
Πώς λειτουργεί το αρχείο robots.txt

Παραδείγματα

Έτσι, με τη βοήθεια του robots.txt, μπορείτε να κλείσετε τον ιστότοπο από την ευρετηρίαση με απλές εντολές, το κύριο πράγμα είναι να καταλάβετε τι χρειάζεστε συγκεκριμένα. Για παράδειγμα, εάν θέλετε το Googlebot να μην πλησιάζει τον πόρο σας, πρέπει να του δώσετε την κατάλληλη εντολή. Θα μοιάζει με: "User-agent: Googlebot Disallow: /" (χωρίς εισαγωγικά).

Τώρα πρέπει να καταλάβουμε τι περιέχει αυτή η εντολή και πώς λειτουργεί. Άρα "User-agent"χρησιμοποιείται για να χρησιμοποιήσετε μια απευθείας κλήση σε ένα από τα bot. Στη συνέχεια, υποδεικνύουμε σε ποια, στην περίπτωσή μας είναι η Google. Η εντολή "Disallow" πρέπει να ξεκινά από μια νέα γραμμή και να απαγορεύει στο ρομπότ να εισέλθει στον ιστότοπο. Το σύμβολο κάθετου σε αυτήν την περίπτωση υποδεικνύει ότι όλες οι σελίδες του πόρου έχουν επιλεγεί για την εκτέλεση της εντολής.

Σε τι χρησιμεύει το robots.txt
Σε τι χρησιμεύει το robots.txt

Στο robots.txt, μπορείτε να απενεργοποιήσετε τη δημιουργία ευρετηρίου για όλες τις μηχανές αναζήτησης με μια απλή εντολή: "User-agent:Disallow: /" (χωρίς εισαγωγικά). Ο χαρακτήρας αστερίσκος σε αυτήν την περίπτωση υποδηλώνει όλα τα ρομπότ αναζήτησης. Συνήθως, μια τέτοια εντολή χρειάζεται για να διακόψετε την ευρετηρίαση του ιστότοπου και να ξεκινήσετε τη βασική εργασία σε αυτόν, κάτι που διαφορετικά θα μπορούσε να επηρεάσει τη βελτιστοποίηση.

Εάν ο πόρος είναι μεγάλος και έχει πολλές σελίδες, συχνά περιέχει ιδιόκτητες πληροφορίες που είτε δεν είναι επιθυμητό να αποκαλυφθούν είτε μπορεί να επηρεάσουν αρνητικά την προώθηση. Σε αυτήν την περίπτωση, πρέπει να κατανοήσετε πώς να κλείσετε τη σελίδα από την ευρετηρίαση στο robots.txt.

Μπορείτε να αποκρύψετε είτε έναν φάκελο είτε ένα αρχείο. Στην πρώτη περίπτωση, πρέπει να ξεκινήσετε ξανά επικοινωνώντας με ένα συγκεκριμένο bot ή με όλους, επομένως χρησιμοποιούμε την εντολή "User-agent" και παρακάτω καθορίζουμε την εντολή "Disallow" για έναν συγκεκριμένο φάκελο. Θα μοιάζει με αυτό: "Disallow: / folder /" (χωρίς εισαγωγικά). Με αυτόν τον τρόπο αποκρύπτετε ολόκληρο τον φάκελο. Εάν περιέχει κάποιο σημαντικό αρχείο που θα θέλατε να εμφανιστεί, τότε πρέπει να γράψετε την παρακάτω εντολή: "Allow: /folder/file.php" (χωρίς εισαγωγικά).

Έλεγχος αρχείου

Εάν χρησιμοποιείτε το robots.txt για να κλείσετε τον ιστότοπο απόΚαταφέρατε να δημιουργήσετε ευρετηρίαση, αλλά δεν γνωρίζετε εάν όλες οι οδηγίες σας λειτουργούσαν σωστά, μπορείτε να ελέγξετε την ορθότητα της εργασίας.

Πρώτον, πρέπει να ελέγξετε ξανά την τοποθέτηση του εγγράφου. Θυμηθείτε ότι πρέπει να βρίσκεται αποκλειστικά στον ριζικό φάκελο. Εάν βρίσκεται στον ριζικό φάκελο, τότε δεν θα λειτουργήσει. Στη συνέχεια, ανοίξτε το πρόγραμμα περιήγησης και πληκτρολογήστε την ακόλουθη διεύθυνση εκεί: «https://yoursite. com/robots.txt (χωρίς εισαγωγικά). Εάν λάβετε ένα σφάλμα στο πρόγραμμα περιήγησής σας, τότε το αρχείο δεν βρίσκεται εκεί που θα έπρεπε.

Πώς να κλείσετε έναν φάκελο από την ευρετηρίαση
Πώς να κλείσετε έναν φάκελο από την ευρετηρίαση

Οι οδηγίες μπορούν να ελεγχθούν σε ειδικά εργαλεία που χρησιμοποιούνται σχεδόν από όλους τους webmasters. Μιλάμε για προϊόντα Google και Yandex. Για παράδειγμα, στο Google Search Console υπάρχει μια γραμμή εργαλείων όπου πρέπει να ανοίξετε το "Crawl" και μετά να εκτελέσετε το "Robots.txt File Inspection Tool". Πρέπει να αντιγράψετε όλα τα δεδομένα από το έγγραφο στο παράθυρο και να ξεκινήσετε τη σάρωση. Ακριβώς ο ίδιος έλεγχος μπορεί να γίνει στο Yandex. Webmaster.

Συνιστάται: