Πώς να ρυθμίσετε σωστά το Robots.txt;

Πίνακας περιεχομένων:

Πώς να ρυθμίσετε σωστά το Robots.txt;
Πώς να ρυθμίσετε σωστά το Robots.txt;
Anonim

Το σωστό txt Robots για τον ιστότοπο html δημιουργεί μακέτες δράσης για bot μηχανών αναζήτησης, λέγοντάς τους τι μπορούν να ελέγξουν. Αυτό το αρχείο αναφέρεται συχνά ως πρωτόκολλο εξαίρεσης ρομπότ. Το πρώτο πράγμα που αναζητούν τα ρομπότ πριν ανιχνεύσουν έναν ιστότοπο είναι το robots.txt. Μπορεί να δείχνει ή να λέει στον Χάρτη ιστότοπου να μην ελέγχει ορισμένους υποτομείς. Όταν θέλετε οι μηχανές αναζήτησης να αναζητούν αυτό που βρίσκεται πιο συχνά, τότε το robots.txt δεν απαιτείται. Είναι πολύ σημαντικό σε αυτή τη διαδικασία το αρχείο να έχει μορφοποιηθεί σωστά και να μην ευρετηριάζει τη σελίδα χρήστη με τα προσωπικά δεδομένα του χρήστη.

Αρχή σάρωσης ρομπότ

Η αρχή της σάρωσης ρομπότ
Η αρχή της σάρωσης ρομπότ

Όταν μια μηχανή αναζήτησης συναντά ένα αρχείο και βλέπει μια απαγορευμένη διεύθυνση URL, δεν το ανιχνεύει, αλλά μπορεί να το ευρετηριάσει. Αυτό οφείλεται στο γεγονός ότι ακόμη και αν τα ρομπότ δεν επιτρέπεται να δουν το περιεχόμενο, μπορούν να θυμούνται backlinks που δείχνουν προς την απαγορευμένη διεύθυνση URL. Λόγω αποκλεισμένης πρόσβασης στον σύνδεσμο, η διεύθυνση URL θα εμφανίζεται στις μηχανές αναζήτησης, αλλά χωρίς θραύσματα. Αν έναγια την εισερχόμενη στρατηγική μάρκετινγκ, απαιτείται το σωστό Robots txt για bitrix (Bitrix), παρέχουν επαλήθευση τοποθεσίας κατόπιν αιτήματος του χρήστη από σαρωτές.

Από την άλλη πλευρά, εάν το αρχείο δεν έχει μορφοποιηθεί σωστά, αυτό μπορεί να έχει ως αποτέλεσμα ο ιστότοπος να μην εμφανίζεται στα αποτελέσματα αναζήτησης και να μην βρεθεί. Οι μηχανές αναζήτησης δεν μπορούν να παρακάμψουν αυτό το αρχείο. Ένας προγραμματιστής μπορεί να δει το robots.txt οποιουδήποτε ιστότοπου μεταβαίνοντας στον τομέα του και ακολουθώντας το με το robots.txt, για παράδειγμα, www.domain.com/robots.txt. Χρησιμοποιώντας ένα εργαλείο όπως η ενότητα βελτιστοποίησης SEO της Unamo, όπου μπορείτε να εισαγάγετε οποιονδήποτε τομέα και η υπηρεσία θα εμφανίσει πληροφορίες σχετικά με την ύπαρξη του αρχείου.

Περιορισμοί για σάρωση:

  1. Ο χρήστης έχει παλιό ή ευαίσθητο περιεχόμενο.
  2. Οι εικόνες στον ιστότοπο δεν θα περιλαμβάνονται στα αποτελέσματα αναζήτησης εικόνων.
  3. Ο ιστότοπος δεν είναι ακόμη έτοιμος για επίδειξη για ευρετηρίαση από το ρομπότ.

Λάβετε υπόψη ότι οι πληροφορίες που επιθυμεί να λάβει ένας χρήστης από μια μηχανή αναζήτησης είναι διαθέσιμες σε οποιονδήποτε εισάγει τη διεύθυνση URL. Μην χρησιμοποιείτε αυτό το αρχείο κειμένου για απόκρυψη ευαίσθητων δεδομένων. Εάν ο τομέας έχει σφάλμα 404 (δεν βρέθηκε) ή 410 (επιβεβαιώθηκε), η μηχανή αναζήτησης ελέγχει τον ιστότοπο παρά την παρουσία του robots.txt, οπότε θεωρεί ότι το αρχείο λείπει. Άλλα σφάλματα όπως 500 (Εσωτερικό σφάλμα διακομιστή), 403 (Απαγορευμένο), λήγει ή "μη διαθέσιμο" τηρούν τις οδηγίες του robots.txt, ωστόσο η παράκαμψη μπορεί να καθυστερήσει έως ότου το αρχείο είναι διαθέσιμο.

Δημιουργία αρχείου αναζήτησης

Δημιουργία αρχείου αναζήτησης
Δημιουργία αρχείου αναζήτησης

ΠολλάΤα προγράμματα CMS όπως το WordPress έχουν ήδη αρχείο robots.txt. Προτού διαμορφώσει σωστά το Robots txt WordPress, ο χρήστης πρέπει να εξοικειωθεί με τις δυνατότητές του για να καταλάβει πώς να έχει πρόσβαση σε αυτό. Εάν ο προγραμματιστής δημιουργήσει το αρχείο μόνος του, πρέπει να πληροί τις ακόλουθες προϋποθέσεις:

  1. Πρέπει να είναι με πεζά.
  2. Χρήση κωδικοποίησης UTF-8.
  3. Αποθήκευση σε πρόγραμμα επεξεργασίας κειμένου ως αρχείο (.txt).

Όταν ένας χρήστης δεν ξέρει πού να το τοποθετήσει, επικοινωνεί με τον προμηθευτή λογισμικού διακομιστή ιστού για να μάθει πώς να αποκτήσει πρόσβαση στη ρίζα ενός τομέα ή μεταβεί στην κονσόλα Google και να τον κατεβάσει. Με αυτήν τη λειτουργία, η Google μπορεί επίσης να ελέγξει εάν το bot λειτουργεί σωστά και τη λίστα των τοποθεσιών που έχουν αποκλειστεί χρησιμοποιώντας το αρχείο.

Η κύρια μορφή του σωστού txt Robots για bitrix (Bitrix):

  1. Legend robots.txt.
  2. , προσθέτει σχόλια που χρησιμοποιούνται μόνο ως σημειώσεις.
  3. Αυτά τα σχόλια θα αγνοηθούν από τους σαρωτές μαζί με τυχόν τυπογραφικά λάθη του χρήστη.
  4. User-agent - υποδεικνύει σε ποια μηχανή αναζήτησης αναφέρονται οι οδηγίες για το αρχείο.
  5. Η προσθήκη ενός αστερίσκου () ενημερώνει τους σαρωτές ότι οι οδηγίες είναι για όλους.

Υποδεικνύει ένα συγκεκριμένο bot, για παράδειγμα, Googlebot, Baiduspider, Applebot. Το Disallow ενημερώνει τους ανιχνευτές ποια μέρη του ιστότοπου δεν πρέπει να ανιχνεύονται. Μοιάζει με αυτό: User-agent:. Ο αστερίσκος σημαίνει "όλα τα ρομπότ". Ωστόσο, μπορείτε να καθορίσετε σελίδες για συγκεκριμένεςρομπότ. Για να το κάνετε αυτό, πρέπει να γνωρίζετε το όνομα του ρομπότ για το οποίο έχουν οριστεί προτάσεις.

Το σωστό txt ρομπότ για το Yandex μπορεί να μοιάζει με αυτό:

Σωστό txt ρομπότ για το Yandex
Σωστό txt ρομπότ για το Yandex

Εάν το ρομπότ δεν πρέπει να ανιχνεύσει τον ιστότοπο, μπορείτε να τον καθορίσετε και για να βρείτε τα ονόματα των πρακτόρων χρηστών, συνιστάται να εξοικειωθείτε με τις διαδικτυακές δυνατότητες του useragentstring.com.

Βελτιστοποίηση σελίδας

Βελτιστοποίηση σελίδας
Βελτιστοποίηση σελίδας

Οι παρακάτω δύο γραμμές θεωρούνται πλήρες αρχείο robots.txt και ένα μεμονωμένο αρχείο robots μπορεί να περιέχει πολλές γραμμές πρακτόρων χρήστη και οδηγίες που απενεργοποιούν ή ενεργοποιούν την ανίχνευση. Η κύρια μορφή του σωστού txt Robots:

  1. Πράκτορας χρήστη: [όνομα χρήστη πράκτορα].
  2. Disallow: [συμβολοσειρά URL που δεν έχει ανιχνευτεί].

Στο αρχείο, κάθε μπλοκ οδηγιών εμφανίζεται ως διακριτό, χωρισμένο με μια γραμμή. Στο αρχείο δίπλα στον κατάλογο χρήστη του πράκτορα, κάθε κανόνας εφαρμόζεται σε ένα συγκεκριμένο σύνολο γραμμών που χωρίζονται από ενότητες. Εάν ένα αρχείο έχει κανόνα πολλών παραγόντων, το ρομπότ θα λάβει υπόψη μόνο την πιο συγκεκριμένη ομάδα εντολών.

Τεχνική σύνταξη

Τεχνική Σύνταξη
Τεχνική Σύνταξη

Μπορεί να θεωρηθεί ως η "γλώσσα" των αρχείων robots.txt. Υπάρχουν πέντε όροι που μπορούν να υπάρχουν σε αυτήν τη μορφή, οι κύριοι περιλαμβάνουν:

  1. User-agent - πρόγραμμα ανίχνευσης ιστού με οδηγίες ανίχνευσης, συνήθως μηχανή αναζήτησης.
  2. Απαγόρευση είναι μια εντολή που χρησιμοποιείται για να πει στον παράγοντα χρήστη να παρακάμψει(παράλειψη) συγκεκριμένης διεύθυνσης URL. Υπάρχει μόνο μία απαγορευμένη προϋπόθεση για το καθένα.
  3. Να επιτρέπεται. Για το Googlebot που αποκτά πρόσβαση, δεν επιτρέπεται ακόμη και η σελίδα χρήστη.
  4. Καθυστέρηση ανίχνευσης - καθορίζει πόσα δευτερόλεπτα θα χρειαστεί ο ανιχνευτής πριν από την ανίχνευση. Όταν το bot δεν το επιβεβαιώσει, η ταχύτητα ορίζεται στην κονσόλα Google.
  5. Χάρτης ιστότοπου - Χρησιμοποιείται για τον εντοπισμό τυχόν χαρτών XML που σχετίζονται με μια διεύθυνση URL.

Αντιστοιχίες μοτίβων

Όσον αφορά τον ουσιαστικό αποκλεισμό διευθύνσεων URL ή την αποδοχή έγκυρων txt των Robots, οι λειτουργίες μπορεί να είναι αρκετά δύσκολες καθώς σας επιτρέπουν να χρησιμοποιήσετε την αντιστοίχιση προτύπων για να καλύψετε έναν αριθμό πιθανών παραμέτρων διεύθυνσης URL. Το Google και το Bing χρησιμοποιούν δύο χαρακτήρες που προσδιορίζουν σελίδες ή υποφακέλους που το SEO θέλει να αποκλείσει. Οι δύο χαρακτήρες είναι ο αστερίσκος () και το σύμβολο του δολαρίου ($), όπου:είναι ένας μπαλαντέρ που αντιπροσωπεύει οποιαδήποτε ακολουθία χαρακτήρων. $ - αντιστοιχεί στο τέλος της διεύθυνσης URL.

Η Google προσφέρει μια μεγάλη λίστα πιθανών συντακτικών προτύπων που εξηγούν στον χρήστη πώς να ρυθμίσει σωστά ένα αρχείο txt Robots. Μερικές συνήθεις περιπτώσεις χρήσης περιλαμβάνουν:

  1. Αποτρέψτε την εμφάνιση διπλότυπου περιεχομένου στα αποτελέσματα αναζήτησης.
  2. Κρατήστε όλες τις ενότητες του ιστότοπου ιδιωτικές.
  3. Αποθήκευση εσωτερικών σελίδων αποτελεσμάτων αναζήτησης με βάση την ανοιχτή δήλωση.
  4. Ενδείξτε τοποθεσία.
  5. Αποτρέψτε τις μηχανές αναζήτησης από την ευρετηρίαση ορισμένωναρχεία.
  6. Καθορισμός καθυστέρησης ανίχνευσης για διακοπή επαναφόρτωσης κατά τη σάρωση πολλών περιοχών περιεχομένου ταυτόχρονα.

Έλεγχος για την παρουσία αρχείου ρομπότ

Αν δεν υπάρχουν περιοχές στον ιστότοπο που πρέπει να ανιχνευθούν, τότε το robots.txt δεν χρειάζεται καθόλου. Εάν ο χρήστης δεν είναι σίγουρος ότι αυτό το αρχείο υπάρχει, πρέπει να εισαγάγει τον ριζικό τομέα και να τον πληκτρολογήσει στο τέλος της διεύθυνσης URL, κάτι σαν αυτό: moz.com/robots.txt. Ορισμένα ρομπότ αναζήτησης αγνοούν αυτά τα αρχεία. Ωστόσο, κατά κανόνα, αυτοί οι ανιχνευτές δεν ανήκουν σε αξιόπιστες μηχανές αναζήτησης. Είναι το είδος των spammers, των συσσωρευτών αλληλογραφίας και άλλων τύπων αυτοματοποιημένων ρομπότ που βρίσκονται σε αφθονία στο Διαδίκτυο.

Είναι πολύ σημαντικό να θυμάστε ότι η χρήση του προτύπου εξαίρεσης ρομπότ δεν αποτελεί αποτελεσματικό μέτρο ασφαλείας. Στην πραγματικότητα, ορισμένα ρομπότ μπορεί να ξεκινούν με σελίδες όπου ο χρήστης τα θέτει σε λειτουργία σάρωσης. Υπάρχουν πολλά μέρη που μπαίνουν στο τυπικό αρχείο εξαίρεσης. Προτού πείτε στο ρομπότ σε ποιες σελίδες δεν πρέπει να λειτουργεί, πρέπει να καθορίσετε με ποιο ρομπότ θα μιλήσετε. Στις περισσότερες περιπτώσεις, ο χρήστης θα χρησιμοποιήσει μια απλή δήλωση που σημαίνει "όλα τα bots".

βελτιστοποίηση SEO

Βελτιστοποίηση SEO
Βελτιστοποίηση SEO

Πριν από τη βελτιστοποίηση, ο χρήστης πρέπει να βεβαιωθεί ότι δεν αποκλείει περιεχόμενο ή τμήματα του ιστότοπου που πρέπει να παρακαμφθούν. Οι σύνδεσμοι προς σελίδες που έχουν αποκλειστεί από το σωστό txt Robots δεν θα γίνονται σεβαστοί. Αυτό σημαίνει:

  1. Εάν δεν συνδέονται με άλλες σελίδες που είναι διαθέσιμες στις μηχανές αναζήτησης, π.χ. σελίδες,δεν αποκλείεται από το robots.txt ή ένα μετα-ρομπότ και οι σχετικοί πόροι δεν θα ανιχνεύονται και επομένως δεν θα μπορούν να ευρετηριαστούν.
  2. Κανένας σύνδεσμος δεν μπορεί να περάσει από μια αποκλεισμένη σελίδα στον προορισμό του συνδέσμου. Εάν υπάρχει μια τέτοια σελίδα, είναι καλύτερο να χρησιμοποιήσετε διαφορετικό μηχανισμό αποκλεισμού από το robots.txt.

Επειδή άλλες σελίδες ενδέχεται να συνδέονται απευθείας με μια σελίδα που περιέχει προσωπικές πληροφορίες και θέλετε να αποκλείσετε αυτήν τη σελίδα από τα αποτελέσματα αναζήτησης, χρησιμοποιήστε διαφορετική μέθοδο, όπως προστασία με κωδικό πρόσβασης ή μεταδεδομένα χωρίς ευρετήριο. Ορισμένες μηχανές αναζήτησης έχουν πολλαπλούς πράκτορες χρηστών. Για παράδειγμα, η Google χρησιμοποιεί το Googlebot για οργανικές αναζητήσεις και το Googlebot-Image για αναζητήσεις εικόνων.

Οι περισσότεροι πράκτορες χρηστών από την ίδια μηχανή αναζήτησης ακολουθούν τους ίδιους κανόνες, επομένως δεν χρειάζεται να προσδιορίσετε οδηγίες για καθένα από τα πολλά προγράμματα ανίχνευσης, αλλά εάν μπορέσετε να το κάνετε αυτό, μπορείτε να βελτιώσετε την ανίχνευση του περιεχομένου του ιστότοπου. Η μηχανή αναζήτησης αποθηκεύει προσωρινά τα περιεχόμενα του αρχείου και συνήθως ενημερώνει τα αποθηκευμένα περιεχόμενα τουλάχιστον μία φορά την ημέρα. Εάν ο χρήστης αλλάξει το αρχείο και θέλει να το ενημερώσει πιο γρήγορα από το συνηθισμένο, μπορεί να υποβάλει τη διεύθυνση URL robots.txt στην Google.

Μηχανές αναζήτησης

Έλεγχος για την ύπαρξη αρχείου ρομπότ
Έλεγχος για την ύπαρξη αρχείου ρομπότ

Για να κατανοήσετε πώς λειτουργεί σωστά το Robots txt, πρέπει να γνωρίζετε τις δυνατότητες των μηχανών αναζήτησης. Με λίγα λόγια, η ικανότητά τους έγκειται στο ότι στέλνουν «σαρωτές», που είναι προγράμματα πουπεριήγηση στο Διαδίκτυο για πληροφορίες. Στη συνέχεια αποθηκεύουν ορισμένες από αυτές τις πληροφορίες για να τις μεταβιβάσουν αργότερα στον χρήστη.

Για πολλούς ανθρώπους, το Google είναι ήδη το Διαδίκτυο. Μάλιστα, έχουν δίκιο, αφού αυτή είναι ίσως η σημαντικότερη εφεύρεσή του. Και παρόλο που οι μηχανές αναζήτησης έχουν αλλάξει πολύ από την έναρξή τους, οι βασικές αρχές εξακολουθούν να είναι οι ίδιες. Τα προγράμματα ανίχνευσης, γνωστά και ως "bots" ή "spiders", βρίσκουν σελίδες από δισεκατομμύρια ιστότοπους. Οι μηχανές αναζήτησης τους δίνουν οδηγίες για το πού να πάνε, ενώ μεμονωμένοι ιστότοποι μπορούν επίσης να επικοινωνούν με bots και να τους λένε ποιες συγκεκριμένες σελίδες πρέπει να κοιτάξουν.

Γενικά, οι ιδιοκτήτες ιστότοπων δεν θέλουν να εμφανίζονται στις μηχανές αναζήτησης: σελίδες διαχειριστή, πύλες υποστήριξης, κατηγορίες και ετικέτες και άλλες σελίδες πληροφοριών. Το αρχείο robots.txt μπορεί επίσης να χρησιμοποιηθεί για να εμποδίσει τις μηχανές αναζήτησης να ελέγχουν σελίδες. Εν ολίγοις, το robots.txt λέει στους ανιχνευτές ιστού τι να κάνουν.

Αποκλεισμός σελίδων

Αυτό είναι το κύριο μέρος του αρχείου εξαίρεσης ρομπότ. Με μια απλή δήλωση, ο χρήστης λέει σε ένα bot ή μια ομάδα ρομπότ να μην ανιχνεύει ορισμένες σελίδες. Η σύνταξη είναι απλή, για παράδειγμα, για να απαγορεύσετε την πρόσβαση σε οτιδήποτε στον κατάλογο "admin" του ιστότοπου, γράψτε: Disallow: /admin. Αυτή η γραμμή θα αποτρέψει τα ρομπότ από την ανίχνευση yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html και οτιδήποτε άλλο στον κατάλογο διαχειριστών.

Για να μην επιτρέπεται μία σελίδα, απλώς προσδιορίστε τη στη γραμμή απαγόρευσης: Disallow: /public/exception.html. Τώρα η σελίδα "εξαίρεση".δεν θα μετεγκατασταθεί, αλλά οτιδήποτε άλλο στον "δημόσιο" φάκελο θα γίνει.

Για να συμπεριλάβετε πολλές σελίδες, απλώς καταχωρίστε τις:

Κατάλογοι και σελίδες
Κατάλογοι και σελίδες

Αυτές οι τέσσερις γραμμές του σωστού txt Robots για συμφωνική θα ισχύουν για οποιονδήποτε παράγοντα χρήστη που αναφέρεται στην κορυφή της ενότηταςrobots.txt για

Απαγόρευση σελίδων
Απαγόρευση σελίδων

Χάρτης ιστότοπου:

Άλλες εντολές:live - να μην επιτρέπεται στους ανιχνευτές ιστού να ευρετηριάζουν cpresources/ ή πάροχο/.

User Agent:Disallow: /cpresources/.

Άρνηση: / προμηθευτής / Απαγόρευση: /.env.

Ορισμός προτύπων

Ο χρήστης μπορεί να καθορίσει συγκεκριμένες σελίδες για διαφορετικά bots συνδυάζοντας τα δύο προηγούμενα στοιχεία, έτσι φαίνεται. Ένα παράδειγμα του σωστού txt Robots για όλες τις μηχανές αναζήτησης παρουσιάζεται παρακάτω.

Καθορισμός προτύπων
Καθορισμός προτύπων

Οι ενότητες "admin" και "private" θα είναι αόρατες για την Google και το Bing, αλλά η Google θα εξακολουθεί να βλέπει τον "μυστικό" κατάλογο, ενώ το Bing όχι. Μπορείτε να καθορίσετε γενικούς κανόνες για όλα τα ρομπότ χρησιμοποιώντας τον παράγοντα χρήστη με αστερίσκο και, στη συνέχεια, να δώσετε συγκεκριμένες οδηγίες στα ρομπότ στις ακόλουθες ενότητες. Με τις παραπάνω γνώσεις, ο χρήστης μπορεί να γράψει ένα παράδειγμα του σωστού txt Robots για όλες τις μηχανές αναζήτησης. Απλώς ενεργοποιήστε το αγαπημένο σας πρόγραμμα επεξεργασίας κειμένου και πείτε στα ρομπότ ότι δεν είναι ευπρόσδεκτα σε ορισμένα μέρη του ιστότοπου.

Συμβουλές για τη βελτίωση της απόδοσης διακομιστή

SublimeText είναιένα ευέλικτο πρόγραμμα επεξεργασίας κειμένου και το χρυσό πρότυπο για πολλούς προγραμματιστές. Επιπλέον, οι προγραμματιστικές συμβουλές του βασίζονται στην αποτελεσματική κωδικοποίηση. Οι χρήστες εκτιμούν την παρουσία συντομεύσεων στο πρόγραμμα. Εάν ο χρήστης θέλει να δει ένα παράδειγμα αρχείου robots.txt, θα πρέπει να μεταβεί σε οποιονδήποτε ιστότοπο και να προσθέσει το "/robots.txt" στο τέλος. Εδώ είναι μέρος του αρχείου robots.txt GiantBicycles.

Το πρόγραμμα παρέχει τη δημιουργία σελίδων που οι χρήστες δεν θέλουν να εμφανίζονται στις μηχανές αναζήτησης. Και έχει επίσης μερικά αποκλειστικά πράγματα που λίγοι άνθρωποι γνωρίζουν. Για παράδειγμα, ενώ το αρχείο robots.txt λέει στα bots πού να μην πάνε, το αρχείο sitemap κάνει το αντίθετο και τους βοηθά να βρουν αυτό που ψάχνουν και ενώ οι μηχανές αναζήτησης πιθανότατα γνωρίζουν ήδη πού βρίσκεται ο χάρτης ιστότοπου, δεν γίνεται με τον τρόπο.

Υπάρχουν δύο τύποι αρχείων: σελίδα HTML ή αρχείο XML. Μια σελίδα HTML είναι αυτή που δείχνει στους επισκέπτες όλες τις διαθέσιμες σελίδες σε έναν ιστότοπο. Στο δικό του robots.txt, μοιάζει με αυτό: Sitemap://www.makeuseof.com/sitemap_index.xml. Εάν ο ιστότοπος δεν έχει ευρετηριαστεί από τις μηχανές αναζήτησης, αν και έχει ανιχνευτεί πολλές φορές από ρομπότ Ιστού, πρέπει να βεβαιωθείτε ότι το αρχείο υπάρχει και ότι τα δικαιώματά του έχουν οριστεί σωστά.

Από προεπιλογή, αυτό θα συμβεί σε όλες τις εγκαταστάσεις SeoToaster, αλλά εάν είναι απαραίτητο, μπορείτε να το επαναφέρετε ως εξής: Αρχείο robots.txt - 644. Ανάλογα με τον διακομιστή PHP, εάν αυτό δεν λειτουργεί για τον χρήστη, συνιστάται να δοκιμάσετε τα εξής: Αρχείο robots.txt - 666.

Ρύθμιση της καθυστέρησης σάρωσης

Η οδηγία για την καθυστέρηση παράκαμψης ενημερώνει ορισμένουςοι μηχανές αναζήτησης πόσο συχνά μπορούν να ευρετηριάσουν μια σελίδα στον ιστότοπο. Μετριέται σε δευτερόλεπτα, αν και ορισμένες μηχανές αναζήτησης το ερμηνεύουν ελαφρώς διαφορετικά. Μερικοί άνθρωποι βλέπουν την καθυστέρηση ανίχνευσης 5 όταν τους λένε να περιμένουν πέντε δευτερόλεπτα μετά από κάθε σάρωση για να ξεκινήσει η επόμενη.

Άλλοι ερμηνεύουν αυτό ως οδηγία για σάρωση μόνο μιας σελίδας κάθε πέντε δευτερόλεπτα. Το ρομπότ δεν μπορεί να σαρώσει πιο γρήγορα για να διατηρήσει το εύρος ζώνης του διακομιστή. Εάν ο διακομιστής πρέπει να ταιριάζει με την κίνηση, μπορεί να ορίσει καθυστέρηση παράκαμψης. Γενικά, στις περισσότερες περιπτώσεις, οι χρήστες δεν χρειάζεται να ανησυχούν για αυτό. Έτσι ορίζεται η καθυστέρηση ανίχνευσης των οκτώ δευτερολέπτων - Καθυστέρηση ανίχνευσης: 8.

Όμως δεν θα υπακούουν όλες οι μηχανές αναζήτησης σε αυτήν την οδηγία, επομένως, όταν δεν επιτρέπετε σελίδες, μπορείτε να ορίσετε διαφορετικές καθυστερήσεις ανίχνευσης για ορισμένες μηχανές αναζήτησης. Αφού ρυθμιστούν όλες οι οδηγίες στο αρχείο, μπορείτε να το ανεβάσετε στον ιστότοπο, πρώτα βεβαιωθείτε ότι είναι ένα απλό αρχείο κειμένου και έχει το όνομα robots.txt και μπορείτε να το βρείτε στη διεύθυνση yoursite.com/robots.txt.

Καλύτερο ρομπότ WordPress

Το καλύτερο WordPress Bot
Το καλύτερο WordPress Bot

Υπάρχουν ορισμένα αρχεία και κατάλογοι σε έναν ιστότοπο WordPress που πρέπει να κλειδώνονται κάθε φορά. Οι κατάλογοι που δεν πρέπει να επιτρέψουν οι χρήστες είναι ο κατάλογος cgi-bin και οι τυπικοί κατάλογοι WP. Ορισμένοι διακομιστές δεν επιτρέπουν την πρόσβαση στον κατάλογο cgi-bin, αλλά οι χρήστες πρέπει να τον συμπεριλάβουν στην οδηγία απαγόρευσης προτού διαμορφώσουν σωστά το Robots txt WordPress

Τυπικοί κατάλογοι WordPress,που θα πρέπει να μπλοκάρουν είναι τα wp-admin, wp-content, wp-includes. Αυτοί οι κατάλογοι δεν περιέχουν δεδομένα που είναι αρχικά χρήσιμα για τις μηχανές αναζήτησης, αλλά υπάρχει μια εξαίρεση, δηλαδή υπάρχει ένας υποκατάλογος με το όνομα uploads στον κατάλογο wp-content. Αυτός ο υποκατάλογος πρέπει να επιτρέπεται στο αρχείο robot.txt, καθώς περιλαμβάνει όλα όσα φορτώνονται χρησιμοποιώντας τη δυνατότητα μεταφόρτωσης πολυμέσων WP. Το WordPress χρησιμοποιεί ετικέτες ή κατηγορίες για τη δομή του περιεχομένου.

Εάν χρησιμοποιούνται κατηγορίες, τότε για να φτιάξετε το σωστό Robots txt για Wordpress, όπως καθορίζεται από τον κατασκευαστή του προγράμματος, είναι απαραίτητο να αποκλείσετε τα αρχεία ετικετών από την αναζήτηση. Αρχικά, ελέγχουν τη βάση δεδομένων μεταβαίνοντας στον πίνακα "Διαχείριση"> "Ρυθμίσεις"> "Μόνιμος σύνδεσμος".

Από προεπιλογή, η βάση είναι η ετικέτα, εάν το πεδίο είναι κενό: Disallow: / tag /. Εάν χρησιμοποιείται μια κατηγορία, τότε πρέπει να απενεργοποιήσετε την κατηγορία στο αρχείο robot.txt: Disallow: /category/. Από προεπιλογή, η βάση είναι η ετικέτα, εάν το πεδίο είναι κενό: Disallow: / tag /. Εάν χρησιμοποιείται μια κατηγορία, τότε πρέπει να απενεργοποιήσετε την κατηγορία στο αρχείο robot.txt: Disallow: / category /.

Αρχεία που χρησιμοποιούνται κυρίως για την εμφάνιση περιεχομένου, θα αποκλειστούν από το σωστό αρχείο txt Robots για Wordpress:

Ρομπότ txt για wordpress
Ρομπότ txt για wordpress

Βασικές ρυθμίσεις Joomla

Μόλις ο χρήστης εγκαταστήσει το Joomla, πρέπει να δείτε τη σωστή ρύθμιση txt του Joomla Robots στην καθολική διαμόρφωση, η οποία βρίσκεται στον πίνακα ελέγχου. Ορισμένες ρυθμίσεις εδώ είναι πολύ σημαντικές για το SEO. Βρείτε πρώτα το όνομα του ιστότοπου και βεβαιωθείτε ότιχρησιμοποιείται το σύντομο όνομα του ιστότοπου. Στη συνέχεια βρίσκουν μια ομάδα ρυθμίσεων στα δεξιά της ίδιας οθόνης, η οποία ονομάζεται ρυθμίσεις SEO. Αυτό που σίγουρα θα πρέπει να αλλάξει είναι το δεύτερο: χρησιμοποιήστε μια διεύθυνση URL επανεγγραφής.

Ακούγεται περίπλοκο, αλλά ουσιαστικά βοηθά το Joomla να δημιουργεί πιο καθαρές διευθύνσεις URL. Πιο αξιοσημείωτο αν αφαιρέσετε τη γραμμή index.php από τις διευθύνσεις URL. Εάν το αλλάξετε αργότερα, οι διευθύνσεις URL θα αλλάξουν και δεν θα αρέσει στην Google. Ωστόσο, κατά την αλλαγή αυτής της ρύθμισης, πρέπει να γίνουν πολλά βήματα ταυτόχρονα για να δημιουργηθεί το σωστό robot txt για το Joomla:

  1. Εύρεση αρχείου htaccess.txt στον ριζικό φάκελο του Joomla.
  2. Επισήμανση ως.htaccess (χωρίς επέκταση).
  3. Συμπερίληψη ονόματος ιστότοπου στους τίτλους σελίδων.
  4. Βρείτε ρυθμίσεις μεταδεδομένων στο κάτω μέρος της καθολικής οθόνης διαμόρφωσης.

Ρομπότ στο σύννεφο MODX

Ρομπότ στο MODX Cloud
Ρομπότ στο MODX Cloud

Προηγουμένως, το MODX Cloud παρείχε στους χρήστες τη δυνατότητα να ελέγχουν τη συμπεριφορά επιτρέποντας την προβολή του αρχείου robots.txt με βάση μια εναλλαγή στον πίνακα εργαλείων. Αν και αυτό ήταν χρήσιμο, ήταν δυνατό να επιτραπεί κατά λάθος η ευρετηρίαση σε ιστότοπους σταδιοποίησης/προγραμματισμού κάνοντας εναλλαγή μιας επιλογής στον Πίνακα ελέγχου. Ομοίως, ήταν εύκολο να απενεργοποιηθεί η ευρετηρίαση στον ιστότοπο παραγωγής.

Σήμερα η υπηρεσία αναλαμβάνει την παρουσία αρχείων robots.txt στο σύστημα αρχείων με την ακόλουθη εξαίρεση: οποιοσδήποτε τομέας τελειώνει με modxcloud.com θα χρησιμεύει ως Disallow: /directive για όλους τους πράκτορες χρήστη, ανεξάρτητα από την παρουσία ή απουσία του φακέλου. Οι ιστότοποι παραγωγής που λαμβάνουν πραγματική επισκεψιμότητα θα πρέπει να χρησιμοποιούν τον δικό τους τομέα, εάν ο χρήστης θέλει να ευρετηριάσει τον ιστότοπό του.

Ορισμένοι οργανισμοί χρησιμοποιούν το σωστό Robots txt για modx για να τρέξουν πολλούς ιστότοπους από μία εγκατάσταση χρησιμοποιώντας Contexts. Μια περίπτωση στην οποία θα μπορούσε να εφαρμοστεί αυτό θα ήταν ένας ιστότοπος δημόσιου μάρκετινγκ σε συνδυασμό με μικρο ιστότοπους σελίδας προορισμού και πιθανώς ένα μη δημόσιο intranet.

Παραδοσιακά αυτό ήταν δύσκολο να γίνει για εγκαταστάσεις πολλών χρηστών, καθώς μοιράζονται την ίδια ρίζα δικτύου. Με το MODX Cloud, αυτό είναι εύκολο. Απλώς ανεβάστε ένα επιπλέον αρχείο σε έναν ιστότοπο που ονομάζεται robots-intranet.example.com.txt με το ακόλουθο περιεχόμενο και θα αποκλείσει τη δημιουργία ευρετηρίου με ρομπότ που λειτουργούν καλά και όλα τα άλλα ονόματα κεντρικών υπολογιστών θα επανέλθουν σε τυπικά αρχεία, εκτός εάν υπάρχουν άλλοι συγκεκριμένοι κόμβοι ονομάτων.

Το Robots.txt είναι ένα σημαντικό αρχείο που βοηθά τον χρήστη να συνδεθεί με τον ιστότοπο στο Google, σε μεγάλες μηχανές αναζήτησης και σε άλλους ιστότοπους. Βρίσκεται στη ρίζα ενός διακομιστή ιστού, το αρχείο καθοδηγεί τα ρομπότ Ιστού να ανιχνεύσουν έναν ιστότοπο, να ορίσουν ποιους φακέλους πρέπει ή όχι να ευρετηριάσει, χρησιμοποιώντας ένα σύνολο οδηγιών που ονομάζεται Πρωτόκολλο εξαίρεσης ρομπότ. Ένα παράδειγμα του σωστού txt Robots για όλες τις μηχανές αναζήτησης obots.txt είναι ιδιαίτερα εύκολο να γίνει με το SeoToaster. Έχει δημιουργηθεί ένα ειδικό μενού για αυτό στον πίνακα ελέγχου, επομένως το ρομπότ δεν θα χρειαστεί ποτέ να εργαστεί υπερβολικά για να αποκτήσει πρόσβαση.

Συνιστάται: