Μηχανές αναζήτησης δεν έχασε καθοδήγηση - μετά το σήμα!
Το αρχείο robots.txt είναι ένα πρότυπο που απαιτείται αποκλεισμός από όλα τα προγράμματα ανίχνευσης ιστού / ρομπότ για να τους πει ποια αρχεία και τους καταλόγους που θέλετε να μείνουν έξω από την περιοχή σας. Δεν είναι όλες οι crawlers / bots ακολουθήσει αποκλεισμού πρότυπο και θα συνεχίσει ανίχνευση site σας ούτως ή άλλως. Μου αρέσει να τους αποκαλούν "Bad Bots" ή καταπατητές. Μπορούμε να τις δεσμεύσουν με αποκλεισμό ΠΕ, η οποία είναι μια άλλη ιστορία entirely.This είναι μια πολύ απλή επισκόπηση των robots.txt βασικά για webmasters. Για μια πλήρη και εμπεριστατωμένη μάθημα, http://www.robotstxt.org/To επισκεφθείτε δείτε την κατάλληλη μορφή για μια κάπως πρότυπο αρχείο robots.txt δούμε ακριβώς κάτω. Αυτό το αρχείο θα πρέπει να είναι η ρίζα του τομέα, επειδή ότι είναι όταν οι crawlers αναμενόμενο να είναι, δεν σε ορισμένες δευτερεύουσες directory.Below είναι το κατάλληλο σχήμα για ένα αρχείο robots.txt -----> User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / group / User-agent: msnbot Crawl-καθυστέρηση: 10User-agent: Teoma Crawl-καθυστέρηση: 10User-agent: Slurp Crawl-καθυστέρηση: 10User-agent: aipbot Disallow: / User-agent: BecomeBot Disallow: / User-agent: psbot Disallow: / --- -----> Τέλος robots.txt fileThis μικρό αρχείο κειμένου αποθηκεύεται ως ένα απλό έγγραφο κειμένου και πάντα με το όνομα "robots.txt" στη ρίζα του domain.A γρήγορη σας γνώμη των πληροφοριών που αναφέρονται από το αρχείο robots.txt παραπάνω εξής. Η "User Agent: MSNbot "είναι από το MSN, Slurp είναι από το Yahoo και Teoma είναι από AskJeeves. Οι άλλοι που αναφέρονται είναι" κακό "ρομπότ που ανιχνεύει πολύ γρήγορα και να επωφεληθεί κανείς δεν είναι, αλλά τη δική τους, γι 'αυτό να τους ζητήσει να μείνουν έξω εντελώς. * Ο αστερίσκος μια άγρια κάρτα που σημαίνει "Όλα" crawlers / spiders / bots θα πρέπει να μείνουν έξω από αυτή την ομάδα των αρχείων ή καταλόγων listed.The bots δοθεί η εντολή "Disallow: /" που σημαίνει ότι θα πρέπει να μείνουν έξω εντελώς και τα άτομα με "Crawl-καθυστέρηση: 10" είναι εκείνες που ανιχνεύσει site μας πολύ γρήγορα και προκάλεσε την τελματώ και υπερβολική χρήση των πόρων διακομιστή. Google θα περάσει πιο αργά από ό, τι οι άλλοι και δεν απαιτεί την εκπαίδευση, έτσι δεν είναι ρητά αναφέρονται στο παραπάνω αρχείο robots.txt. Crawl-διδασκαλία καθυστέρηση είναι απαραίτητη μόνο σε πολύ μεγάλες περιοχές με εκατοντάδες ή χιλιάδες σελίδες. Ο μπαλαντέρ αστερίσκο * ισχύει για όλα τα προγράμματα ανίχνευσης, bots και αράχνες, συμπεριλαμβανομένων Googlebot.Those εμείς υπό την προϋπόθεση ότι "Crawl-delay: 10" Εντολή για ζητούσαν μέχρι και 7 σελίδες ανά δευτερόλεπτο και γι 'αυτό τους ζήτησε να επιβραδύνει. Ο αριθμός που βλέπετε είναι δευτερόλεπτα και μπορείτε να την αλλάξετε ώστε να ταιριάζει ικανότητα server σας, που βασίζεται στην ανίχνευση ρυθμό τους. Δέκα δευτερόλεπτα μεταξύ των αιτημάτων σελίδα είναι πολύ πιο χαλαρό και τις στάσεις τους να ζητούν περισσότερες σελίδες από το διακομιστή σας μπορεί πιάτο επάνω. (Μπορείτε να ανακαλύψετε πόσο γρήγορα ρομπότ και αράχνες είναι πέρασμα από την εξέταση των πρώτων αρχεία καταγραφής του διακομιστή σας - που δείχνουν σελίδες που ζήτησε η ακριβής φορές μέσα σε ένα εκατοστό του δευτερολέπτου - διαθέσιμες από τον οικοδεσπότη Ιστού σας ή ζητήστε ιστοσελίδα σας ή IT πρόσωπο. Αρχεία καταγραφής του διακομιστή σας μπορεί να να βρεθεί στο ριζικό αν έχετε πρόσβαση στο διακομιστή, μπορείτε να κατεβάσετε συνήθως συμπιεσμένα αρχεία καταγραφής διακομιστή δικαίωμα ημερολογιακής ημέρας από το διακομιστή σας. Θα χρειαστείτε ένα εργαλείο που μπορεί να επεκτείνει συμπιεσμένα αρχεία να ανοίξει και διαβάστε αυτές απλό κείμενο πρώτες αρχεία καταγραφής διακομιστή.) Για να δείτε τα περιεχόμενα του κάθε αρχείου robots.txt μόλις robots.txt τύπου μετά από κάθε όνομα τομέα. Εάν έχουν αυτό το αρχείο επάνω, θα δείτε να εμφανίζεται ως ένα αρχείο κειμένου στην ιστοσελίδα σας περιήγησης. Κάντε κλικ στον παρακάτω σύνδεσμο για να δείτε αυτό το αρχείο για Amazon.comhttp: / / www.Amazon.com / robots.txtYou να δείτε το περιεχόμενο της κάθε ιστοσελίδας αρχείο robots.txt που τρόπο.Η robots.txt που απεικονίζεται ανωτέρω είναι αυτό που χρησιμοποιούν επί του παρόντος σε Publish101 Web Content Διανομέας, μόλις ξεκίνησε το Μάιο του 2005. Το κάναμε μια εκτενή μελέτη περίπτωσης και δημοσίευσε σειρά άρθρων σχετικά με τη συμπεριφορά και τις καθυστερήσεις crawler ευρετηρίαση γνωστή ως Google Sandbox. Ότι Google Sandbox Case Study είναι πολύ διδακτική σε πολλά επίπεδα για webmasters παντού για τη σημασία αυτού του αγνοείται συχνά μικρό πράγμα file.One κείμενο δεν περιμέναμε να μαζέψει από την έρευνα που εμπλέκονται σε τιμαριθμική αναπροσαρμογή καθυστερήσεις (γνωστή ως Google Sandbox) ήταν η σημασία των αρχεία robots.txt για γρήγορη και αποτελεσματική ανίχνευση από το αράχνες από τις μεγάλες μηχανές αναζήτησης και ο αριθμός των βαρέων σέρνεται από ρομπότ που θα κάνουν δεν επίγειος καλό για τον ιδιοκτήτη της ιστοσελίδας, crawl ακόμα περισσότερες τοποθεσίες, εκτενώς και σε μεγάλο βαθμό, τέντωμα διακομιστές στο σημείο ρήξης με τις αιτήσεις για τις σελίδες που προέρχονται τόσο γρήγορα όσο οι 7 σελίδες ανά second.We ανακαλύφθηκε στην δρομολόγηση μας του νέου χώρου ότι η Google και το Yahoo θα ανιχνεύσουμε την τοποθεσία ή μη χρησιμοποιείτε ένα αρχείο robots.txt, αλλά το MSN φαίνεται να το επιβάλλουν πριν θα αρχίσει να σέρνεται σε όλους. Όλα τα ρομπότ μηχανών αναζήτησης φαίνεται να ζητήσει από το αρχείο σε μια τακτά χρονικά διαστήματα για να βεβαιωθείτε ότι δεν έχει changed.Then όταν κάνετε την αλλαγή, θα σταματήσουν να σέρνεται για σύντομο χρονικό διάστημα και επανειλημμένως ζητήσει το αρχείο robots.txt κατά τη διάρκεια αυτού του χρόνου δεν ανίχνευση τυχόν επιπλέον σελίδες. (Ίσως είχαν μια λίστα των σελίδων για την επίσκεψη που περιλαμβάνονται στον κατάλογο ή τα αρχεία που έχετε εντολή να μείνουν έξω και πρέπει να προσαρμοστεί τώρα σέρνεται το ωράριό τους για να εξαλείψουν αυτά τα αρχεία από τη λίστα τους.) Οι περισσότεροι webmasters αναθέσει τα bots να μείνει έξω από το "image" καταλόγους και το "cgi-bin" directory, καθώς και κάθε κατάλογοι περιέχουν ιδιωτική ή ιδιόκτητα αρχεία που προορίζονται μόνο για τους χρήστες του ένα intranet ή τον κωδικό πρόσβασης προστατεύονται ενότητες του site σας. Σαφώς, θα πρέπει να κατευθύνουν τα bots να μείνουν έξω από κάθε ιδιωτική περιοχές που δεν θέλετε να αναπροσαρμόζονται με τη σημασία engines.The αναζήτηση robots.txt συζητείται σπάνια κατά μέσο webmasters και είχα ακόμα ένα μέρος των δραστηριοτήτων του πελάτη μου », webmasters με ρωτούν τι είναι και πώς να την εφαρμόσουν όταν τους λέω πόσο σημαντικό είναι για την ασφάλεια τόσο χώρο και αποτελεσματική ανίχνευση από τις μηχανές αναζήτησης. Αυτό πρέπει να είναι πρότυπο της γνώσης μέσω webmasters σε σημαντικές εταιρείες, αλλά αυτό δείχνει πόσο λίγη προσοχή δίνεται στη χρήση των robots.txt.The μηχανές αναζήτησης πραγματικά θέλουμε την καθοδήγησή σας και αυτό το μικρό κείμενο αρχείο είναι ο καλύτερος τρόπος για να παράσχει προγράμματα ανίχνευσης και bots σαφή ταμπέλα για την προειδοποίηση των καταπατητές και την προστασία της ιδιωτικής ιδιοκτησίας - και να καλωσορίσω θερμά τους προσκεκλημένους, όπως οι τρεις μεγάλες μηχανές αναζήτησης, ενώ τους ζητεί ωραία να μείνουν έξω από ιδιωτική areas.Copyright ÃÆ'à ¢ â, ¬ Å ¡Ãƒâ € SA, © 17 Αυγούστου, 2005 από τον Mike Banks ValentineGoogle Sandbox Case Study http://publish101.com/Sandbox2 Mike Banks Valentine λειτουργεί http://Publish101.com Δωρεάν Web Content Distribution για το άρθρο μαρκετίστες και Παρέχει περιεχόμενο συνάθροιση, πατήστε το πλήκτρο απελευθέρωσης και βελτιστοποίηση έθιμο περιεχόμενο στον Παγκόσμιο Ιστό για Search Engine Positioning
Αρθρο Πηγη: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
Webmaster παίρνει τον κώδικα HTML
Προσθεστε αυτο το αρθρο στον ιστοτοπο σας τωρα!
Webmaster υποβάλλει τα άρθρα σας
Εγγραφή που απαιτείται καμία! Συμπληρώστε τη μορφή και το άρθρο σας είναι στον κατάλογο Messaggiamo.Com