Robots de moteur de recherche a perdu sans guide - Diffusez ce signe!
Le fichier robots.txt est un standard d'exclusion requis par tous les robots d'indexation Web / robots pour leur dire quels fichiers et répertoires que vous souhaitez les voir rester en dehors de votre site. Pas tous les robots d'exploration / robots collecteurs de suivre l'exclusion standard et va continuer à explorer votre site en tout cas. J'aime à les appeler "Bad Bots" ou des intrus. Nous leur bloc par exclusion d'adresses IP qui est un autre entirely.This histoire est un aperçu très simple des bases robots.txt pour webmasters. Pour une leçon complète et approfondie, http://www.robotstxt.org/To visite voir le bon format pour un fichier robots.txt standard donnent un peu juste en dessous. Ce dossier devrait être à la racine du domaine, car c'est là que les robots d'exploration espérer qu'il soit, non pas dans certains directory.Below secondaire est le bon format pour un fichier robots.txt -----> User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / group / User-agent: msnbot Crawl-delay: 10User-agent: Teoma Crawl-delay: 10User-agent: Slurp Crawl-delay: 10User-agent: aipbot Disallow: / User-agent: BecomeBot Disallow: / User-agent: psbot Disallow: / --- -----> Fin de fileThis robots.txt minuscule fichier texte est enregistré comme un texte simple et toujours avec le nom de "robots.txt" à la racine de votre examen rapide domain.A des informations figurant dans le fichier robots.txt ci-dessus suit. Le "User Agent: Robots MSNbot "est de MSN, de Yahoo Slurp est et Teoma est de AskJeeves. Les autres sont énumérées" Bad "qui rampent très vite et de tirer profit de personne, mais eux-mêmes, si nous leur demandons de rester à l'écart tout à fait. L'astérisque * est une wild card qui signifie "Tous les" crawlers / Spiders / bots devraient rester en dehors de ce groupe de fichiers ou de répertoires listed.The robots collecteurs donné l'instruction "Disallow: /" veut dire qu'ils doivent rester hors tout et ceux qui "Crawl-delay: 10" sont ceux qui rampait sur notre site trop rapidement et l'a fait pour enliser et la surexploitation des ressources du serveur. Google explore actuellement plus lentement que les autres et ne nécessite pas cette instruction, donc il n'est pas spécifiquement répertoriés dans le fichier robots.txt ci-dessus. Crawl-instruction de temporisation n'est nécessaire que sur des sites très volumineux avec des centaines ou des milliers de pages. L'astérisque joker * s'applique à tous les robots, les robots et les araignées, Googlebot.Those dont nous avons fourni que "Crawl-delay: 10" instruction à demandent pas moins de 7 pages par seconde et si nous leur avons demandé de ralentir. Le nombre que vous voyez est secondes et vous pouvez le modifier en fonction de votre capacité de serveur, basé sur leur taux de ramper. Dix secondes entre les requêtes de page est beaucoup plus lent, et les empêche de demander plus de pages que votre serveur peut plat vers le haut. (Vous pouvez découvrir les robots de la rapidité et araignées se promènent en regardant vos logs du serveur premières - qui montrent pages demandées par des délais précis à l'intérieur d'un centième de seconde disponibles - à partir de votre hébergeur ou demandez à votre web ou personne. Logs de votre serveur peut se trouve dans le répertoire racine si vous avez accès au serveur, vous pouvez généralement téléchargement compressé les fichiers journaux du serveur en droit civil journée de congé de votre serveur. Vous aurez besoin d'un utilitaire qui peut décompresser des fichiers compressés pour ouvrir et lire les fichiers texte brut serveur de log.) Pour voir le contenu d'un fichier robots.txt juste robots.txt type après chaque nom de domaine. S'ils ont de fichier qui, vous le verrez affiché sous forme de fichier texte dans votre site Web navigateur. Cliquez sur le lien ci-dessous pour voir ce fichier pour Amazon.comhttp: / / www.Amazon.com / robots.txtYou pouvez voir le contenu d'un fichier robots.txt site Web qui robots.txt demaines ci-dessus est ce que nous utilisons actuellement à Publish101 Web Content Distributor, juste lancé en Mai 2005. Nous avons fait une étude de cas approfondies et publié une série d'articles sur le comportement des chenilles et des retards d'indexation connu sous le nom Sandbox Google. Que Google Sandbox Étude de cas est très instructif à plusieurs niveaux pour les webmasters partout autour de l'importance de cette petite chose souvent ignorée texte file.One nous ne nous attendions pas à tirer de la recherche impliqués dans l'indexation retards (connu sous le nom Google Sandbox) a été l'importance des fichiers robots.txt pour l'exploration rapide et efficace par les spiders des moteurs de recherche principaux et le nombre d'explorations lourdes contre les robots collecteurs qui ne fera pas de la terre bien au propriétaire du site, ramper encore la plupart des sites largement et lourdement, tendu des serveurs au point de rupture avec les requêtes de pages à venir aussi vite que 7 pages par second.We découvert dans le lancement de notre nouveau site que Google et Yahoo vont parcourir le site si vous utilisez un fichier robots.txt, mais MSN semble l'exiger avant de pouvoir commencer l'exploration du tout. Tous les robots des moteurs de recherche semblent pour demander le fichier sur un régulièrement pour vérifier qu'il n'a changed.Then pas quand tu le fais changer, elles ne cesserons d'explorer pendant de brèves périodes et à plusieurs reprises pour demander que le fichier robots.txt, pendant ce temps sans avoir à ramper les pages supplémentaires. (Peut-être qu'ils avaient une liste de pages de visite qui comprenait le répertoire ou fichiers que vous avez demandé à rester en dehors de l'entreprise et doivent adapter leur planification de l'exploration pour éliminer ces fichiers à partir de leur liste.) La plupart des Webmasters instruire les robots collecteurs de rester en dehors de "l'image" répertoires et les «cgi-bin" répertoire ainsi que tous les répertoires contenant des propriétaires privés ou des fichiers destinés uniquement pour les utilisateurs d'un intranet ou mot de passe protégées sections de votre site. De toute évidence, vous devez diriger les robots collecteurs de rester en dehors de toute zone privée que vous ne souhaitez pas voir indexées par l'importance engines.The recherche de fichiers robots.txt est rarement discutée par moyenne Webmasters et j'ai même eu certains de mes affaires avec la clientèle 'webmasters me demandent ce que c'est et comment le mettre en œuvre quand je leur dis combien il est important à la fois la sécurité du site et l'efficacité de son exploration par les moteurs de recherche. Cette connaissance devrait être la norme par les webmasters dans des entreprises importantes, mais cela illustre le peu d'attention est accordée à l'utilisation du moteur de recherche des araignées robots.txt.The ne veux vraiment vos conseils et ce texte minuscule fichier est le meilleur moyen de fournir des crawlers et des bots un poteau indicateur clair pour éloigner les intrus et protéger la propriété privée - et à accueillir chaleureusement les invités, comme les trois grands moteurs de recherche tout en leur demandant gentiment de rester en dehors de areas.Copyright  ¢ ÃÆ'à privé, ¬ Å ¡Ãƒâ € šÃ,  © 17 août 2005 par Mike Banks ValentineGoogle Case Study Sandbox http://publish101.com/Sandbox2 Mike Banks Valentine exploite Free http://Publish101.com Web Content Distribution pour commerçants article et fournit l'agrégation de contenu, l'optimisation de communiqué de presse et de contenu Internet sur mesure pour Search Engine Positioning
Source D'Article: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
Webmaster obtenir le code html
Ajouter cet article sur votre site Web dès maintenant!
Webmaster envoyer vos articles
Aucune inscription requise! Remplissez le formulaire et votre article est dans le Messaggiamo.Com répertoire!