60 sandbox jour pour Google et AskJeeves; indices msn plus rapide, le prochain Yahoo!
Annonce des retards moteurs de recherche ont fini par être appelé «l'effet Google Sandbox sont en fait vrai dans la pratique à chacune des quatre moteurs de recherche plus haut calibre dans une forme ou une autre. MSN, il semble a le plus court délai d'indexation à 30 jours. Cet article est le deuxième d'une série suivant les araignées à travers un site web flambant neuf à compter du 11 Mai 2005, lorsque le site a d'abord été faite en direct à ce jour, sous un nom de domaine nouvellement acheté name.First Étude de cas ArticlePreviously nous avons regardé les 35 premiers jours et détaillée du comportement permettant l'exploration de Googlebot, Teoma, MSNbot et Slurp comme ils traversaient les pages de ce nouveau site. Nous avons découvert l'araignée chaque robot affiche un comportement nettement différent dans l'exploration et les différences de fréquence de référence de même patterns.For indexation, il ya environ 15 à 20 nouvelles pages ajoutées au site du quotidien, qui sont chacune liées à la page d'accueil pour une journée. Structure du site est non-traditionnelles sans catégories et une structure qui relie lié pour écrire des pages énumérant leurs articles ainsi que d'un "Articles connexes" indice varie par un lien vers les pages pertinentes contenant content.So similaires Passons en revue où nous sommes les uns avec les araignées rampant et regarde les pages explorées et comparer des pages indexées par Spider engine.The AskJeeves, Teoma a exploré la plupart des pages sur le site, mais aucun index pages 60 jours plus tard à cette écriture. Il s'agit clairement d'un site retarder le vieillissement qui est modelé sur le comportement Sandbox de Google. Bien que l'araignée Teoma de Ask.com a exploré plus de pages sur ce site que tout autre moteur de plus de une période de 60 jours et semble être fatiguée de ramper comme ils l'ont pas retourné depuis Juillet 13 - leur première pause en 60 days.In les deux premiers jours, Googlebot englouti 250 pages et n'est pas revenu jusqu'à 60 jours plus tard, mais n'a pas indexé, même une seule page en 60 jours depuis qu'ils ont pris cette exploration initiale. Mais Googlebot fait preuve d'un regain d'intérêt pour l'exploration du site depuis cet article ramper étude de cas a été publiée sur plusieurs hauts sites de trafic. Googlebot est maintenant regarder quelques pages chaque jour. Jusqu'à présent, pas plus d'environ 20 pages à un rythme nettement terne, un véritable "Crawl" qui le tiendra occupé pendant des années que si elle se poursuit slowly.MSNbot rampé timidement pour les 45 premiers jours, en regardant de plus de 30 à 50 pages par jour, mais pas avant d'avoir trouvé un fichier robots.txt, que nous avons négligé de publier sur le site pendant une semaine, puis bobbled la balle comme nous avons changé de site structure, alors pas mis en œuvre robots.txt de nouveaux sous-domaines jusqu'à ce jour 25 - et puis MSNbot ne revenait pas avant 30 jours. Else Si peu ont été découvertes au sujet initial d'exploration et d'indexation, nous avons vu que MSNbot s'appuie fortement sur ce fichier robots.txt et l'application correcte de ce fichier permettra d'accélérer crawling.MSNbot grouille maintenant avec enthousiasme à n'importe où entre 200 et 800 pages par jour. En fait, nous avons dû utiliser une "crawl retard" commande dans le fichier robots.txt après MSNbot a commencé à toucher 6 pages par seconde la semaine dernière. L'indice de MSN affiche maintenant 4905 pages 60 jours après cette expérience. Pages en cache changement hebdomadaire. MSNbot a apparemment constaté qu'il aime la façon dont nous avons modifié la structure de la page afin d'inclure une nouvelle fonctionnalité qui renvoie à des questions de pages.Slurp plusieurs autres articles se étrangement inactif, alors alternativement hyperactif pour des périodes de temps. Le robot Yahoo se penchera sur 40 pages une journée, puis 4000 le prochain, puis regardez simplement la page d'accueil pour quelques jours et puis saut en arrière dans 3000 pages pour le lendemain et revenir à l'examen seulement robots.txt pour deux jours. La cohérence n'est pas une malédiction subi par Slurp. Yahoo affiche désormais 6 pages dans leur index, une est une page d'erreurs et un autre est un indice "/ de« page que nous n'avons pas affiché une page d'accueil pour plusieurs sous-domaines. Mais Slurp a rampé facilement 15.000 pages de date.Lessons appris dans les 60 premiers jours sur un nouveau site suivent: 1) Google explore 250 pages sur la première découverte de liens vers le site. Ensuite, ils ne retournent pas jusqu'à ce qu'ils trouvent plus de liens et d'exploration lentement. Google a manqué à l'index nouveau domaine pour 60 days.2) Yahoo cherche des pages d'erreurs et une fois ils trouvent de mauvais liens seront les explorer sans cesse jusqu'à ce que vous leur dire d'arrêter. Alors pourquoi ne pas explorer pendant des semaines jusqu'à ce que ramper fortement d'un jour et légèrement la prochaine aléatoires fashion.3) MSNbot exige des fichiers robots.txt et une fois qu'ils décident comme votre site, mai crawl trop vite, exigeant des "Crawl-delay" instructions de ce fichier robots.txt fichier. Mettre en œuvre immediately.4) les robots collecteurs de Bad peuvent peser sur les ressources et frapper trop de pages trop vite jusqu'à ce que vous leur dire de rester à l'écart. Nous avons interdit purement et simplement les robots collecteurs de 3 après avoir claqué nos serveurs pour une journée ou deux. Noté «aipbot" explorés en premier puis "BecomeBot" est arrivé, et puis "Pbot" de Picsearch.com rampant regardant lourdement pour les fichiers image que nous n'avons pas. Les robots collecteurs de Bad, rester en dehors. Meilleure façon d'appliquer les exclusions robots.txt pour tous, mais si les principaux moteurs de leurs robots d'exploration saturer vos ressources serveur. Nous avons considéré l'exclusion du moteur de recherche chinois Baidu.com appelé quand ils ont commencé l'exploration très tôt. Nous ne nous attendons pas beaucoup de trafic en provenance de Chine, mais pourquoi exclure non plus milliards de personnes? D'autant plus que Google est répandu pour envisager un éventuel achat de Baidu.com que l'entrée à la ligne de fond marché.L chinois, c'est que nous avons découvert tous les moteurs semblent retarder leur indexation du nouveau nom de domaine les noms d'au moins trente jours. Google a jusqu'à présent retardé indexation de ce nouveau domaine pendant 60 jours depuis la première il ramper. AskJeeves a exploré des milliers de pages, tandis que l'indexation aucun d'entre eux. Indices MSN plus rapide que tous moteurs, mais requiert le fichier robots.txt. Slurp de Yahoo explore à nouveau reparti pour 60 jours, mais seulement six indices du total ou supérieur à 15.000 pages explorées à date.We semblent avoir établi qu'il existe une indexation claire retard, mais de savoir si ce site est spécifiquement «sandbox» et si les retards d'application universelle est moins claire. Beaucoup de webmasters prétendent qu'ils ont été répertoriés intégralement dans les 30 jours suivant la première affectation à un nouveau domaine. Nous avions l'amour de voir les autres suivre les araignées travers de nouveaux sites, après le lancement de documenter leurs résultats publics afin que l'indexation et le comportement d'exploration soient proven.ÃƒÆ 'à ¢ â, ¬ Å ¡Ãƒâ € šÃ,  © Copyright Juillet 18, 2005 Mike Banks ValentineMike Banks Valentine est un spécialiste de l'optimisation des moteurs de recherche qui exploite eCommerce WebSite101 Tutorial et continuera rapports d'étude de cas relatant l'indexage de recherche de Publish101
Source D'Article: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
Webmaster obtenir le code html
Ajouter cet article sur votre site Web dès maintenant!
Webmaster envoyer vos articles
Aucune inscription requise! Remplissez le formulaire et votre article est dans le Messaggiamo.Com répertoire!