google & askjeeves的60天沙盒; msn其次標註得最快,雅虎
搜索引擎目錄延遲來称Google沙盒作用實踐上實際上是真實在四個頂面排查尋引擎中的每一個以一種形式或別的。 MSN,它似乎有最短的索引延遲在30天。 当站點在一個最近被購買的域名之下时的那天首先使成为活這篇文章是第二在跟隨蜘蛛的系列通过在2005年5月11日的全新的網站起點。
第一篇专题研究文章以前,当他們橫斷了這個新的站點,頁我們看前35天并且詳述了Googlebot, Teoma, MSNbot爬行的行為并且啜食。 我們發現了在爬行的頻率和同樣地不同的索引樣式的每機器人蜘蛛顯示顯然不同的行為。
供参考,有大约15到20新的頁增加到站點日報,中的每一從主頁連接一天。 站點結構是非傳統的沒有類別和一個連接的結構被栓創作列出他們的文章的頁以及連接變化的「相关文章」索引對包含相似的內容的相關的頁。
因此我們回顧我們與爬行的地方每隻的蜘蛛,并且看看頁爬行了并且比較引擎標註的頁。
AskJeeves蜘蛛, Teoma未爬行大多在站點的頁,以后標註頁60天在這文字。 這明顯地是在Google的沙盒行為被塑造的站點老化延遲。 雖然從Ask.com的Teoma蜘蛛比其他引擎爬行了在這個站點的更多頁在60天期間并且看来是疲乏對爬行,因为他們未從7月13日返回-他們的第一個斷裂在60天。
在前二天,因为他們做了最初爬行, Googlebot狼吞虎咽250頁,并且60天以后沒有返回直到,而是未標註一甚而單頁在60天。 但是Googlebot在爬行上顯示更新的兴趣站點,因为這篇爬行的专题研究文章在幾個高交通站點被发表了。 现在Googlebot每天看一些頁。 到目前為止沒有比大约在斷然無光澤节奏,將保持它被佔領多年来,如果慢慢地繼續那的真實的「爬行」的20頁。
MSNbot爬行了怯懦在前45天,看每日30到50的頁,但是沒有,直到他們發現了一個robots.txt文件,我們忽略張貼到站點一個星期然后失誤球,当我們改變了站點結構,然后沒有實施在新的subdomains的robots.txt直到天25 - MSNbot然后沒有返回直到天30。 如果一點被發現了關於最初的爬行和索引,我們看見MSNbot沉重依靠那個robots.txt文件,并且那個文件的適當的實施將加速爬行。
MSNbot現在爬行充满熱情在任何地方在200到800頁之間每日。 實際上,在MSNbot開始上星期之後,擊中6頁每秒我們必須使用「爬行延遲」在robots.txt文件的命令。 MSN索引現在顯示4905頁60天入這個實驗。 被貯藏的頁每星期改變。 MSNbot顯然地发现它喜歡我們怎麼改變頁結構包括與從幾其他文章頁的問題連接的一個新的特點。
啜食得到奇怪地不活潑然後輪流地活動過度在时期。 雅虎履帶牽引裝置將看40頁一天然后4000下,然后看主頁幾天然后跳躍為3000頁次日和回到仅回顧的robots.txt二天。 一貫性不是詛咒遭受啜食。 雅虎在他們的索引,一現在顯示6頁錯誤頁,并且別的是「index/of」頁,因为我們未張貼主頁對幾subdomains。 但是啜食迄今容易地爬行了15,000頁。
取得的经验在一個新的站點的前60天跟隨:
1) Google爬行在選址的在鏈接的第一個發現的上250頁。 然后他們不返回直到他們發現更多鏈接并且慢慢地爬行。 Google未標註新的領域60天。
2) 雅虎尋找錯誤頁,并且,一旦他們發現壞鏈接將不間斷地爬行他們,直到您告訴他們停止它。 然后根本不會爬行在几星期在重爬行内一天和輕地下以任意時尚。
3) MSNbot要求robots.txt文件,并且,一旦他們決定他們喜歡您的站點,也许爬行太快速,要求「爬行延遲」在那個robots.txt文件的指示。 直接貫徹。
4) 壞馬胃蠅蛆可能勞損资源和太迅速擊中許多頁,直到您告訴他們呆在外面。 在他們一兩天之後,關上了我們的服務器我們取締了3個馬胃蠅蛆徹底。 著名的「aipbot」首先爬行的「BecomeBot」然後到来了「Pbot」從Picsearch.com然后爬行了沉重尋找我們沒有的图象文件。 壞馬胃蠅蛆,呆在外面。 實施几乎的robots.txt排除的最好頂面引擎,如果他們的履帶牽引裝置勞損您的服務器资源。 當他們開始在初期,沉重爬行我們考虑排除中國搜索引擎名為Baidu.com。 我們為什麼不期待從中國的交通,但是排除一十億個人? 特别是从Google被傳言考慮Baidu.com可能的購買作為詞條到中國市場。
底线是我們發現了所有引擎似乎延遲新的域名索引至少三十天。 到目前為止Google延遲標註這個新的領域60天從首先爬行它。 AskJeeves沒有爬行的數以萬計頁,当標註他們时。 MSN比所有引擎快速地標註,但是要求robots.txt文件。 雅虎的再啜食爬行再60天,但是索引仅六共計15,000或更多頁迄今爬行了。
我們似乎安定有清楚的索引延遲,但是這個站點明確地是否是「Sandboxed」,并且延遲是否普遍地申請是较不清楚。 許多Web站點管理員声称他們充分地被標註了30在天内的第一個投稿一個新的領域。 我們會愿意看其他通过跟隨發射的新的站點跟蹤蜘蛛公開地提供他們的結果,以便標註的和爬行的行為证实。
ÃÆ'â⠂¬Å ¡ Âà ‚©版權2005年7月18日麥克開戶華倫泰
麥克銀行華倫泰是操作
WebSite101講解的電子商務,并且繼續記載
Publish101文章資源的查尋索引专题研究報告的搜索引擎優化專家
与麥克華倫泰联系的點擊
文章來源: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
網管得到HTML代碼
加上這條到你的網站!
網站管理員提交你的文章
無須登記!填寫好的表格和你的文章是在 Messaggiamo.Com 目錄!