Spider dei motori di ricerca perso senza guida - dopo questo segno!
Il file robots.txt è uno standard di esclusione richiesto da tutti i web crawler / robot per dire loro quali file e le directory che si vuole loro di restare fuori sul tuo sito. Non tutti i crawler / bot seguire l'esclusione standard e continuerà scansione del tuo sito comunque. Mi piace chiamarli "Bad Bot" o trasgressori. Bloccando le loro esclusione IP che è un altro entirely.This storia è molto semplice, una panoramica dei fondamenti robots.txt per webmaster. Per una lezione completa ed esauriente, http://www.robotstxt.org/To visitare vedere il formato corretto per un file robots.txt standard un po 'guardare direttamente qui sotto. Tale file dovrebbe essere alla base del dominio, perché è qui che i crawler si aspetta che sia, non in alcuni directory.Below secondario è il formato corretto per un file robots.txt -----> User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / group / User-agent: msnbot Crawl-delay: 10User-agent: Teoma Crawl-delay: 10User-agent: Slurp Crawl-delay: 10User-agent: Disallow aipbot: / User-agent: BecomeBot Disallow: / User-agent: Disallow PsBot: / --- -----> End of fileThis robots.txt piccoli file di testo viene salvato come un documento di testo semplice e sempre con il nome "robots.txt" nella root del vostro domain.A veloce revisione dei dati elencati dal file robots.txt di cui sopra segue. "User Agent: Bots MSNbot "è da MSN, da Yahoo Slurp è e Teoma è da AskJeeves. Gli altri elencati sono" Bad "che strisciano molto veloce e di beneficiare di nessuno, ma proprio, in modo da chiedere loro di restare fuori del tutto. L'asterisco * è una wild card, che significa "tutti i crawler" / spider / bot dovrebbe restare fuori di quel gruppo di file o directory listed.The bots dato l'istruzione "Disallow: /" significa che essi dovrebbero stare fuori tutto e quelli con "Crawl-delay: 10" sono quelli che strisciavano il nostro sito troppo velocemente e la conseguenza di impantanarsi e l'uso eccessivo delle risorse del server. Google esegue la scansione più lentamente rispetto agli altri e non richiede che l'istruzione, così non è specificamente elencati nel file robots.txt di cui sopra. Crawl-istruzioni di ritardo è necessario solo su siti di grandi dimensioni con centinaia o migliaia di pagine. Il jolly asterisco * si applica a tutti i crawler, bot e ragni, compresi Googlebot.Those abbiamo previsto che "Crawl-delay: 10" istruzioni per la richiesta sono stati ben 7 pagine di ogni secondo e così abbiamo chiesto loro di rallentare. Il numero che vedi è secondo e si può cambiare in base alle la capacità del server, in base al loro tasso di scansione. Dieci secondi tra le richieste di pagine è molto più comodo e impedisce loro di chiedere di più pagine del vostro server può piatto up. (Potete scoprire come i robot e veloce ragni sono la scansione da parte guardando i log del server prime - che dimostrano pagine richieste dai tempi precisi all'interno di un centesimo di secondo - a disposizione dal vostro host web o chiedete al vostro web o IT persona. Il server di log possono si trova nella directory principale se si dispone di accesso al server, di solito è possibile scaricare i file compressi di log del server di diritto giorni di calendario off your server. Hai bisogno di un programma di utilità che è possibile espandere i file compressi da aprire e leggere quelle testo prime file di log del server.) Per visualizzare il contenuto di ogni file robots.txt solo robots.txt tipo dopo qualsiasi nome di dominio. Se hanno quel file in alto, si vedrà visualizzato come un file di testo nella tua web browser. Cliccare sul link qui sotto per vedere il file per Amazon.comhttp: / / www.Amazon.com / robots.txtYou possibile visualizzare il contenuto di qualsiasi sito web di file robots.txt che robots.txt segue.I sopra illustrato è quello che abbiamo attualmente in uso a Publish101 Web Content Distributore, appena lanciato nel maggio del 2005. Abbiamo fatto un ampio studio caso e ha pubblicato una serie di articoli sul comportamento crawler e ritardi di indicizzazione noto come il Google Sandbox. Che Google Sandbox Case Study è molto istruttivo su molti livelli per i webmaster in tutto il mondo circa l'importanza di questo spesso ignorato cosa file.One po 'di testo non ci aspettavamo di raccogliere dalla ricerca coinvolti nel indicizzazione ritardi (noto come il Google Sandbox) è stata l'importanza del file robots.txt per veloce ed efficiente la scansione da parte dei ragni dalle principali motori di ricerca e il numero di scansioni dal bots pesanti che non fanno terrena bene il proprietario del sito, ma la scansione più siti ampiamente e pesantemente, sforzandosi server al punto di rottura con richieste di pagine provenienti veloce come 7 pagine al second.We scoperto nel nostro lancio del nuovo sito che Google e Yahoo si eseguono la scansione del sito se non si utilizza un file robots.txt, ma MSN sembra richiedere prima che inizierà la scansione a tutti. Tutti i robot dei motori di ricerca sembrano per richiedere il file su un intervalli regolari per verificare che non abbia changed.Then quando lo fai cambiare, si fermeranno la scansione per brevi periodi e più volte per chiedere che il file robots.txt durante tale periodo, senza la scansione le pagine supplementari. (Forse avevano un elenco di pagine da visitare che includeva la directory o file che sono stati istruiti a restare fuori, ma ora dobbiamo adeguare le loro pianificazione della scansione per eliminare i file dalla loro lista.) La maggior parte dei webmaster incaricare il bot di stare fuori di "immagine" e la directory "cgi-directory" bin così come tutte le directory contenenti file di privati o di proprietà destinati solo per gli utenti di una rete intranet o password sezioni protette del sito. Chiaramente, si dovrebbe indirizzare il bot di stare fuori di qualsiasi area privata, che non si desidera indicizzato da l'importanza engines.The ricerca del file robots.txt è raramente discussa dal media webmaster e ho anche avuto alcuni dei miei affari con la clientela 'webmaster mi chiedono che cosa è e come attuarla quando dico loro quanto sia importante sia per la sicurezza del sito e la scansione efficiente e dai motori di ricerca. Questa conoscenza deve essere standard da webmaster alle imprese notevoli, ma questo dimostra quanta poca attenzione viene pagato per l'uso di spider dei motori di ricerca robots.txt.The davvero volete che la vostra guida e questo testo tiny file è il modo migliore per fornire crawler e bot un cartello per avvertire chiaramente off intrusi e proteggere la proprietà privata - e per un cordiale benvenuto ospiti invitati, come ad esempio i tre grandi motori di ricerca, mentre, chiedendo loro bene di restare fuori privato areas.Copyright ÃÆ'à ¢ â, ¬ Å ¡Ãƒâ € šÃ,  © 17 agosto 2005 da Mike Banks ValentineGoogle Sandbox Case Study http://publish101.com/Sandbox2 Mike Banks Valentine opera http://Publish101.com Free Web Content Distribution per i marketer articolo e le fornisce l'aggregazione di contenuti, ottimizzazione comunicato stampa e contenuti web personalizzate per Search Engine Positioning
Fonte dell'articolo: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
Webmaster prendi il Codice Html
Aggiungi questo articolo al tuo sito ora!
Webmaster invia i tuoi Articoli
Nessuna registrazione richiesta. Compila il form e i tuoi articoli sono nella Directory di Messaggiamo.Com