Search engine spiders verloren zonder begeleiding - post dit teken!
Het robots.txt-bestand is een uitsluiting vereiste norm door alle webcrawlers / robots om hen te vertellen welke bestanden en mappen die u wilt dat ze OUT van het verblijf op uw site. Niet alle crawlers / bots volg de uitsluiting standaard en zal blijven crawlen van uw site anyway. Ik noem ze "Bad Bots" of indringers. Wij hen blokkeren op IP-uitsluiting, dat is een ander verhaal entirely.This is een zeer eenvoudig overzicht van robots.txt basis voor webmasters. Voor een volledige en grondige les, bezoek http://www.robotstxt.org/To zie het juiste formaat voor een wat standaard robots.txt-bestand kijken direct onder. Dat bestand moet worden in de hoofdmap van het domein, omdat dat is waar de crawlers verwachten dat het is, niet in enkele secundaire directory.Below is de juiste formaat voor een robots.txt-bestand -----> User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / group / User-agent: msnbot Crawl-delay: 10User-agent: Teoma Crawl-delay: 10User-agent: Slurp Crawl-delay: 10User-agent: aipbot Disallow: / User-agent: BecomeBot Disallow: / User-agent: psbot Disallow: / --- -----> Einde van robots.txt fileThis klein tekstbestand dat wordt opgeslagen als platte tekst document en ALTIJD met de naam 'robots.txt' in de root van je domain.A quick review van de genoemde informatie van het robots.txt-bestand hierboven volgt. De "User Agent: MSNbot "is van MSN, Slurp is van Yahoo en Teoma uit AskJeeves. De genoemde anderen zijn" Bad "bots die zeer snel kruipen en te profiteren niemand, maar hun eigen land, dus we vragen hen te blijven geheel uit. De * asterisk is een wild card dat betekent "Alles" crawlers / spiders / bots moet blijven uit die groep van bestanden of mappen listed.The bots de instructie "Disallow: /" betekent dat ze moeten blijven geheel uit en mensen met een gegeven "Crawl-delay: 10" zijn die onze site kroop te snel en veroorzaakt het aan veen beneden en overmatig gebruik van de server resources. Google doorzoekt langzamer dan de anderen en niet van die instructie nodig, dus is niet specifiek zijn opgenomen in de bovenstaande robots.txt-bestand. Crawl-delay instructie is alleen nodig op zeer grote sites met honderden of duizenden pagina's. Het jokerteken sterretje * van toepassing op alle crawlers, bots en spinnen, inclusief Googlebot.Those we op voorwaarde dat "Crawl-delay: 10" instructie aan zijn verzoek om zoveel als 7 pagina's per seconde en dus vroegen we hen te vertragen. Het nummer dat u ziet is seconden en je kunt veranderen aan te passen uw server capaciteit, op basis van hun kruipen tarief. Tien seconden tussen page requests is veel meer ontspannen en stopt ze van vragen om meer pagina's dan je server kan op schotel. (U kunt ontdekken hoe snel robots en spinnen zijn bezocht door te kijken naar uw ruwe server logs - die pagina's, opgevraagd door precieze tijden tot op een honderdste van een seconde - verkrijgbaar bij uw webhost of vraag uw web-of IT-persoon te tonen. Uw server logs kan te vinden in de root directory als u toegang tot de server hebt, kunt u meestal downloaden gecomprimeerde server log bestanden door kalenderdag recht van je server. Je hebt een hulpprogramma dat kan uitbreiden gecomprimeerde bestanden te openen en Lees de platte tekst ruwe server log bestanden.) Om de inhoud van een robots.txt-bestand te zien typt robots.txt na een domeinnaam. Als ze die bestand up, ziet u deze weergegeven als een tekst bestand in uw web browser. Klik op de onderstaande link naar dat bestand voor Amazon.comhttp zie: / / www.Amazon.com / robots.txtYou kunt zien dat de inhoud van een website die manier bij robots.txt-bestand robots.txt hierboven uiteengezet is wat we nu gebruiken op Publish101 Web Content Distributor, net gelanceerd in mei 2005. We hebben een uitgebreide case-studie en publiceerde een reeks artikelen over crawler gedrag en indexeren vertragingen bekend als de Google Sandbox. Dat Google Sandbox Case Study is het zeer leerzaam op vele niveaus voor webmasters overal over het belang van dit vaak genegeerd weinig tekst file.One wat we hadden niet verwacht bijeen te sprokkelen uit het onderzoek betrokken zijn bij het indexeren vertragingen (bekend als de Google Sandbox) was het belang van het robots.txt-bestanden snel en efficiënt te doorzoeken door het spinnen van de grote zoekmachines en het aantal zware kruipt van bots die zal doen geen aardse goed om de site-eigenaar, maar de meeste sites doorzoeken uitgebreid en zwaar, gespannen servers aan het breekpunt met verzoeken om pagina's komen zo snel 7 pagina's per second.We ontdekt in onze lancering van de nieuwe site dat Google en Yahoo zal kruipen van de site, ongeacht of u gebruik maken van een robots.txt-bestand, maar MSN lijkt zij eisen voordat ze beginnen kruipen at all. Alle robots zoekmachine lijken om het bestand op een verzoek regelmatig om te controleren dat het niet heeft changed.Then wanneer je het te doen veranderen, zullen ze stoppen kruipen voor korte periodes en herhaaldelijk vragen om dat bestand robots.txt gedurende die tijd zonder crawlen extra pagina's. (Misschien hadden ze een lijst van pagina's te bezoeken, dat de map of bestanden die u heeft hen opdracht om uit het verblijf van en moet nu kruipen hun schema aan te passen aan die bestanden uit hun lijst te elimineren inbegrepen.) In de meeste webmasters instrueert de bots om uit het verblijf van "image" directories en de "cgi-bin" directory en alle directories met prive of eigen bestanden alleen bestemd voor gebruikers van een intranet of wachtwoord beschermde delen van uw site. Het is duidelijk, moet u direct de bots om uit het verblijf van elk prive-terreinen die u niet wilt laten indexeren door het zoeken engines.The belang van de robots.txt wordt zelden besproken door de gemiddelde webmasters en ik had zelfs een aantal van mijn cliënt business 'webmasters vragen me wat het is en hoe het te implementeren als ik vertel ze hoe belangrijk het is om zowel site beveiliging en efficiënt te doorzoeken door de zoekmachines. Dit moet worden standaard kennis door webmasters op grote bedrijven, maar dit illustreert hoe weinig aandacht wordt besteed aan het gebruik van robots.txt.The spiders van zoekmachines eigenlijk niet wilt dat uw begeleiding en dit kleine tekst bestand is de beste manier om de crawlers en bots een duidelijke wegwijzer te bieden om te waarschuwen uit betreden van verboden terrein en prive-eigendom te beschermen - en van harte welkom genodigden, zoals de drie grote zoekmachines te vragen, terwijl ze mooi uit te blijven van particuliere areas.Copyright ÃÆ'à ¢ â, ¬ Å ¡Ãƒâ € Ã,  © 17 augustus 2005 door Mike Banks ValentineGoogle Sandbox Case Study http://publish101.com/Sandbox2 Mike Banks werkt Valentijn http://Publish101.com Free Web Content Distribution voor artikel Marketeers en biedt content aggregatie, persbericht optimalisatie en aangepaste webcontent voor Search Engine Positioning
Artikel Bron: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
Webmaster krijgen html code
Voeg dit artikel aan uw website!
Webmaster verzenden van artikelen
Geen registratie vereist! Vul het formulier in en uw artikel is in de Messaggiamo.Com Directory!