Поисковых роботов потеряли без руководства - пост этот знак!
Файл robots.txt является исключением стандартных необходимых для всех сканеров-роботы сказать им, какие файлы и каталоги, которые вы хотите, чтобы оставаться в стороне от вашего сайта. Не все сканеры / боты следуют исключения стандартные и будет продолжать сканирование вашего сайта в любом случае. Я хотел бы называть их "Плохие боты" или нарушителей. Мы заблокировать их исключение IP который уже совсем другая история entirely.This очень простой обзор robots.txt Основы вебмастеров. Для полного и тщательного урок, посетите http://www.robotstxt.org/To увидеть правильный формат для несколько стандартного файла robots.txt смотрите прямо ниже. Этот файл должен быть в корневом каталоге домена, поскольку Вот где сканерам ожидают быть, а не в некоторых средних directory.Below является надлежащим формата файла robots.txt -----> User-Agent: * Disallow: / CGI-BIN / Disallow: / Images / Disallow: / группы / User-Agent: MSNBot Crawl-Delay: 10User-Agent: Teoma Crawl-Delay: 10User-Agent: Slurp Crawl-Delay: 10User-Agent: aipbot Disallow: / User-Agent: BecomeBot Disallow: / User-Agent: PsBot Disallow: / --- -----> Конец robots.txt fileThis крошечные текстового файла сохраняется в виде простого текста документа и всегда с именем "robots.txt" в корневом каталоге вашего domain.A Краткий обзор информации по перечисленным выше файла robots.txt следующим образом. "User Agent: MSNbot "от MSN, Slurp от Yahoo и Teoma от AskJeeves. Числятся" плохие "ботами, которые сканируют очень быстро и на пользу никому, но самостоятельно, поэтому мы просим их остановиться полностью. Звездочкой * Wild Card, что значит "все" сканеры / Пауки / ботов должна остаться вне этой группы файлов или каталогов listed.The ботов данной инструкции "Disallow: /" означает, что они должны оставаться вне целиком и тех, кто "Crawl-Delay: 10" являются те, которые пополз наш сайт слишком быстро, и привели ее к увязнуть и чрезмерное использование ресурсов сервера. Google сканирует более медленно, чем другие, и не требует обучения, поэтому не конкретно перечислены в указанном файле robots.txt. Сканирование задержки инструкций требуется только на очень больших сайтов с сотнями или тысячами страниц. Wildcard звездочкой распространяется на все сканеры, роботы, пауки в том числе Googlebot.Those мы предусматривается, что "Crawl-Delay: 10" Инструкция по просят целых 7 страниц каждый второй, и поэтому мы попросили их замедлить. Номер, который вы видите секунд и вы можете изменить его в соответствии Ваш сервер потенциала, основанные на их скорость сканирования. Десять секунд между странице просит гораздо более спокойно и останавливает их от просят больше страниц, чем ваш сервер может подавать на стол. (Вы можете узнать, как быстро и роботы пауки сканирование, глядя на ваше сырье логи сервера - которые показывают страниц, запрошенных точное время с точностью до сотой доли секунды - доступна с веб-узла или попросите вашего веб или ИТ лица. Ваши журналы сервера может можно найти в корневом каталоге, если у вас есть доступ к серверу, обычно можно скачать сжатые файлы журнала сервера за календарный день сразу сервер. Вам потребуется утилита, которая может расширить сжатых файлов для открытия и Читайте эти простого текста сырья сервере лог-файлов). Чтобы увидеть содержимое любого файла robots.txt просто наберите robots.txt после любого доменного имени. Если у них есть этот файл, вы увидите, он отображается в виде текстового файла в веб браузера. Нажмите на ссылку ниже, чтобы увидеть в этом файле Amazon.comhttp: / / www.Amazon.com / robots.txtYou может увидеть содержимое любого сайта файл robots.txt, что way.The robots.txt показано выше, чем мы в настоящее время используют около Publish101 Веб-контент дистрибьютора, только начат в мае 2005 года. Мы сделали обширное исследование дела и опубликовала ряд статей о поведении гусеничных и задержки индексации известной как Google Sandbox. Это Google Sandbox Case Study весьма поучительны на многих уровнях, для веб-мастеров во всем мире о важности этого зачастую игнорируются мелочь file.One текст, мы не рассчитываем почерпнуть из исследований участвует в индексировании задержки (известной как Google Sandbox) заключается в важности файлы robots.txt, быстрое и эффективное сканирование пауки из основных поисковых системах и число тяжелых ползет от роботов, которые будут делать не земное хорошо с владельцем сайта, но большинство сайтов сканировать много и тяжело, напрягая серверы до предела с обращений к страницам ближайшие же быстро, как 7 страниц в second.We обнаружили в нашем запуске нового сайта , что Google и Yahoo будет сканировать сайт или вы не используете файл robots.txt, но MSN кажется, требуют, прежде чем они начнут сканирование на всех. Все роботы поисковых показаться на просьбу о файле регулярной основе с целью проверки, что оно не changed.Then когда вы изменить его, они будут прекратить сканирование на короткое время и постоянно просят что файл robots.txt это время сканирования без любых дополнительных страниц. (Возможно, они имели список страниц для посещения, которые включали каталога или файлов, которые вы поручили им оставаться в стороне и теперь должна скорректировать свои расписание сканирования для устранения этих файлов из их списка.) Большинство защищенным разделам вашего сайта. Очевидно, вы должны направить ботов остаться вне какой-либо частной области, которые вы не хотите индексировать, исходя из важности поиска engines.The файла robots.txt редко обсуждается в среднем на веб-мастерам, и я даже имел некоторые из моих клиентов бизнеса вебмастеров спросите меня, что это такое и как его реализовать, когда я говорю им, как важно, чтобы сайт как безопасности, так и эффективное сканирование в поисковых системах. Это должно быть стандартным знания веб-мастера на существенное компаний, но это показывает, как мало внимания уделяется использованию robots.txt.The пауки поисковых машин действительно хотите, чтобы ваше руководство, и это крошечная текста Файл является лучшим способом обеспечения сканеров и боты четкий указатель, чтобы отпугивать нарушителей и защиты частной собственности - и тепло приветствовать приглашенные гости, такие, как "большая тройка поисковой машине с просьбой красиво, чтобы остаться вне частных areas.Copyright ÃÆ'à ¢ Â, ¬ â € ¡Ãƒâ С.А. ", © 17 августа 2005 Майк банков ValentineGoogle песочницы Case Study http://publish101.com/Sandbox2 Mike банков Валентина работает http://Publish101.com Бесплатный веб-контента для статьи Маркетологов и обеспечивает агрегацию контента, оптимизации пресс-релиза и пользовательский веб-контента для поисковой системы позиционирования
Статья Источник: Messaggiamo.Com
Related:
» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula
Вебмастер получить html-код
Добавить эту статью на Вашем сайте прямо сейчас!
Вебмастер представить свои статьи
Не требуется регистрация! Заполните форму и ваша статья в Messaggiamo.Com каталог!