Исключить веб-страницу или сайт из поисковых систем с использованием текстового файла роботов

Вы можете использовать текстовый файл роботов, чтобы блокировать сканирование поискового робота от обхода вашего веб-сайта или части вашего сайта. Например, у вас может быть версия разработки вашего веб-сайта, на которой вы работаете над изменениями и дополнениями, чтобы протестировать их, прежде чем они станут частью вашего веб-сайта. Вы не хотите, чтобы поисковые системы индексировали эту «незавершенную» копию вашего веб-сайта, поскольку это может привести к конфликту с дублирующимся контентом с вашим фактическим веб-сайтом. Вы также не хотите, чтобы пользователи находили ваши незавершенные страницы. Поэтому вам нужно заблокировать поисковые системы от просмотра этих страниц.

Задача файла робота text заключается в том, чтобы предоставить инструкции поисковых систем о том, что не для паука на вашем веб-сайте. Это простой текстовый файл, который можно создать с помощью такой программы, как «Блокнот», а затем сохранить с помощью роботов с именами файлов. текст. Поместите файл в корень вашего веб-сайта (например, www. yourdomain . Com / robots. Txt), в котором пауки ожидают его найти. Фактически, всякий раз, когда поисковые роботы попадают на ваш сайт, первое, что они ищут, это ваш текстовый файл роботов. Вот почему вы должны всегда иметь текстовый файл роботов на вашем сайте, даже если он пуст. Вы не хотите, чтобы первое впечатление о пауках вашего сайта было ошибкой 404 (ошибка, возникающая, когда файл не может быть найден).

С текстовым файлом роботов вы можете выборочно исключать отдельные страницы, каталоги или весь сайт. Вы должны написать код HTML именно так, или пауки игнорируют его. Синтаксис команды, который вам нужно использовать, исходит из протокола исключения роботов (REP), который является стандартным протоколом для всех веб-сайтов. И это очень точно; разрешены только определенные команды, и они должны быть написаны правильно с конкретным размещением, прописными или строчными буквами, пунктуацией и интервалом. Этот файл является одним из мест, где вы не хотите, чтобы ваш веб-мастер стал творческим.

Очень простой текстовый файл роботов может выглядеть так:

User-agent: * Disallow: / personal /

Этот текстовый файл роботов сообщает всем роботам поисковой системы, что они приветствуются для сканирования в любом месте вашего веб-сайта кроме для каталога с именем / personal /.

Прежде чем писать командную строку (например, Disallow: / personal /), вам сначала нужно определить, какие роботы (ы) вы обращаетесь. В этом случае пользователь-агент линии: * обращается ко всем роботам, потому что он использует звездочку, которая называется символом wild card , потому что она представляет любой символ. Если вы хотите дать разные инструкции различным поисковым системам, как это делают многие сайты, напишите отдельные строки User-agent, за которыми следуют их конкретные командные строки.В каждой строке User-agent: вы замените символ звездочки (*) именем конкретного робота:

User-agent: Googlebot привлечет внимание Google.

Пользовательский агент: Slurp будет обращаться к Yahoo!, Пользовательский агент: MSNBot будет обращаться к Microsoft Live Search.

Обратите внимание, что если в текстовом файле вашего робота содержатся инструкции User-agent: *, а также другая строка User-agent: строка, указывающая конкретный робот, конкретный робот следует за командами, которые вы предоставили им отдельно вместо более общие инструкции.

В роботы можно ввести только несколько разных команд. txt файл:

Исключая весь сайт. Чтобы исключить робота со всего сервера, используйте команду:
```
Disallow: /
```
Эта команда фактически удаляет все веб-страницы вашего сайта из индекса поиска, поэтому будьте осторожны not > делать это, если это то, что вы действительно хотите. Исключение каталога.
(Предупреждение - обычно, вы хотите быть намного более избирательным, чем исключение целого каталога.) Чтобы исключить каталог (включая все его содержимое и подкаталоги), поместите его внутри слэшей: Disallow: / personal /
```
Исключение страницы.
```
Вы можете написать команду, чтобы исключить только определенную страницу. Вы используете только косую черту в начале и должны включать расширение файла в конце. Вот пример: Disallow: / private-file. htm
```
Направляйте пауков на карту вашего сайта.
```
В дополнение к Disallow: другая полезная команда для ваших усилий SEO указывает, где робот может найти вашу карту сайта - страницу, содержащую ссылки во всей организации вашего сайта, например оглавление: Карта сайта: // www. имя_домен. ком / карта сайта. xml

Следует отметить, что в дополнение к ранее перечисленным командам Google также распознает Allow. Это применимо только к Google и может запутать другие двигатели, поэтому вам следует избегать его использования.

Вы должны всегда включать в конец текстового файла робота строку Sitemap. Это гарантирует, что роботы найдут вашу карту сайта, что поможет им ориентироваться более полно через ваш сайт, чтобы больше вашего сайта индексировалось.

Несколько примечаний о синтаксисе текстового файла роботов:

Команды чувствительны к регистру, поэтому вам нужно сделать капитан D в Disallow.

После команды всегда должно быть пробел после двоеточия.
Чтобы исключить весь каталог, поместите переднюю косую черту
после , а также до имя каталога. Если вы работаете на компьютере UNIX,
все учитывает регистр. Все файлы, которые специально не исключены, доступны для разметки и индексирования.
Чтобы просмотреть полный список команд, имена роботов и инструкции по написанию текстовых файлов роботов, перейдите на страницу веб-роботов.

В качестве дополнительной защиты сделайте ее частью вашего еженедельного обслуживания сайта, чтобы проверить текстовый файл вашего робота. Это такой мощный переключатель включения / выключения для SEO-оптимизации вашего сайта, что он заслуживает регулярного взгляда, чтобы убедиться, что он все еще включен и работает нормально.