Robots.txt

Март 6th, 2019

realnodengi

Привет всем странникам, странствующим в сети в поиске знаний. Разговор сегодня пойдет о важном инструменте вебмастера под названием robots.txt. Если нас интересует, как зарабатывать в интернете, и мы хотим зарабатывать на сайте, то для продвижения своего сайта (блога) robots.txt играет не маловажную роль.

И так, для Вас как заработать в интернете цель наипервейшая, значит, время деньги и я Вам вначале:

1. Покажу правильный robots.txt для WordPress

2. Расскажу самое основное для чего нужен robots.txt

3. Если у Вас найдется время, Вы сможете познакомиться с robots.txt конкретнее

Robots.txt для WordPress

Прежде хочу сказать, что часто многие блогеры игнорируют robots.txt и не принимают никаких мер, чтобы ограничивать в индексации поисковых ботов Гугла и Яндекса. Это конечно их дело, но я когда создал свой robots.txt заметил, как изменилась посещаемость моего сайта:

Не скажу, что на все 100% так повлиял robots.txt, но после его создания пошла тенденция к росту. Из этого я сделал вывод, если мы создаем свой сайт для заработка, нужно по максимуму сделать свой сайт адаптированный ко всем требованиям, а значит все-таки robots.txt нужен, и создается он не просто так.

Создать файл robots.txt и прописать в нем правила поведения для поисковых роботов можно с помощью любого текстового редактора (я для этой цели использую Notepad++), который позволит редактировать файл robots.txt на ваше усмотрение. Сразу возьмите на заметку, что название при сохранении файла robots.txt прописывается маленькими буквами (вот так: robots.txt), и сохранять его нужно в корневой папке сайта (в WordPress это папка «publiс_html»). Операцию по внедрению файла robots.txt в Ваш сайт можно провести, например, с помощью FTP клиента Total Commander. После чего его Вы сможете найти по адресу: https://ваш сайт/robots.txt.

Правильный robots.txt для WordPress скопировать Вы можете прямо вот отсюда:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: https://realnodengi.ruSitemap: https://realnodengi.ru/sitemap.xml.gz
Sitemap: https://realnodengi.ru/sitemap.xml

Кстати, при желании подглядеть, как выглядит файл robots.txt на любом понравившемся Вам ресурсе, достаточно будет прибавить к адресу главной страницы этого сайта /robots.txt. Такое любопытство может стать полезным, т.к. всегда можно посмотреть и выбрать наилучший вариант у находящихся в топе (значит проверенных) сайтов. Только нужно учитывать, что на разные CMS движках правильный файл robots.txt будет выглядеть по-разному. Поэтому если Вас интересует правильный robots txt для wordpress, то и сравнивать нужно с файлом robots txt созданным на этом движке.

Вернуться в начало

Robots.txt можно сравнить с командующим в армии, а если быть точнее он является регулировщиком движения по сайту для поисковых роботов. Не сложно догадаться, что для того чтобы продвигать и раскручивать сайт самостоятельно нужен комплекс мер.

Важно не только подбирать популярные запросы в статистике яндекса для составления семантического ядра и писать уникальный контент, но и следует побеспокоиться о помощи поисковым системам Яндексу и Гугл индексировать страницы вашего сайта (прочие системы для поиска я не рассматриваю, их доля очень мала в поиске Рунета). Чем скорей и полней Яндекс и Гугл смогут проиндексировать Ваш сайт, тем быстрее будет продвигаться ресурс в поисковой выдаче.

Для осуществления данной задачи у нас с вами в руках есть два основных инструмента. Первый — карта сайта (Sitemap xml) и второй robots.txt, позволяющий запретить поисковым роботам индексировать все то, что не имеет интереса для продвижения (файлы движка), а порой даже может навредить в продвижении сайта (дубликаты контента).

Robots.txt – регулировщик поисковых роботов или зачем объяснять Яндексу и Гугл что индексировать.

Robots.txt и Sitemap xml (файлы, позволяющие управлять индексацией сайта) важны для продвижения проекта как конституция для страны. В файле robots.txt прописываются непререкаемые правила поведения для поисковых роботов. Одной из технических ошибок у начинающих вебмастеров бывает незнание о существовании таких важных файлов или же неправильное их составление и использование.

Я в свое время сам сперва игнорировал файл robots.txt, но когда решил поэкспериментировать и создал для своего сайта robots.txt, то увидел изменения и пришел к заключению, что не все наполнение любого ресурса, созданного на каком-либо CMS движке должно быть доступно для индексации в поисковиках. К сожалению, в CMS движках файлы Robots.txt и Sitemap xml отсутствуют.

Отсутствие файла robots.txt усложняет работу для поискового бота. Бот, попадая в корневой каталог вашего сайта, не найдя файла robots.txt будет искать страницы для индексации везде, куда он сможет пролезть (в файлах и директории). Это приведет:

Первое, к тому, что поисковый робот будет тратить большое количество времени и по истечению срока данного ему на индексацию одного ресурса, уйдет с него, пропустив действительно ждущие индексации страницы.

Второе, в поисковые системы попадет множество страниц, не имеющих отношения к содержимому сайта, причем может попасть в поиск много дублетов страниц. Например, из архивов и тогда один и тот же материал станет доступным по разным ссылкам, а этого ох как не любят поисковики, а значит таким макаром можно и в бан попасть. Для этого и существует файл robots.txt, в котором мы можем запретить поисковым роботам совать нос куда не следует.

Ниже мы разберем robots.txt на части до винтиков.

Вернуться в начало

Разбираем Robots.txt на части или Директивы и правила написания файла robots.txt (disallow, user-agent, host)

Если создать пустой файл robots.txt, то поисковые боты это воспримут, как разрешение совать свой нос куда вздумается, поэтому мы этот файл обязательно заполним директивами для поисковых роботов. Так давайте у предложенного мной robots.txt рассмотрим все подробно:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: https://realnodengi.ruSitemap: https://realnodengi.ru/sitemap.xml.gz
Sitemap: https://realnodengi.ru/sitemap.xml

И так, в начале у нас стоит директива «User-agent» — эта директива, как бы говорит роботам читай здесь, а символ (*) — дает понять — читать можно всем, т.е. при помощи этой директивы мы задаем настройку для каких ботов написан robots.txt — для всех или конкретных роботов одной из поисковых систем. Поэтому первую директиву (User-agent: *) мы пишем для любого робота зашедшего на сайт, а вторую заново, но уже для роботов Яндекса: (User-agent: Yandex).

Ниже директивы «User-agent» мы начинаем писать запреты с помощью запрещающей директивы (Disallow). Когда (Disallow:) без продолжения он ничего не запрещает, а как мы знаем, в нашей жизни что не запрещено, то разрешено, в этом случае у поисковых роботов будет такой же взгляд на Ваш сайт и они будут индексировать все подряд.

Для запрета нужно поставит знак (/), он дает запрет на индексацию всего, что будет написано после него, если после (/) ничего не написано, то поисковые боты поймут такую директиву как запрет для индексации всего сайта. Нас это не устраивает и поэтому в (Disallow) после знака (/) мы указываем файл или папку, находящуюся на хостинге на нашем сайте например, Disallow: /wp-admin, тем самым запрещаем индексировать директорию «wp-admin», а так же все файлы и директории, начинающиеся с символами «wp-admin».

Если нам надо закрыть от индексации какой-либо файл или папку, то даем директиву, например такую (Disallow: /wp-content/plugins) – это значит в папке «wp-content» мы закрываем для поисковых ботов папку «plugins».

В случае, когда от поисковых роботов нужно закрыть файл, папку или расширение в любом месте на сайте, то мы применяем символ (*) — который означает любую (в том числе пустую). Например: (Disallow: */feed) – что значит, в любой папке запрещается к индексации «feed». Короче, с директивой (Disallow) мы разобрались, идем дальше.

Дальше все просто, директива Host — рекомендуется во избежание заморочек с зеркалами сайта (домены с www и без www). Она должна указывать поисковому боту Яндекса главное зеркало сайта (как при использовании 301 редиректа). У меня домен с www, значит, я прописываю так: (Host: realnodengi.ru). Вы же будете вписывать свой.

И последнее, что мы указали — это директива Sitemap, она указывает путь (включая https://) к карте сайта (Sitemap xml).

Вот и все, ничего сложного в написании файла robots.txt нет, теперь Вы знаете, из чего состоит robots.txt и если Вас не удовлетворяет выше приведенный robots.txt, то Вы сами его сможете написать.

Вернуться в начало

Не забудьте настроить редирект 301 — он также важен для Вашего сайта как robots.txt.

Posted in Как создать свой сайт

You can leave a response, or trackback from your own site.

Ссылки

Robots.txt — помогаем Яндексу и Гугл в индексации сайта, robots.txt для WordPress

Robots.txt для WordPress

Robots.txt

Robots.txt – регулировщик поисковых роботов или зачем объяснять Яндексу и Гугл что индексировать.

Разбираем Robots.txt на части или Директивы и правила написания файла robots.txt (disallow, user-agent, host)

Leave a Reply

Горячие ссылки

Популярное

Свежие записи

Архивы