Загрузить PDF Загрузить PDF

Поисковые системы оснащены роботами (веб-пауками или ботами), которые сканируют и индексируют веб-страницы. Если ваш сайт или страница находится в стадии разработки или содержит нежелательный контент, роботам можно запретить сканировать и индексировать ваш сайт. Узнайте, как блокировать целые сайты, страницы и ссылки с помощью файла robots.txt или конкретные страницы и ссылки с помощью html-тегов <meta> </meta> . Читайте дальше, чтобы узнать, как запретить доступ к контенту определенным ботам.

Метод 1
Метод 1 из 2:

Блокировка поисковых систем с помощью файла robots.txt

Загрузить PDF
  1. Файл robots.txt представляет собой простой текстовый файл или файл ASCII, который сообщает веб-паукам поисковых систем, к каким частям сайта они могут получить доступ. Файлы и папки, перечисленные в файле robots.txt, не могут быть сканированы и индексированы поисковыми роботами. Используйте файл robots.txt, если:
    • вы хотите скрыть определенный контент от поисковых систем;
    • вы находитесь в процессе разработки сайта и не готовы к сканированию и индексации сайта пауками поисковых систем;
    • вы хотите ограничить доступ авторитетным ботам. [1]
  2. Чтобы создать файл, откройте обычный текстовый редактор или редактор кода. Сохраните файл как robots.txt. Имя файла должно быть написано строчными буквами. [2]
    • Не забудьте добавить «s» на конце.
    • При сохранении файла выберите расширение «.txt». Если вы используете Word, выберите опцию «Обычный текст».
  3. Безусловная директива disallow позволит заблокировать поисковых роботов всех основных поисковых систем, тем самым избежав сканирования и индексации сайта. Добавьте следующие строки в текстовый файл:
      User-agent: *
      Disallow: /
    • Использовать безусловную директиву «disallow» в файле robots.txt настоятельно не рекомендуется. Когда бот, такой как Bingbot, считает этот файл, он не проиндексирует ваш сайт, а поисковая система его не отобразит.
    • User-agents (Агенты пользователя) — это еще одно название веб-пауков, или поисковых роботов.
    • * : звездочка означает, что код применяется ко всем агентам пользователя.
    • Disallow: / : косая черта указывает, что весь сайт закрыт для ботов. [3]
  4. Вместо блокирования всех ботов, рассмотрите возможность блокировки доступа конкретных пауков к определенным частям сайта. [4] Основные команды условной директивы allow включают::
    • Блокирование конкретного бота: замените звездочку рядом с User-agent на googlebot , googlebot-news , googlebot-image , bingbot или teoma . [5]
    • Блокирование каталога или его содержимого:
      User-agent: *
      Disallow: /sample-directory/
    • Блокирование веб-страницы:
      User-agent: *
      Disallow: /private_file.html
    • Блокирование изображения:
      User-agent: googlebot-image
      Disallow: /images_mypicture.jpg
    • Блокирование всех изображений:
      User-agent: googlebot-image
      Disallow: /
    • Блокирование отдельного формата файла:
      User-agent: *
      Disallow: /p*.gif$
  5. Многие люди не только не блокируют, а наоборот, приветствуют внимание пауков поисковых систем к своему сайту, чтобы он был полностью проиндексирован. Добиться этого можно тремя способами. Во-первых, можно отказаться от создания файла robots.txt. Если робот не найдет файл robots.txt, то продолжит сканировать и индексировать весь ваш сайт. Во-вторых, вы можете создать пустой файл robots.txt. Робот найдет файл robots.txt, увидит, что тот пуст, и продолжит сканировать и индексировать сайт. Наконец, можно создать файл robots.txt с директивой безусловного разрешения, используя код: [6]
      User-agent: *
      Disallow:
    • Когда бот, такой как googlebot, считает этот файл, то сможет беспрепятственно посещать весь ваш сайт.
    • User-agents (Агенты пользователя) — это еще одно название веб-пауков, или поисковых роботов.
    • * : звездочка означает, что код применяется ко всем агентам пользователя.
    • Disallow : пустая команда disallow означает, что все файлы и папки являются доступными.
  6. После редактирования файла robots.txt сохраните изменения. Вставьте файл в корневой каталог сайта. Например, если у вас домен www.yourdomain.com , поместите файл robots.txt по адресу www.yourdomain.com/robots.txt .
    Реклама
Метод 2
Метод 2 из 2:

Блокировка поисковых систем метатегами

Загрузить PDF
  1. Метатег robots позволяет программистам устанавливать параметры для ботов или пауков поисковых систем. С помощью этих тегов ботам запрещают индексировать и сканировать весь сайт или отдельные его части. Также их можно использовать, чтобы заблокировать определенного паука поисковой системы от индексации контента. Эти теги указываются в заголовке HTML-файла. [7]
    • Этот метод обычно используется программистами, которые не имеют доступа к корневому каталогу сайта.
  2. Индексацию страницы и/или переход по ссылкам на странице можно запретить для всех ботов. Этот тег обычно используется, когда сайт находится на стадии разработки. После завершения работы сайта настоятельно рекомендуется удалить этот тег. Если вы не уберете тег, страница не будет проиндексирована или доступна для поиска через поисковые системы. [8]
    • Запретите ботам индексировать страницу и переходить по любой из ссылок:
       < 
       meta 
       name 
       = 
       ”robots” 
       content 
       = 
       “noindex, 
       nofollow 
        
       > 
      
    • Запретите всем ботам индексировать страницу:
       < 
       meta 
       name 
       = 
       ”robots” 
       content 
       = 
       “noindex” 
       > 
      
    • Запретите всем ботам переходить по ссылкам на странице:
       < 
       meta 
       name 
       = 
       ”robots” 
       content 
       = 
       “nofollow” 
       > 
      
  3. Разрешите ботам индексировать страницу, но не переходить по ее ссылкам. Если вы позволите ботам проиндексировать страницу, она будет проиндексирована. Если вы запретите паукам переходить по ссылкам, путь ссылки с этой страницы на другие будет заблокирован. [9] Вставьте в заголовок следующую строку кода:
       < 
       meta 
       name 
       = 
       ”robots” 
       content 
       = 
       “index, 
       nofollow 
        
       > 
      
  4. Разрешите паукам поисковой системы переходить по ссылкам, но не индексировать страницу. Если вы позволите ботам переходить по ссылкам, путь ссылки с этой страницы на другие останется открытым. Если вы запретите ботам индексировать страницу, она не появится в индексе. [10] Вставьте в заголовок следующую строку кода:
       < 
       meta 
       name 
       = 
       ”robots” 
       content 
       = 
       “noindex, 
       follow 
        
       > 
      
  5. Чтобы скрыть одну ссылку на странице, поместите тег rel внутри тега ссылки <a href> </a> . Используйте этот тег для блокировки ссылок на других страницах, которые ведут на конкретную страницу, которую вы хотите заблокировать. [11]
       < 
       a 
       href 
       = 
       "yourdomain.html" 
       rel 
       = 
       "nofollow" 
       > 
      Вставьте ссылку на заблокированную страницу </ 
       a 
       > 
      
  6. Вместо блокирования доступа к странице для всех ботов, установите запрет на сканирование и индексирование страницы лишь для одного бота. Для этого замените слово «robots» в метатеге именем определенного бота. [12] Примеры: googlebot , googlebot-news , googlebot-image , bingbot и teoma . [13]
       < 
       meta 
       name 
       = 
       ”bingbot” 
       content 
       = 
       “noindex, 
       nofollow 
        
       > 
      
  7. Если вы хотите убедиться, что страница будет проиндексирована, а по ссылкам будут переходить, добавьте разрешающий мета-тег «robots» в свой заголовок. [14] Используйте следующий код:
       < 
       meta 
       name 
       = 
       ”robots” 
       content 
       = 
       “index, 
       follow 
        
       > 
      
    Реклама

Об этой статье

Эту страницу просматривали 5189 раз.

Была ли эта статья полезной?

Реклама