- /
- /
- /
- /
- /
- /
Что такое поисковый робот
Определение
Поиско́вый ро́бот представляет собой программу, входящую в систему поиска и предназначенную для перебора веб-страниц с целью добавления актуальных данных о них в базу. Синонимы – веб-краулер и веб-паук.
Предназначение поисковых роботов
Главной задачей, поставленной перед поисковыми роботами, является проведение индексации страниц и всего контента на них (видео- и аудиофайлы, статьи, картинки, гифки и т. д.). Роботы также анализируют ссылки, копии сайтов и произведенные обновления, контролируют правильность исполнения HTML-кода.
Принцип работы
Сам по себе робот является специальной написанной мини-программой, которая в автоматическом режиме без вмешательства оператора переходит на тысячи сайтов и анализирует гигабайты контента. Первой стадией индексации добавленных данных является считывание страниц и последующее сохранение на сервере текстовых копий. Роботы поисковиков не обрабатывают полученную информацию, а только сохраняют ее текстовый формат.
Какие бывают поисковые роботы
В российском интернете самым большим «штатом» поисковых роботов владеет крупнейшая корпорация Яндекс. При этом индексацией данных занимаются такие веб-краулеры:
- главный индексирующий бот, который сохраняет данные с веб-ресурсов;
- робот для распознавания зеркал сайтов;
- поисковик Яндекс, предназначенный для индексации изображений;
- бот, анализирующий страницы ресурсов, размещённых в РСЯ;
- паук для анализа иконок favicon;
- роботы, проверяющие доступность веб-страниц.