Поисковый робот (web crawler, или веб-паук) — это специальная программа, которая в автоматическом режиме сканирует веб-страницы и передает собранные данные поисковой системе или компании-владельцу.
Самые известные пользователи краулеров — поисковики. Их пауки переходят по доступным ссылкам, собирают и анализируют содержимое страниц в интернете и отправляют полученные данные на сервер поисковой машины, чтобы пополнить и обновить выдачу.
Помимо HTML-страниц, такие краулеры сканируют документы и других форматов. Например, Adobe PDF (.pdf), Microsoft Excel (.xls, .xlsx), Microsoft PowerPoint (.ppt, .pptx) и Microsoft Word (.doc, .docx).
Зачем нужен поисковый робот
Поисковые роботы — ключевой элемент работы поисковой системы и связующее звено между опубликованным контентом и пользователем. Если веб-страница не просканирована и не добавлена в базу поисковика, она не появится в выдаче. Попасть на нее можно будет только по прямой ссылке.
Роботы также влияют на ранжирование. Например, неизвестные краулеру API и функции JavaScript мешают корректно просканировать сайт. В результате на сервер отправляются страницы с ошибками, а часть контента на них и вовсе может оказаться в слепой зоне робота.
Поскольку на следующих этапах поисковые системы применяют к полученным данным специальные алгоритмы для выдачи пользователям более релевантной информации, такие некачественные страницы могут оказаться на дне поиска.
Как работает поисковый робот
Прежде чем сайт или файл попадет в базу поисковой системы для дальнейшего ранжирования, робот должен его найти. Чаще всего это происходит автоматически: страницы обнаруживаются при переходе по ссылкам с уже известных боту разделов сайта. Например, при переобходе блога паук фиксирует появление новой записи в нем и вносит ее в расписание следующего обхода.
Если на сайте есть файл sitemap.xml (карта сайта), то при каждом его обновлении краулер считывает оттуда ссылки для сканирования.
Передать роботу конкретный URL на сканирование можно и вручную. Для этого нужно подключить сайт к «Яндекс.Вебмастеру» (или Google Search Console) и ввести в специальном разделе ссылку на страницу, которая должна быть проиндексирована.
Далее, если страница доступна, происходит ее сканирование. Краулер считывает текстовое содержимое, теги и гиперссылки.
Затем веб-паук загружает полученные данные на сервер для дальнейшей их обработки.
Далее содержимое страницы очищается от лишних HTML-тегов, структурируется и помещается в базу поисковой машины (индекс). Фактически индексацией занимается другой робот. Однако зачастую индексного бота считают частью или разновидностью поискового.
Скорость индексации у разных поисковых систем различается. «Яндекс» добавляет новые страницы в выдачу в течение нескольких дней, в то время как боты Google справляются с задачей за несколько часов.
Если сайт только запускается в работу, и поисковая система еще не знает ни одного его раздела, полное сканирование и индексация может занять несколько месяцев.
Роботы не ограничиваются разовым посещением интернет-ресурса. Они также отслеживают изменения и сообщают поисковой машине об удалении или перемещении уже проиндексированных страниц. Периодичность обхода при этом зависит от объема трафика, размера и глубины сайта, а также частоты обновления контента на нем.
Какие бывают роботы
Самые известные веб-пауки принадлежат поисковым системам. Их функция — добавлять и актуализировать данные в поисковой выдаче. Помимо основных роботов у каждого сервиса есть специализированные, которые скачивают изображения, видео, новости и т.д.
У Googlebot, главного поискового робота Google, есть несколько помощников: Googlebot-Image выполняет поиск изображений, Googlebot-Video отвечает за видео-контент, а Googlebot-News пополняет списки новостного портала.
«Яндекс» также отправляет отдельных пауков сканировать интернет для своих сервисов от «Маркета» до «Аналитики». А над обновлением поиска трудятся два главных робота — основной и быстрый под названием Orange.
Если стандартное индексирование страниц занимает от нескольких дней, то ускоренное позволяет добавить в поиск файлы, созданные минутой назад. В такую быстровыдачу попадают онлайн трансляции, новостные и букмекерские сайты и другие ресурсы, помогающие пользователю получать важную информацию в режиме реального времени.
Отобранные Orange страницы висят в специальной выдаче три дня, после чего заново индексируются основным роботом для размещения в общем каталоге поиска.
Важно понимать, что в ускоренный индекс попадает ограниченное количество ресурсов, отвечающих конкретным требованиям. Простой информационный или продающий ресурс с новостным отделом не попадет в ускоренную новостную индексацию.
Свои краулеры также есть у Mail.ru и менее популярных поисковых сервисов: Bing, Yahoo, DuckDuckGo, Baidu и др.
Роботов поисковых систем неофициально называются «вежливыми». Они не притворяются живыми пользователями и их посещения легко отслеживаются в инструментах аналитики. Каждый паук имеет уникальное имя — User-Agent.
Однако сканированием и индексированием страниц занимаются не только поисковые системы. Свои роботы (парсеры) есть у сервисов аналитики и SEO. Например, Amazonbot сканирует интернет для улучшения внутренних сервисов и обучения поискового ассистента Алексы.
В свою очередь, такие SEO инструменты, как Ahrefs Bot, Semrush Bot и Screaming Frog, собирают открытые данные для своих клиентов. С их помощью владелец страницы или маркетолог может проверить сайты конкурентов, выявить технические проблемы собственных ресурсов и выстроить стратегию продвижения.
Существует немало и так называемых «вредных» роботов. Они мимикрируют под пользовательские браузеры или копируют имена известных поисковых краулеров, чтобы парсить информацию с сайтов для дальнейшего коммерческого использования. На основе собранных ими данных создаются базы для холодных звонков и email-рассылок.
Проблемы, которые могут возникнуть при работе поисковых роботов
Неполная и медленная индексация сайтов
Чем больше страниц и поддоменов у сайта, тем сложнее роботу обойти его полностью. Если структура сайта не очевидна, а перелинковка отсутствует, полная индексация может растянуться на месяцы.
Ошибки в верстке и наличие дублей также замедляют попадание страниц в поисковую выдачу, что негативно сказывается на продвижении сайта.
Повышенная нагрузка на сервер
Частые набеги краулеров, имитирующих посещения живых пользователей, увеличивают нагрузку на серверы. Это может привести к перебоям в работе веб-ресурса и сделать его временно недоступным.
Роботы известных поисковых систем совершают обход по расписанию и придерживаются лимитов, поэтому обычно не перегружают серверы. Однако при публикации сразу нескольких сотен страниц, например, карточек интернет-магазина, пиковая нагрузка все же может вырасти в разы.
В этом случае специалисты поисковых машин советуют вручную ограничивать частоту обхода страниц роботами или настроить сервер так, чтобы он возвращал HTTP-код 429. Такой ответ считывается краулерами как сигнал о проблемах с нагрузкой, и они автоматически уменьшают число обращений к серверу.
Утечка незащищенной информации
По умолчанию робот обходит все известные ему страницы, если доступ к ним не закрыт владельцем сайта. Ошибки в настройках конфиденциальности и отсутствие запретов на индексацию приводят к утечкам материалов, не предназначенных для публикации в сети.
Так, в 2018 году в поисковой выдаче «Яндекс» появились данные клиентов банков и транспортных компаний. Незадолго до этого в открытом доступе также оказались личные документы пользователей Google Docs.
Как повлиять на работу роботов
Скорость обхода и оценка качества страниц зависит от их технического состояния. Устранение проблем хостинга, настройка редиректов, удаление неработающих ссылок и дублей страниц повышает шансы на быструю индексацию и размещение веб-ресурса на первой странице поисковой выдачи. Эти операции входят в комплекс мероприятий по оптимизации и продвижению сайта в поисковых системах (SEO).
Самый простой способ ускорить индексацию страниц — внедрить на сайт системы веб-аналитики, принадлежащие поисковым сервисам. Например, Google Analytics, «Яндекс.Метрику» и Рейтинг@Mail.ru.
Следующий шаг — подключение сайта к инструментам Google Search Console и «Яндекс.Вебмастер». Они позволяют отследить статус обхода страниц и исправить технические ошибки, мешающие индексации.
Повысить эффективность обхода интернет-ресурса также можно с помощью файлов — sitemap и robots. Их робот смотрит в первую очередь. При добавлении на сайт нового раздела необходимо сразу сообщить об этому роботу, добавив страницы в карту сайта (sitemap.xml). Здесь же с помощью тегов priority и changefreq указывается частота обновления контента и приоритет индексирования страниц.
В файле robots.txt прописываются рекомендации для роботов и настраивается запрет на индексацию отдельных страниц.
Обычно разработчики сайтов закрывают от глаз краулеров личные кабинеты, формы и корзины пользователей. Чтобы избежать утечек конфиденциальных документов и изображений, важно также помещать их только в недоступных боту разделах сайта под тегом noindex.