- /
- /
- /
- /
Алгоритм Королев
Для чего разработан алгоритм
Новая версия поисковой системы Яндекс была запущена в 2017 году, и в ее основу был положен новый алгоритм «Королёв». Последний использует нейронную сеть, что позволяет сопоставлять смысл ключевых запросов и содержание веб-страниц, а затем самому поисковику более точно формировать поисковую выборку. Для этой новой версии поиска была применена накопленная годами поисковая статистика и обратная связь от миллионов пользователей. Таким образом посетители сайтов и разработчики совместно делают вклад в развитие поисковой системы. И первым шагом к разумному поиску по смыслу стала разработка алгоритма «Палех» на базе нейронной сети. Последняя обучалась самостоятельно превращать запросы пользователей и заголовки интернет-страниц в так званые семантические векторы в числовом выражении. Ключевой функцией была возможность сопоставлять их друг с другом, и чем сильнее обнаруживалось сходство, тем ближе по смыслу находились по отношению друг к другу заголовок и запрос пользователя.
Принцип работы алгоритма Королев
Последний предназначен, как и Палех, для сопоставления семантических векторов страниц и запросов пользователей. Разница только в том, что Королев учитывает не только заголовки страниц, а в целом весь контент, что позволяет освоить новую ступень понимания смысла.
За преобразование текстов страниц в числовые векторы отвечает нейронная сеть, задействуя максимум доступных вычислительных ресурсов. Королев вычисляет векторы веб-страниц еще на этапе индексирования, а не в режиме реального времени. Так, когда пользователь формирует поисковый запрос, алгоритм производит сравнение его числового вектора с уже высчитанными векторами различных страниц. В результате этой схемы на ранних этапах ранжирования производится подбор тех страниц, которые максимально соответствуют поисковому запросу по смыслу. В Палехе же анализ по смыслу является одной из финальных стадий, так как он пропускает через себя только 150 документов. Алгоритм Королев способен анализировать до 200 тысяч документов, кроме того, он не только осуществляет сравнение контента страниц с запросами пользователей, но и берет в учет другие запросы, по которым люди ранее попадали на эти страницы. В конечном итоге это позволяет сформировать дополнительные смысловые связи.
Машинное обучение и роль пользователей
Благодаря применению нейронных сетей и машинного обучения в будущем поисковые системы смогут полноценно управлять смыслами на уровне человеческого мышления. Однако, реальные люди по-прежнему являются главными помощниками в развитии поисковых машин. Так, чтобы робот понял, как именно решать поставленную задачу, ему необходимо продемонстрировать достаточное количество как отрицательных, так и положительных примеров. Подобный опыт своей активностью предоставляют пользователи Яндекса.
Нейронная сеть, на базе которой был создан алгоритм Королев, также обучается на обезличенной собранной статистике. Последняя учитывает, какие страницы посетители выбирают по различным поисковым запросам и как долго они находятся на интересующем сайте. Так, если пользователь открыл страницу и остался там надолго, то велик шанс, что он нашел интересующую его информацию, то есть страница полностью ответила на поисковый запрос. Это и является положительным примером для алгоритма.
Для развития системы поиска пользователи сети должны оставлять обратную связь о работе. Ранее выставление оценок входило в компетенцию сотрудников Яндекса, и даже была соответствующая должность – аксессор. Сейчас для привлечения всех желающих давать обратную связь был внедрен сервис Яндекс.Толока. Посетители могут пройти регистрацию и приступить к анализу качества поиска, напрямую способствуя улучшению различных сервисов системы.
Итак, в основе любой поисковой системы лежат достаточно сложные алгоритмы, которые постоянно совершенствуются. Этому способствуют и профессиональные разработчики, и миллионы пользователей отечественного интернета. Так, любой сформированный поисковый запрос является обратной связью, которая обучает роботов лучше понимать людей.