- /
- /
- /
- /
- /
Стемминг
Определение
Cтемминг представляет собой подбор корня слова по морфологии исходника. То есть по сути стемминг проводит морфологический анализ слова, выделяя общую для отдельных его форм основу (корень), убирая префиксы, окончания и суффиксы.
Для чего используется
Поисковые роботы используют стемминг, благодаря чему эффективнее подыскивают отдельные документы и тексты в сети с учетом морфологических форм слова. Так, если пользователь ввел в поисковой строке запрос, то робот автоматически при составлении выборки учитывает все словоформы. Например, при составлении поискового запроса «носить», в выдачу попадут и словоформы, содержание основу: «приносить», «носят», «носила», «ношенный».
Анализатор стемминга mystem
Для улучшения работы поискового алгоритма корпорация Яндекс разработала сервис mystem, доступный также для домашнего использования. Версии были выпущены для Виндовс, Линакс, Мак и т. д.
Сервис позволяет привести любое слово к словарной форме, высчитать количество словоформ в русском языке, получить детальные грамматические характеристики.
В первой версии также был реализован морфологический разбор английских слов.
Сейчас анализатор использует словарь наиболее употребляемых русских слов, предлагая возможную начальную форму.
Примечательно, что mystem классифицирует словоформы несогласованно с общепринятыми принципами.
- Времена бывают прошедшие и не прошедшие.
- В список слоформ включаются глаголы, которые могу отличаться префиксами и суффиксами, видами (совершенный и несовершенный).
Анализатор послужил базой для разработки программного обеспечения, которое проводит морфологическую разметку Национального корпуса русского языка.