Что такое Яndex

Продолжается информационный бум, в частности, его электронно-компьютерная часть - растут количество и объемы серверов в WWW, увеличиваются мощности локальных сетей. Многим людям ежедневно приходится иметь дело с большими объемами текстов - это и новости, и официальные документы, и подшивки газет в электронном виде, и электронная почта, и Web-страницы, и документация. Очень важно уметь быстро искать и находить в этом море действительно нужную информацию. Уже давно во всем мире крупнейшие компьютерные корпорации разрабатывают всевозможные средства интеллектуализации поиска... но без учета нашего "великого и могучего, правдивого и свободного", на 80% изменяемого русского языка.

Яndex - это полнотекстовая ИПС (информационно-поисковая система) с учетом морфологии русского языка.

ИПС подразумевает предварительную обработку текста, в том числе составление некоторого индекса, по которому затем происходит поиск. ИПС может быть организована как БД (база данных) с текстовыми полями. Другой вариант организации ИПС - работа с внешними текстами. В этом случае тексты остаются "как есть" - то есть файлами в файловой системе, страницами на сервере или полями какой-то БД, а не затягиваются внутрь системы.

Полнотекстовый поиск - поиск по текстовым документам различных форматов. Это могут быть текстовые поля баз данных, тексты стандартных форматов - txt, doc, html, rtf, xls. Под текстом подразумевается набор слов (выделенную по некоторым правилам последовательность букв), чисел и марок (смеси букв и цифр или букв разных алфавитов).

Система с учетом морфологии языка умеет для всех слов этого языка делать анализ, то есть понимать, формой какого слова они являются. Каждое слово языка в начальной форме имеет парадигму - совокупность всех своих словоформ, полученных при изменении слова по числам, падежам, родам и временам.

Яndex представляет собой системное ядро, общее для всех продуктов с этим префиксом (Яndex.Site, Яndex.Lib, Яndex.Dict, Яndex.CD, Яndex.Web).

Главная