| |||||
|
| ||||
|
CITFORUM.RU >>> ПРОГРАММИРОВАНИЕ >>> /programming/khramtsov/search.shtml |
Назначение:
Свободный поиск информации в информационных массивах по совокупности признаков (обычно ключевых слов) - ретро-поиск
Поиск информации по заранее подготовленным запросам с определенной периодичностью - избирательное распространение информации.
Основные причины существования ИПС:
Навигация
Информационный поиск
Иерархические, фасетные классификации
Модели индексирования и поиска:
Типы информационно поисковых языков:
Способы коррекции результатов поиска
Векторная модель:
Запрос к системе:
Lxq=r
где
q -вектор запроса
r - вектор отклика
Традиционный ИПЯ:
((информационная and система) or ИПС) not СУБД
Найти все документы, в которых встречается термин
"информационная" и "система", либо термин "ИПС", но не встречается термин
"СУБД".
Недостатки:
Плохая масштабируемость выдачи. OR приводит к слишком большому расширению списка релевантных документов, а AND резко сужает отклик.
Модификации:
Взвешенный запрос (каждому термину приписывают некоторый вес)
M - число терминов запроса; Qj - j-ый термин запроса; N - число WWW страниц в индексе; Pi - i-ая страница; Ri,q - релевантность страницы i запросу q; Lii,k - 1 если из документа k есть ссылка на документ i, 0 в противном случае; Loi,k - 1 если из документа i есть ссылка на документ k, 0 в противном случае. Ci,j - 1 если страница i содержит термин j, 0 в противном случае. (1) (2) (3) (4)
(Budi Yuwono, Dik L.Lee. Search and Ranking Algorims for Locating Resources on the World Wide Web)
Основное назначение о области применения:
Состав индексов различных систем
( http://www.bubl.bath.ac.uk/BUBL/IWinship.html)
WWWW | WebCraw. | Lycos | Harvest | Galaxy | Yahoo | |
URL
telnet gopher ftp WWW |
* |
* |
* * * |
* |
* * |
* |
заголовки | * | * | * | * | * | * |
текст | * | * | ||||
весь текст | * | |||||
Объем | 4.2Мл док. | 42000 объектов |
Тестовый запрос:
"Best on the Web"
Использовались следующие механизмы улучшения запроса:
Система | тип ИПЯ | Коррекция | тест |
Lycos | Like this | + | 10 |
Altavista | exp.bul. | + | 1 |
Yahoo | bul. | - | 3 |
OpenText | bul.ord. | - | 5 |
InfoSeek | bul.weight | - | - |
|
Быстрый переход >>> |
Комментарии: mailto:info@citmgu.ru?Subject='From bottom of CIT FORUM' | Copyright © |
Mirrored by КФ НТЦ "Атлас", webmaster@krasnodar.ru |