Что такое "поисковые системы"?
World Wide Web - одна из наиболее динамично развивающихся технологий передачи и представления данных в глобальных сетях. Число Web-серверов и страниц постоянно увеличивается, а разобраться в этом многообразии становится все труднее. Шансы отыскать нужную информацию, просто двигаясь по гиперссылкам со странички своего Internet-провайдера, очень малы, плохим помощником является реклама в газетах и на телевидении, немного пользы и от разговоров с друзьями - всей этой информации просто недостаточно. Если Вы вошли в город WWW без карты, считайте, что Вы уже заблудились, а путь обратно найти будет практически невозможно... Так что же является такой "картой"?
Помочь пользователю найти нужную информацию в Сети призваны поисковые системы (Search engines). В поиске нужных ресурсов пользователь вводит одно или несколько ключевых слов, которые, по его мнению, лучше всего отражают суть интересующего вопроса. Поисковая система за считанные секунды просматривает весь собственный каталог web-ресурсов, состоящий из десятков и сотен гигабайт информации. В результате пользователю предлагается список ссылок на страницы, в которых встречаются указанные слова. Эта базовая схема поиска реализована с разнообразными улучшениями и расширениями практически на всех поисковых системах мира. В частности, существуют системы, позволяющие вводить запрос на естественном языке (например: "Что известно о..."), системы, в которых реализованы тематические каталоги для облегчения поиска, и т.д. Кроме того, почти все системы предпринимают попытки интеллектуального анализа содержимого страниц для улучшения качества поиска и вывода нужной информации.
Все поисковые системы (поисковые службы, поисковые серверы) делятся на поисковые машины (роботы, указатели) и поисковые каталоги. Понимание разницы между ними очень поможет при выборе инструмента поиска. Поисковые машины - это системы, состоящие из 2 частей. Одна из них (с ней работает пользователь) осуществляет поиск в своем справочнике web-страниц (он называется "индексом"). Другая часть - это сложная программа, которая постоянно связывается с Web-серверами по всему миру, загружает с них все доступные документы, анализирует содержимое и включает документы в индекс. Эта часть системы называется "краулером" (crawler, spider - "ползун"). Каждая поисковая система имеет своего собственного "спайдера" со своими собственными "повадками". Каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже разные. Поэтому, произведя запрос по определенным ключевым словам или выражениям, мы будем иметь разные результаты для каждой из поисковых систем.
В отличие от поисковых машин, информация в поисковые каталоги добавляется только по инициативе пользователя. Страница добавляется в строго определенный раздел каталога, который связан с темой, освещаемой на странице. Из таких разделов образуется мощный рубрикатор, двигаясь по которому можно обнаружить страницы по любой более-менее популярной теме. Впрочем, не обязательно двигаться по темам, в любом солидном каталоге есть система поиска, в которой также можно ввести ключевые слова, что значительно уменьшает затраченное пользователем время.
Также существуют некоторые поисковые системы (Excite, InfoSeek), которые имеют при себе и каталог. Соответственно, индексы для самой поисковой системы добываются "краулером", а каталог пополняется модераторами системы.
Иногда в Интернете встречаются полнотекстовые поисковые системы (Full-text search engine). Они индексируют абсолютно все слова и словосочетания на web-странице и учитывают порядок их расположения. В отличие от них, абстрактные поисковые системы по определенному алгоритму создают некий "экстракт" проиндексированной страницы, что значительно облегчает задачу поиска для пользователя.
Как
искать?
Всемирные поисковые системы и каталоги уже довольны известны по всему миру даже тем, кто практически ничего не знает о развитии компьютерных, а тем более, Internet-технологий. С каждым годом к их услугам обращается все больше людей, однако вот тут и возникает вопрос: "А как искать?" Ответ на него довольно прост и лаконичен.
Наиболее распространенным в Интернете является поиск по ключевым словам, т.е. поиск документов, которые содержат в точности указанный текст.
Менее распространен поиск с использованием операндов булевой алгебры, таких, например, как AND, NOT и OR. Использование операндов существенно увеличивает эффективность поиска. Если ввести в поисковую систему запрос: (толстый OR крупный) AND богатый AND (NOT умный). Мы получим линки на страницы, отвечающие следующим критериям:
· содержат слово "богатый";
· содержат либо "толстый", либо "крупный";
· не содержат слово "умный".
Новинка в области поиска в Интернете - Proximity search (поиск с расстоянием). Это поиск, при котором пользователь указывает, на каком расстоянии между собой должны располагаться ключевые слова в документе. Например, для русскоязычной поисковой системы "Яndex" (www.yandex.ru) при запросе: "толстый /4 богатый" Вы требуете найти документы, в которых содержится и слово "толстый", и слово "богатый", и расстояние между ними должно быть не более четырех слов.
Еще один вид поиска - Query-By-Example (find similar, найти подобные). Этой полезной функцией обладает лишь часть поисковых систем. При просмотре результатов первоначального поиска Вы выбираете документ или группу документов, наиболее близких к тому, что Вы ищете, и даете системе команду "найти подобные документы" (Апорт (www.aport.ru), Яndex).
Очередной поиск - расширенный запрос (Query Expansion) - процесс построения нового запроса на базе предыдущего. Например, одна из наиболее известных поисковых систем - AltaVista (www.altavista.com) - позволяет разрядить многотысячный список с результатами поиска путем удаления оттуда документов по определенным критериям.
Поиск в определенных полях (Search by Field) позволяет производить поиск не только по всему html-документу, но и выборочно, по определенным полям. Например, можно искать по заголовку документа (title), в этом случае учитываются только ключевые слова, встречающиеся именно в заглавии документа.
Существует поиск по полю ALT тега IMG, такой поиск используется при нахождении в Интернете изображения на определенную тему.
Возможен и поиск по текстам в гиперссылках, адресах, заголовках разделов. Например, в российской системе Рамблер (www.rambler.ru) по запросу "$TITLE: реклама and $URL: ресурсы" система найдет все страницы, содержащие слово "реклама" в заголовке, и, помимо этого, хотя бы одну имеющуюся на странице ссылку, содержащую слово "ресурсы".
Морфологический поиск (Stemming): возможность системы искать слово в документах не только в строго заданном виде, но и во всех его морфологических формах. Например, не только "идти", но и "идет", "шел" и т.д. Явный пример этого поиска - каталог "Yahoo!".
В мире поиска Internet существует такое понятие, как "Weighting" (Весовой коэффициент). Он способствует увеличению релевантности документа не только с помощью количества содержащихся в нем ключевых слов, но и по расположению в документе. Больший "вес" имеют слова в заголовке страницы, слова, выделенные тегами <H1-H6>, <B>, <STRONG>, слова, находящиеся ближе к тегам <HTML> и <BODY> документа.
При поиске пользователь может также указывать системе важность того или иного слова в запросе. Например, в системе "Рамблер" по запросу: "-Коза ++Овца" при выдаче результатов большую релевантность получат страницы, содержащие "Овца", меньшую - "Коза".