Сравнительный обзор поисковых систем

Когда пользователю необходимо найти информацию, доступную в Интернете, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию. Здесь могут использоваться ключевые слова, даты и другие критерии.

Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

Для сервиса FTP, была разработана система поиска и выдачи информации Archie. Поиск производится по названию файлов или каталогов. Возможен поиск по словам, содержащимся в кратких описаниях файлов (аналог аннотаций).

Развитие информационных технологий хранения и поиска данных в сети привело к созданию распределенной информационно-справочной системе Gopher. В основе системы лежит представление информации в форме иерархического дерева по аналогу с деревом каталогов в операционных системах (разрабатывалась для продвинутых студентов университетов штата Миннесота). Информация хранится в виде электронных каталогов на Gopher-серверах, образуя так называемое Gopher-пространство. Универсальной поисковой системой считается Veronica, сканирующая Gopher-пространство, как простую текстовую базу данных. Поиск осуществляется на основе ключевых слов.

Lycos. В Lycos (рис. 4.4) используется следующий механизм индексации:

1. Слова в заголовке имеют высший приоритет.

2. Слова в начале страницы.

3. Слова в ссылках.

4. Если в его базе индекса есть сайты, ссылка с которых указывает на индексируемый документ, то релевантность этого документа возрастает.

Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению.

Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа «Like this», но намечается его расширение и на другие способы организации поисковых предписаний.

Рис. 4.4. Фрагмент интерфейса Lycos

AltaVista. Индексирование в этой системе (рис. 4.5) осуществляется при помощи робота, который при этом имеет следующие приоритеты:

1. Слова в теге имеют высший приоритет; ключевые фразы в тэгах.

2. Ключевые фразы, находящиеся в начале странички.

3. Ключевые фразы в ALT-ссылках

4. Ключевые фразы по количеству вхождений\присутствия слов\фраз.

Если тэгов на странице нет, использует первые тридцать слов, которые индексирует и показывает вместо описания (tag description)

Наиболее интересная возможность AltaVista — это расширенный поиск. Здесь стоит сразу оговориться, что в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей.

К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Рис. 4.5. Фрагмент интерфейса AltaVista

OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт

в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

Infoseek. В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:

1. Слова в заголовке имеют наивысший приоритет.

2. Слова в теге keywords, description и частота вхождений\пов- торений в самом тексте.

3. При повторении одинаковых слов рядом выбрасывает из индекса.

4. Допускает до 1024 символов для тега keywords, 200 символов для тэга description;

5. Если тэги не использовались, индексирует первые 200 слов на странице и использует как описание.

Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков: «+» — термин обязан быть в документе, «-» — термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском.

Это значит, что, используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Можно также указать, что некоторые слова должны совместно встречаться не только в одном документе, но и в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Таким образом,

Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS. Дальнейшее совершенствование сети привело к созданию сервиса WAIS — распределенной поисковой, осуществляющей поиск в сети по ключевым словам. Результат поиска представляется в виде списка файлов, расположенных по убывающей на основе частоты встречаемости или местоположения.

WAIS является одной из наиболее изощренных поисковых систем Интернета. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии «Британика» на Internet.

Для использования расположенной в Интернете информации в научных, образовательных, коммерческих целях была разработана технология World Wide Web, позволяющая связывать информацию из различных источников и делать ее доступной из любой точки Сети. Характерная особенность WWW — использование гипертекстовых технологий. Само понятие гипертекста возникло задолго до появления Сети. Главная идея гипертекста — нелинейная навигация по тексту, заключающаяся в том, что элементы документа образуют структурную или ассоциативную сеть, движение по которой определяется пользователем в момент просмотра текста (например: справочная система Windows и Windows совместимых приложений генерирует справку с контекстной привязкой к текущей ситуации на экране либо с помощью помощника, ключевых слов, дерева каталогов).

Для гипертекстовых систем характерны «меню ориентированные» способы работы.

Приведем несколько определений гипертекста:

1) многомерное текстовое пространство, построенное на ассоциативных связях внутри и между документами;

2) нелинейная последовательность записи и чтения информации, основанная на объединении ассоциативно связанных блоков информации;

3) способ хранения и манипулирования информацией, при котором она представлена в виде сети связанных между собой узлов;

Каждый узел может содержать:

а) текст, графику, видео, аудио информацию;

б) доступ к узлам (просмотр и манипулирование) в интерактивном режиме.

Наиболее распространенные поисковые системы Сети используют как классификационный, так и вербальный принципы построения, но степень развития их в конкретных системах неодинакова.

Yahoo! Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на «общие» слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

На верхнем уровне содержится 13 разделов (категорий). Общее число рубрик (разделов, подразделов и т.д.) составляет более 25 тысяч. Очень подробная и продуманная схема классификации Yahoo! оказалась при подробном анализе достаточна близка к УДК (из 50 наиболее популярных категорий только 4 не подпадают под DDC или УДК). Yahoo! объективно отражает все отрасли знания без приоритетов, учитывая не только веб-сайты, телеконференции, чаты.

Поиск может осуществляться путем ввода ключевых слов в поисковую строку (рис. 4.6) либо путем просмотра поисковых категорий. В верхней части экранного интерфейса располагаются типовые классификационные индексы Интернет.

К ним относятся (рис. 4.7): Интернет; Покупки; Спорт; Знакомства; СМИ.

Рис. 4.6. Фрагмент интерфейса ввода запросов в системе Yahoo!

Рис. 4.7. Схема классификационной системы Yahoo!

В средней части экранного интерфейса располагается основной ряд классификационных индексов Web Site Directory (рис. 4.7), содержащий рубрики «Экономика и Бизнес», «Образование», «Здравоохранение», «Компьютеры и Интернет» и т.д. Поиск по индексам разворачивает выстроенные в иерархическом

порядке пункты меню, постепенно сужающие и конкретизирую-

щие тему. В нижней части экранного интерфейса (рис. 4.8) расположены дополнительные классификационные индексы: географические Local Yahoo!s (ограничивают поиск по месту) и расширенные More Yahoo! (инструкции, малый бизнес, предпринимательство и т.д.).

Рис. 4.8. Схема дополнительной классификационной системы Yahoo!

К недостатку системы Yahoo! следует отнести высокий процент ссылок на устаревшие источники, что свидетельствует об отсутствии механизмов автоматической проверки актуальности отраженных материалов, а огромные объемы документов затрудняют поддержание справочника в актуальном состоянии.

Yandex. Основным инструментом автоматизированного поиска в Интернет следует считать вербальные поисковые системы. Наиболее крупной и развитой вербальной информационно-поисковой системой в Российском Интернете (Рунете) обладает Yandex. Это оригинальная разработка фирмы CompuTek.

Яндекс содержит более 600 тыс. уникально проиндексированных серверов, количество документов превышает 70 млн. вебстраниц. Поиск выполняется с учетом русской морфологии на основе очень мощного языка запросов.

Поиск осуществляется путем ввода ключевых слов в поисковую строку (рис. 4.9).