<<
>>

Поисковые системы, механизмы поиска

Архитектура поисковой системы имеет вид (рис. 4.3), а поисковые системы обычно содержат три компонента:

1. Агент (или паук, или кроулер, или робот), который перемещается по Сети и собирает информацию.

2. Поисковая база данных, которая содержит всю информацию, собираемую пауками.

3. Поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Средства поиска и структурирования информации в Сети, называют поисковыми механизмами.

Рис. 4.3. Архитектура поисковой системы

Эти специальные программы занимаются поиском Веб-сайтов и страниц в Сети, извлекают гипертекстовые ссылки, автоматически индексируют их и используют для построения базы данных.

Веб-сайты — все информационные ресурсы Интернет, просмотр которых обеспечивается программами. Агент (разновидности — паук, кроулер, робот) — система, обеспечивающая сканирование Интернет и поддержание инвертированного файла в актуальном состоянии. Этот программный комплекс является основным источником информации о состоянии ресурсов сети. Для обхода веб-сайтов используется теория графов. Обход дерева графов осуществляется тремя способами, а именно:

1) случайный выбор URL-адреса;

2) обход с наиболее популярных веб-узлов;

3) на основе системы имен или кодов стран (в этом случае выделяется дополнительная программа Робот).

Поисковая база данных — специальным образом организованная база (индекс), включающая инвертированный файл, состоящий из лексических единиц, проиндексированных вебдокументов, лексем, определяющих их позицию в документах и на сайте в целом.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных.

Для определения порядка, в котором список документов будет показан, база данных применяет алгоритм ранжирования.

В идеальном случае документы, наиболее релевантные пользовательскому запросу, будут помещены первыми в списке.

Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

1) количество слов запроса в текстовом содержимом документа (т.е. в html-коде);

2) тэги, в которых эти слова располагаются;

3) время — как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Существует много сайтов, живущих максимум месяц. Если сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой;

4) индекс цитируемости — как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его пользователю, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка: некоторые показывают только ссылки; другие выводят ^ылки на первые предложения, содержащиеся в документе, или заголовок документа вместе со ссылкой. При заполнении базы данных сотрудники базы могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они помещают свою информацию. Эти данные передаются базе данных.

Поисковая система — подсистема поиска, обрабатывающая поисковые предписания пользователя, поиск в базе и выдачу результатов поиска.

Клиент — программа просмотра информационных ресурсов (Opera, Netscape Navigator, Internet Explorer).

Пользовательские интерфейсы — экранные формы общения пользователя с поисковым аппаратом.

Каждый поисковый механизм имеет собственный набор правил сбора документов. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц. Другие игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации. Третьи игнорируют ссылки к ресурсам типа баз данных WAIS. Четвертые проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

4.16.

<< | >>
Источник: Н.В.Абрамов и др.. Информационные системы в медицине: Учебное пособие— Нижневартовск: Изд-во Нижневарт. гуманит. ун-та,2008. — 171 с.. 2008

Еще по теме Поисковые системы, механизмы поиска: