Поисковые системы, механизмы поиска
Архитектура поисковой системы имеет вид (рис. 4.3), а поисковые системы обычно содержат три компонента:
1. Агент (или паук, или кроулер, или робот), который перемещается по Сети и собирает информацию.
2. Поисковая база данных, которая содержит всю информацию, собираемую пауками.
3. Поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
Средства поиска и структурирования информации в Сети, называют поисковыми механизмами.
Рис. 4.3. Архитектура поисковой системы
Эти специальные программы занимаются поиском Веб-сайтов и страниц в Сети, извлекают гипертекстовые ссылки, автоматически индексируют их и используют для построения базы данных.
Веб-сайты — все информационные ресурсы Интернет, просмотр которых обеспечивается программами. Агент (разновидности — паук, кроулер, робот) — система, обеспечивающая сканирование Интернет и поддержание инвертированного файла в актуальном состоянии. Этот программный комплекс является основным источником информации о состоянии ресурсов сети. Для обхода веб-сайтов используется теория графов. Обход дерева графов осуществляется тремя способами, а именно:
1) случайный выбор URL-адреса;
2) обход с наиболее популярных веб-узлов;
3) на основе системы имен или кодов стран (в этом случае выделяется дополнительная программа Робот).
Поисковая база данных — специальным образом организованная база (индекс), включающая инвертированный файл, состоящий из лексических единиц, проиндексированных вебдокументов, лексем, определяющих их позицию в документах и на сайте в целом.
База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных.
Для определения порядка, в котором список документов будет показан, база данных применяет алгоритм ранжирования.
В идеальном случае документы, наиболее релевантные пользовательскому запросу, будут помещены первыми в списке.Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:
1) количество слов запроса в текстовом содержимом документа (т.е. в html-коде);
2) тэги, в которых эти слова располагаются;
3) время — как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Существует много сайтов, живущих максимум месяц. Если сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой;
4) индекс цитируемости — как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
База данных выводит ранжированный подобным образом список документов с HTML и возвращает его пользователю, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка: некоторые показывают только ссылки; другие выводят ^ылки на первые предложения, содержащиеся в документе, или заголовок документа вместе со ссылкой. При заполнении базы данных сотрудники базы могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они помещают свою информацию. Эти данные передаются базе данных.
Поисковая система — подсистема поиска, обрабатывающая поисковые предписания пользователя, поиск в базе и выдачу результатов поиска.
Клиент — программа просмотра информационных ресурсов (Opera, Netscape Navigator, Internet Explorer).
Пользовательские интерфейсы — экранные формы общения пользователя с поисковым аппаратом.
Каждый поисковый механизм имеет собственный набор правил сбора документов. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц. Другие игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации. Третьи игнорируют ссылки к ресурсам типа баз данных WAIS. Четвертые проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.
4.16.