Агенты и кроулеры, роботы
Агенты — самые «интеллектуальные» из поисковых средств. Кроме собственно функций поиска, они могут:
1) выполнять транзакции от Вашего имени;
2) искать cайты специфической тематики и возвращать списки cайтов, отсортированных по индексу цитируемости или посещаемости;
3) обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы;
4) программироваться для извлечения информации из уже существующих баз данных.
Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.
Агенты извлекают и индексируют различные виды информации. Индексация может осуществляться различными способами, в числе которых:
— индексирование отдельных слов во встречающемся документе;
— индексирование только наиболее важных ста слов в каждом;
— индексирование размера документа и число слов в нем;
— индексирование названия, заголовка и подзаголовка.
Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.
Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.
Пауки — это программы, осуществляющие общий поиск информации в Сети. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию, просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
Кроулеры — это программы, просматривающие заголовки и возвращающие только первую ссылку.
Роботы могут программироваться так, чтобы можно было переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако имеются методы, предназначенные для того, чтобы можно было запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.
Роботы могут использоваться для выполнения множества полезных задач, таких как статистический анализ, обслуживание гипертекстов, исследование ресурсов или зазеркаливание страниц.
Зазеркаливание — популярный механизм поддержания FTP- архивов. Зеркало рекурсивно копирует полное дерево каталогов по FTP, а затем регулярно перезапрашивает те документы, которые изменились. Это позволяет распределить загрузку между несколькими серверами, успешно справиться с отказами сервера и обеспечить более быстрый и более дешевый локальный доступ, так же как и автономный доступ к архивам.
4.17.