<<
>>

Документы, информационно-поисковый язык, поисковые массивы

Понятие документа меняется с течением времени, постоянно появляются новые формы документов, изменяются старые. Российский государственный стандарт (РСТ) определяет документ как средство накопления любым способом на специальном материале любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека.

Существуют различные классификации документов, наиболее существенной является деление документов на первичные и вторичные. К первичным документам относятся документы, исходящие от автора. К вторичным — документы, являющиеся обработкой одного или нескольких первичных. Документы имеют различные формы представления. В автоматизированных поисковых системах это прежде всего текстовая информация на естественных языках в машиночитаемой форме. Для поиска документов существенное значение имеет его внутренняя структура. Такая структура документов может разрабатываться специально для конкретной ИПС или задаваться стандартами.

Важнейшим компонентом ИПС является информационнопоисковый язык. Во всех случаях описания документов используются сокращения (аннотации, рефераты, каталоги), производимые на естественных языках. Отбор документов в информационных системах осуществляется с помощью специальных информационных языков. Основные требования к таким языкам сводятся:

— к однозначности между планом выражения и планом содержания (каждая лексическая единица соотносится с одним понятием и наоборот);

— к достаточной семантической силе (к способности фиксировать с достаточной полнотой и точностью все существенное в содержании документов и запросов);

— к открытости (к возможности пополнения содержания языка).

Информационные массивы в ИПС организуются по двум

схемам — прямой и инвертированной.

Прямая схема реализуется следующим образом: каждая запись массива содержит поисковый образ очередного документа, представленный набором дескрипторов: ключевых слов, терминов или других поисковых признаков kw (табл.

4.1). Это подокумент- ная организация массива. Весь массив может быть упорядочен по любому признаку (например, по номеру документа D).

Таблица 4.1

Идентификатор документа (ПОД) Дескрипторы, ключевые слова или другие поисковые элементы
D1 Kw2 Kw4 Kw5
D2 Kw1 Kw2 Kw3 Kw4
D3 Kw2 Kw5

Полный ответ на запрос может быть получен лишь при условии сплошного просмотра массива.

В инвертированных схемах массивы организованы на принципе обеспечения доступа к документам через их идентификаторы (табл. 4.2):

Таблица 4.2

Поисковые элементы данных Идентификатор документа (ПОД)
Kw1 D2
Kw2 D1 D2 D3
Kw3 D2
Kw4 D1 D2
Kw5 D1

Инвертированную схему получают путем обработки массива с прямой организацией и создания специальных файлов — точек доступа (индексных файлов, индексов). Просмотр инвертированного массива по поисковым признакам, содержащимся в запросе, значительно упрощает доступ к документам. Недостаток заключается в необходимости постоянного переформирования массивов после ввода новых документов, а также в большом объеме дискового пространства, необходимого для хранения инвертированных массивов.

4.6.

<< | >>
Источник: Н.В.Абрамов и др.. Информационные системы в медицине: Учебное пособие— Нижневартовск: Изд-во Нижневарт. гуманит. ун-та,2008. — 171 с.. 2008

Еще по теме Документы, информационно-поисковый язык, поисковые массивы: