Документы, информационно-поисковый язык, поисковые массивы

Понятие документа меняется с течением времени, постоянно появляются новые формы документов, изменяются старые. Российский государственный стандарт (РСТ) определяет документ как средство накопления любым способом на специальном материале любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека.

Существуют различные классификации документов, наиболее существенной является деление документов на первичные и вторичные. К первичным документам относятся документы, исходящие от автора. К вторичным — документы, являющиеся обработкой одного или нескольких первичных. Документы имеют различные формы представления. В автоматизированных поисковых системах это прежде всего текстовая информация на естественных языках в машиночитаемой форме. Для поиска документов существенное значение имеет его внутренняя структура. Такая структура документов может разрабатываться специально для конкретной ИПС или задаваться стандартами.

Важнейшим компонентом ИПС является информационнопоисковый язык. Во всех случаях описания документов используются сокращения (аннотации, рефераты, каталоги), производимые на естественных языках. Отбор документов в информационных системах осуществляется с помощью специальных информационных языков. Основные требования к таким языкам сводятся:

— к однозначности между планом выражения и планом содержания (каждая лексическая единица соотносится с одним понятием и наоборот);

— к достаточной семантической силе (к способности фиксировать с достаточной полнотой и точностью все существенное в содержании документов и запросов);

— к открытости (к возможности пополнения содержания языка).

Информационные массивы в ИПС организуются по двум

схемам — прямой и инвертированной.

Прямая схема реализуется следующим образом: каждая запись массива содержит поисковый образ очередного документа, представленный набором дескрипторов: ключевых слов, терминов или других поисковых признаков kw (табл.

4.1). Это подокумент- ная организация массива. Весь массив может быть упорядочен по любому признаку (например, по номеру документа D).

Таблица 4.1

Идентификатор документа (ПОД)	Дескрипторы, ключевые слова или другие поисковые элементы
D1		Kw2		Kw4	Kw5
D2	Kw1	Kw2	Kw3	Kw4
D3		Kw2			Kw5

Полный ответ на запрос может быть получен лишь при условии сплошного просмотра массива.

В инвертированных схемах массивы организованы на принципе обеспечения доступа к документам через их идентификаторы (табл. 4.2):

Таблица 4.2

Поисковые элементы данных	Идентификатор документа (ПОД)
Kw1		D2
Kw2	D1	D2	D3
Kw3		D2
Kw4	D1	D2
Kw5	D1

Инвертированную схему получают путем обработки массива с прямой организацией и создания специальных файлов — точек доступа (индексных файлов, индексов). Просмотр инвертированного массива по поисковым признакам, содержащимся в запросе, значительно упрощает доступ к документам. Недостаток заключается в необходимости постоянного переформирования массивов после ввода новых документов, а также в большом объеме дискового пространства, необходимого для хранения инвертированных массивов.

4.6.

<< | >>

↑

Источник: Н.В.Абрамов и др.. Информационные системы в медицине: Учебное пособие— Нижневартовск: Изд-во Нижневарт. гуманит. ун-та,2008. — 171 с.. 2008

Еще по теме Документы, информационно-поисковый язык, поисковые массивы:

- Акушерство и гинекология - Ветеринария - Диагностика заболеваний - Здравоохранение - Информационные технологии в медицине - История медицины - Клинические методы диагностики - Кожные и венерические болезни - Лечение болезней сердца - Логопедическая работа - Медико-социальная экспертиза - Медицинская паразитология - Медицинская этика - Менеджмент в здравоохранении - Наследственные, генные болезни - Неврология и нейрохирургия - Нефрология - Онкология - Организация системы здравоохранения - Оториноларингология - Офтальмология - Паллиативная медицина - Патологическая анатомия - Патологическая физиология - Педиатрия - Подготовка спортсменов - Пульмонология - Реабилитация инвалидов - Токсикология - Травматология -

- Архитектура и строительство - Безопасность жизнедеятельности - Библиотечное дело - Бизнес - Биология - Военные дисциплины - География - Геология - Демография - Диссертации России - Естествознание - Журналистика и СМИ - Информатика, вычислительная техника и управление - Искусствоведение - История - Культурология - Литература - Маркетинг - Математика - Медицина - Менеджмент - Педагогика - Политология - Право России - Право України - Промышленность - Психология - Реклама - Религиоведение - Социология - Страхование - Технические науки - Учебный процесс - Физика - Философия - Финансы - Химия - Художественные науки - Экология - Экономика - Энергетика - Юриспруденция - Языкознание -