<<
>>

Язык описания данных

Языки описания данных состоят из двух составляющих: языка представления данных и языка описания метаданных. Языки представления задают формальные характеристики документов: форматы, кодировку, тип, структуру документов.

Языки метаданных представляют собой данные о данных, вплоть до таких, какие отсутствуют в документе (например, страна, язык, правовые аспекты использования).

К языкам представления относятся прежде всего языки библиографического описания данных, применяемых при организации каталогов и картотек. На автоматизированный поиск рассчитаны машинные библиографические форматы. Их основу составляют форматы MARC (Machine-Aided Readable Cataloging) и ISO 2709. На современном этапе наиболее распространены международные форматы UNIMARC, американский MARC21 и в России RUS- MARC.

Международный коммуникативный формат предназначен для обмена библиографическими данными в машиночитаемой форме. UNIMARC определяет структуру и наполнение библиографических записей и включает «МАРКЕР» записи, «СПРАВОЧНИК», «ПОЛЯ ДАННЫХ».

Маркер записи 24-х символьный и, кроме всего прочего, содержит элементы, описывающие структуру справочника и полей данных. Справочник представляет собой перечень статей. Каждая статья справочника состоит из трех частей: метки поля, относительного адреса данного поля, длины поля. Например, Вестник Санкт-Петербургского университета будет иметь запись: 011 ##$a0132-4624.

Для электронных документов разработаны и используются следующие форматы:

1) текст, структурированный или нет (ISO 646);

2) текст на языке SQML (ISO 8879);

3) текст на языке HTML;

4) ODA-текст (ISO 8613);

5) CCIT-формат кодировки графических образов страниц;

6) Postscript-файлы;

7) мультимедийные составные файлы (текст, аудио, видео).

В связи с ростом Интернет найти необходимый ресурс становится все сложнее, использование форматов (UNIMARK, MARC21) в сети нереально, т.к.

они слишком детальны.

Работы по стандартизации набора семантических свойств с ориентацией на электронные документы были активизированы в 1995 г. после семинара в Дублине (штат Огайо), в связи с чем вариант языка метаданных получил название Дублинского ядра. Текущая версия спецификаций Дублинского ядра включает 15 элементов или полей, которые могут повторяться. При описании поля кроме имени вводят понятия схемы и подполей.

Схема — это наименование правил, в которых оговаривается содержание полей. Например:

1) поле «Дата» — стандарт ввода дат;

2) поле «Язык» — стандарт кодировки ASCII, KOI8 и т.д.

Подполе — это информация, уточняющая содержание поля.

Перечень подполей еще четко не определен. При использовании стандарта DC описание ресурса может быть прочитано специальным роботом и помещено в каталог с разбиением на поля.

Кратко рассмотрим описание некоторых элементов Дублинского ядра (Dublin Согу Metadata Element Set).

1. Название ресурса.

Поле: Title.

Определение: имя, данное ресурсу автором или издателем.

Схема: не используется.

Подполя:

DC. Title — основное заглавие (подполе по умолчанию);

DC. Title Alternative — альтернативное заглавие.

2. Автор или создатель.

Поле: Creator.

Определение: лицо или организация, ответственные за содержание ресурса.

Подполя:

DC. Creator — автор (подполе по умолчанию);

DC. Creator. Personal Name — имя индивидуального автора;

DC. Creator. Corporate Name — имя коллективного автора (включая наименование конференций);

DC. Creator. Personal Name. Address — любой тип адреса индивидуального автора, включая электронный;

DC. Creator. Corporate Name. Address — любой тип адреса коллективного автора, включая электронный.

3. Предмет и ключевые слова.

Поле: Subject.

Определение: описание ресурса. Обычно предмет описывается ключевыми словами или фразами. Рекомендуется использовать контролирующие словари или формальные классификационные схемы.

1. Описание.

Поле: Description

Определение: описание содержания ресурса.

Это может быть краткий реферат, перечень содержимого и т.п.

Остальные поля далее рассмотрим в порядке перечисления:

2. Издатель (пять подполей).

3. Сведения об ответственности (сведения об организации или лице, внесших значительный вклад в создание ресурса, но не указанных в поле «автор» или «создатель», содержит пять подполей).

4. Дата (согласовано только два подполя: «дата создания» и «дата поступления»).

5. Тип ресурса (текст, программы, изображения, перечень которых приведен в Интернете):

http://sunsite.berkley. edu/Metadata/types.html

6. Формат используется при определении программного и технического обеспечения (doc, pdf, htm, jpeg). Для его определения рекомендуется использовать контролируемый словарь стандарта MIME (Multipurpose Internet Mail Extensions) — Internet Media Types.

7. Идентификатор ресурса (строка или число для однозначного определения ресурса).

8. Источник (строка или число для однозначного определения источника, из которого ресурс был создан).

Схема:

Текст по умолчанию:

URL (Uniform Resource Locator):

ISBN (International Standard Book Number) и т.д.

9. Язык.

10. Отношения (указываются другие ресурсы, на которые имеются ссылки).

11. Охват (пространственная и временная характеристика).

12. Правовые аспекты (источник информации об авторских правах).

Стандарт DC полностью соответствует стандарту HTML, и поэтому он может непосредственно включаться в сам ресурс. В языке HTML для этого используется специальный тег Meta с атрибутами NAME (название поля) и CONTENT (значение). В последних версиях HTML введены атрибуты LANG и SCHEME,

которые позволяют задать язык представления и соответственно схему, уточняющую контекст.

Стандарт DC достаточно прост, и для разработчиков ресурсов существуют сайты с формами для описания ресурса и набора метаданных, а также правил кодировки.

4.14.

<< | >>
Источник: Н.В.Абрамов и др.. Информационные системы в медицине: Учебное пособие— Нижневартовск: Изд-во Нижневарт. гуманит. ун-та,2008. — 171 с.. 2008

Еще по теме Язык описания данных: