Язык описания данных
Языки описания данных состоят из двух составляющих: языка представления данных и языка описания метаданных. Языки представления задают формальные характеристики документов: форматы, кодировку, тип, структуру документов.
Языки метаданных представляют собой данные о данных, вплоть до таких, какие отсутствуют в документе (например, страна, язык, правовые аспекты использования).К языкам представления относятся прежде всего языки библиографического описания данных, применяемых при организации каталогов и картотек. На автоматизированный поиск рассчитаны машинные библиографические форматы. Их основу составляют форматы MARC (Machine-Aided Readable Cataloging) и ISO 2709. На современном этапе наиболее распространены международные форматы UNIMARC, американский MARC21 и в России RUS- MARC.
Международный коммуникативный формат предназначен для обмена библиографическими данными в машиночитаемой форме. UNIMARC определяет структуру и наполнение библиографических записей и включает «МАРКЕР» записи, «СПРАВОЧНИК», «ПОЛЯ ДАННЫХ».
Маркер записи 24-х символьный и, кроме всего прочего, содержит элементы, описывающие структуру справочника и полей данных. Справочник представляет собой перечень статей. Каждая статья справочника состоит из трех частей: метки поля, относительного адреса данного поля, длины поля. Например, Вестник Санкт-Петербургского университета будет иметь запись: 011 ##$a0132-4624.
Для электронных документов разработаны и используются следующие форматы:
1) текст, структурированный или нет (ISO 646);
2) текст на языке SQML (ISO 8879);
3) текст на языке HTML;
4) ODA-текст (ISO 8613);
5) CCIT-формат кодировки графических образов страниц;
6) Postscript-файлы;
7) мультимедийные составные файлы (текст, аудио, видео).
В связи с ростом Интернет найти необходимый ресурс становится все сложнее, использование форматов (UNIMARK, MARC21) в сети нереально, т.к.
они слишком детальны.Работы по стандартизации набора семантических свойств с ориентацией на электронные документы были активизированы в 1995 г. после семинара в Дублине (штат Огайо), в связи с чем вариант языка метаданных получил название Дублинского ядра. Текущая версия спецификаций Дублинского ядра включает 15 элементов или полей, которые могут повторяться. При описании поля кроме имени вводят понятия схемы и подполей.
Схема — это наименование правил, в которых оговаривается содержание полей. Например:
1) поле «Дата» — стандарт ввода дат;
2) поле «Язык» — стандарт кодировки ASCII, KOI8 и т.д.
Подполе — это информация, уточняющая содержание поля.
Перечень подполей еще четко не определен. При использовании стандарта DC описание ресурса может быть прочитано специальным роботом и помещено в каталог с разбиением на поля.
Кратко рассмотрим описание некоторых элементов Дублинского ядра (Dublin Согу Metadata Element Set).
1. Название ресурса.
Поле: Title.
Определение: имя, данное ресурсу автором или издателем.
Схема: не используется.
Подполя:
DC. Title — основное заглавие (подполе по умолчанию);
DC. Title Alternative — альтернативное заглавие.
2. Автор или создатель.
Поле: Creator.
Определение: лицо или организация, ответственные за содержание ресурса.
Подполя:
DC. Creator — автор (подполе по умолчанию);
DC. Creator. Personal Name — имя индивидуального автора;
DC. Creator. Corporate Name — имя коллективного автора (включая наименование конференций);
DC. Creator. Personal Name. Address — любой тип адреса индивидуального автора, включая электронный;
DC. Creator. Corporate Name. Address — любой тип адреса коллективного автора, включая электронный.
3. Предмет и ключевые слова.
Поле: Subject.
Определение: описание ресурса. Обычно предмет описывается ключевыми словами или фразами. Рекомендуется использовать контролирующие словари или формальные классификационные схемы.
1. Описание.
Поле: Description
Определение: описание содержания ресурса.
Это может быть краткий реферат, перечень содержимого и т.п.Остальные поля далее рассмотрим в порядке перечисления:
2. Издатель (пять подполей).
3. Сведения об ответственности (сведения об организации или лице, внесших значительный вклад в создание ресурса, но не указанных в поле «автор» или «создатель», содержит пять подполей).
4. Дата (согласовано только два подполя: «дата создания» и «дата поступления»).
5. Тип ресурса (текст, программы, изображения, перечень которых приведен в Интернете):
http://sunsite.berkley. edu/Metadata/types.html
6. Формат используется при определении программного и технического обеспечения (doc, pdf, htm, jpeg). Для его определения рекомендуется использовать контролируемый словарь стандарта MIME (Multipurpose Internet Mail Extensions) — Internet Media Types.
7. Идентификатор ресурса (строка или число для однозначного определения ресурса).
8. Источник (строка или число для однозначного определения источника, из которого ресурс был создан).
Схема:
Текст по умолчанию:
URL (Uniform Resource Locator):
ISBN (International Standard Book Number) и т.д.
9. Язык.
10. Отношения (указываются другие ресурсы, на которые имеются ссылки).
11. Охват (пространственная и временная характеристика).
12. Правовые аспекты (источник информации об авторских правах).
Стандарт DC полностью соответствует стандарту HTML, и поэтому он может непосредственно включаться в сам ресурс. В языке HTML для этого используется специальный тег Meta с атрибутами NAME (название поля) и CONTENT (значение). В последних версиях HTML введены атрибуты LANG и SCHEME,
которые позволяют задать язык представления и соответственно схему, уточняющую контекст.
Стандарт DC достаточно прост, и для разработчиков ресурсов существуют сайты с формами для описания ресурса и набора метаданных, а также правил кодировки.
4.14.