Классика баз данных - статьи

       

Метаданные делают возможным доступ к данным


Матаданные – это описательная информация о данных, которая объясняет измеряемые атрибуты, их имена, единицы измерения, точность, формат данных и, в идеале, намного больше. Наиболее важно то, что метаданные включают информацию о происхождении данных, описывающую, как измерялись, получались или вычислялись данные.

Если данные должны анализироваться с помощью общих инструментальных средств, то эти средства должны "понимать" данные. Вы не можете просто предоставить инструменту набор байт и ожидать, что ему удастся понять, что означают эти данные. Инструменту понадобятся метаданные.

В качестве простого примера рассмотрим некоторый файл. Вы ничего не можете сказать про него – это может быть все, что угодно. Но если вам скажут, что это JPEG, то вы будете знать, что это растровое изображение в формате . Файлы JPEG начинаются с заголовка, который описывает структуру файла, а часто сообщает и модель фотокамеры, время и программу, сгенерировавшую снимок. Многим программам известно, как читать файлы JPEG, а также как производить новые файлы JPEG, которые включают метаданные, описывающие характеристики нового изображения. Аналогичные роли играют музыкальные файлы MP3 и файлы документов PDF – у каждого из них имеется стандартный формат, каждый содержит некоторые метаданные, и для каждого имеется набор приложений для обработки и генерации файлов данного класса.

Если ученым требуется читать данные, собранные другими учеными, то эти данные должны тщательно документироваться и публиковаться в формах, допускающих простой доступ и автоматическое манипулирование. В идеальном мире имелись бы мощные инструментальные средства, облегчающие фиксацию, организацию, анализ, визуализацию и публикацию данных. Эти средства осуществляли бы интеллектуальный анализ данных (data mining) и обучались бы на основе этих данных (machine learning), и было бы нетрудно создавать скрипты, описывающие потоки работ по анализу данных. Для автоматизации этих средств существенно наличие хороших метаданных. Сохранение и пополнение этих данных в процессе обработке (происхождение данных) составят основное преимущество инструментальных средств следующего поколения.

Все данные, порождаемые из научных продуктов, также должны тщательно документироваться и публиковаться в формах, допускающих простой доступ. В идеале, многие из этих метаданных должны были бы генерироваться автоматически и управляться в составе потока работ, снижая интеллектуальную нагрузку на ученого.



Содержание  Назад  Вперед