Классика баз данных - статьи

       

Сервисы пространства данных


Вместе с неоднородностью содержимого возникает потребность в поддержке нескольких стилей доступа к контенту. Мы предвидим, что DSSP будут допускать много разных режимов взаимодействия, и мы стремимся к предельной общности, чтобы допустить применение различных служб к различным типам содержимого.

Одной из основных служб пространства данных является каталогизация элементов данных от участников. Каталог - это реестр ресурсов данных, содержащий наиболее базовую информацию о каждом из них: источник, имя, местоположение в источнике, размер, дата создания и владелец и т.д. Каталог является инфраструктурой для большинства других сервисов пространства данных, но он также может поддерживать базовый пользовательский интерфейс просмотра пространства данных.

Двумя основными службами, которые будут поддерживаться в DSSP, являются поиск и запрашивание данных. В то время как СУБД отличаются улучшенной поддержкой запросов, поиск является основным механизмом работы конечных пользователей с большими коллекциями незнакомых данных. Поиск менее требователен, чем запрашивание данных, поскольку он основан на сходстве, предоставлении конечным пользователям ранжированных результатов и поддержке интерактивного совершенствования, так что пользователи могут исследовать набор данных и инкрементно улучшать свои результаты. DSSP должны позволять пользователям задавать поисковый запрос и итерационно его совершенствовать, если это уместно, до вида запроса в стиле базы данных. Ключевой принцип пространств данных состоит в том, что поиск должен быть применим ко всему содержимому пространства данных, независимо от форматов данных.

Универсальные возможности поиска и запросов должны распространяться не только на данные, но и на метаданные. У пользователей должны иметься возможности нахождения требуемых источников данных и получения информации об их сложности, корректности и актуальности. В действительности, DSSP должны быть также осведомлены о наличии брешей в своем покрытии прикладной области. DSSP будут также поддерживать и обновления данных.
Очевидно, что эффекты обновлений будут определяться уровнем изменчивости соответствующих источников данных. Одной из основных исследовательских проблем пространств данных является разработка и обеспечение гарантированной семантики обновлений в разнородной среде с высоким уровнем автономности компонентов.

Другие ключевые сервисы DSSP включают мониторинг, обнаружение событий и поддержку сложных потоков работ. Например, мы можем захотеть произвести вычисление при поступлении новой части данных и распространить результаты этого вычисления в набор приемных источников данных. Аналогично, в DSSP должны поддерживаться различные формы анализа данных.

Не каждый участник пространства данных будет обязательно обеспечивать интерфейсы, требуемые для поддержки всех функций DSSP. Поэтому появится потребность в различных расширениях источников данных. Источник не обязательно будет хранить свои собственные метаданные, поэтому для таких источников нам потребуется независимый репозиторий метаданных. Может потребоваться облечение информации во внешнюю форму на основе источника или его контекста. Например, для списка агенств скорой помощи из Вашингтона может потребоваться явная пометка "Вашингтон", чтобы его можно было объединить с аналогичными списками из Орегона и Калифорнии. Или для научного набора данных может потребоваться наложенная схема. Элементы данных в источнике могут обогащаться аннотациями, рейтингами, ссылками на элементы в других источниках. Для источников, в которых отсутствует собственная служба нотификации, может потребоваться поддержка соответствующего мониторинга.


Содержание раздела