Взаимосвязь структурированных и неструктурированных данных

В возрастающем числе сценариев управления данными участвуют как структурированные, так и неструктурированные данные. На предприятиях имеются крупные коллекции структурированных данных, связанные с неструктурированными данными, такими как репозитории документов и сообщений электронной почты. Во Всемирной Паутине наблюдаются расширяющиеся объемы структурированных данных, происходящих, прежде всего, из трех источников:

миллионы баз данных, скрытых за формами (Глубокий Web, Deep Web);

сотни миллионов высококачественных элементов данных в HTML-таблицах на Web-страницах и возрастающее число мэшапов (mashup, обеспечивающих динамические представления структурированных данных;

данные, обеспечиваемые сервисами Web 2.0, такими как фото- и видео-сайты, сервисы совместного аннотирования и онлайновые репозитории структурированных данных.

Значительной долговременной целью сообщества баз данных является переход от управления традиционными базами данных, обладающих правильно определенными схемами структурированных бизнес-данных, к намного более сложной задаче управления обширными коллекциями структурированных, полуструктурированных и неструктурированных данных, распределенных по многих репозиториям предприятий и Web. Иногда это называют проблемой управления пространствами данных.

Про пространства данных см. перевод статьи «От баз данных к пространствам данных: новая абстракция управления информацией» и мой обзор «Предвестники новых манифестов управления данными».

В области Web сообщество баз данных вносит свой вклад в двух направлениях. Во-первых, разрабатывается технология, позволяющая за счет сравнительно небольших усилий генерировать проблемно-ориентированные («вертикальные») поисковые машины. Во-вторых, разрабатываются проблемно-независимые технологии просмотра (crawling) содержимого Web через формы (т.е. автоматической подачи через формы правильно построенных запросов) и индексирования получаемых HTML-страниц в поисковых машинах.
На корпоративном уровне вкладом сообщества является развитие средств поиска и обнаружения взаимосвязей между структурированными и неструктурированными данными.

Первой проблемой, с которой пришлось столкнуться, является извлечение структуры и смысла из неструктурированных и полуструктурированных данных. Технология извлечения информации может теперь способствовать извлечению структурированных сущностей и взаимосвязей из неструктурированного текста, даже в неконтролируемом контексте Web. Предположительно, к пространству данных будут применяться сотни экстракторов. Следовательно, требуются методы применения большого числа независимо разработанных экстракторов и управления получаемыми от них результатами. Также требуются алгоритмы, которые могли бы анализировать корректность результатов экстракции и комбинировать данные об обоснованности этих результатов некоторым хорошо обоснованным способом. В этих усилиях сообщество баз данных не одиноко; для достижения успеха следует укреплять связи с сообществами информационного поиска (Information Retrieval) и машинного обучения (Machine Learning).

Интересно, что в настоящее время работы в этом направлении ведутся одновременно и почти независимо в нескольких сообществах, в том числе, в сообществах баз данных, информационного поиска, машинного обучения и Semantic Web.

Существенным аспектом семантики данных является их контекст. У контекста может иметься несколько форм, таких как текст и гиперссылки, окружающие таблицу на Web-странице, имя каталога, в котором хранятся данные, и сопутствующие аннотации и обсуждения, взаимосвязи с физически или логически близкими элементами данных. В таких приложениях контекст помогает интерпретировать смысл данных, поскольку данные часто являются менее точными, чем в традиционных приложениях баз данных, так как они извлекаются из неструктурированного текста, данные исключительно разнородны или чувствительны к условиям, при которых они были зафиксированы. Для управления данными в контексте требуется более совершенная технология баз данных.

В частности, требуются методы обнаружения первоисточников данных для повышения качества данных за счет раскрытия неявных взаимосвязей, определения значимости контекста объекта при определении его семантики и для поддержки информации о происхождении данных на разных шагах их хранения и обработки.

Здесь просто нужны другие СУБД, с иными архитектурой и функциональными возможностями. Непонятно, на какой модели данных они должны основываться.

Вторая проблема состоит в разработке методов эффективной обработки запросов к результирующему морю разнородных данных и обеспечения понимания результатов этих запросов. Конкретной проблемой является обеспечение ответов на запросы по ключевым словам над большими коллекциями разнородных источников данных. Требуется анализировать запросы для извлечения их предполагаемой семантики и направлять данный запрос к уместным источникам данных в коллекции. Конечно, запросы по ключевым словам являются всего лишь точкой входа в исследование данных, и требуются методы, которые привели бы пользователя к наиболее уместному механизму запросов. В отличие от предыдущих работ в области интеграции информации, проблема здесь состоит в том, что не предполагаются наличие семантического отображения источников данных и известность прикладной области запроса и источников данных. Требуется разработка алгоритмов, обеспечивающих наилучшие сервисы над слабо интегрированными данными. Система должна обеспечивать некоторые осмысленные ответы на запросы без потребности в какой-либо взаимной интеграции данных и улучшать со временем качество этих ответов в манере «жизни по средствам» («pay-as-you-go») по мере обнаружения и уточнения семантических взаимосвязей. Существенной проблемой также является разработка индексных структур, поддерживающих выполнение запросов к гибридным данным. В более общей постановке, нужно разработать новые понятия корректности и согласованности, чтобы обеспечить системы показателей и предоставить возможность пользователям и разработчикам систем принимать устраивающие их компромиссы между стоимостью и качеством результирующих данных.

Также требуется разработать соответствующие системные концепции, позволяющие увязать эти функциональные возможности.

Многие частные задачи из этого направления решены или решаются. Но в целом проблема очень велика и сложна.

Кроме управления существующими коллекциями данных, у сообщества данных имеется возможность привнести новшества и в создание коллекций данных. Возникновение Web 2.0 создает потенциал для новых сценариев управления данными, в которых пользователи присоединяются к временному сообществу для создания данных, совместной работы с ними, их курирования и обсуждения в режиме онлайн. Поскольку такие сообщества будут редко заранее договариваться о каких-то схемах, эти схемы придется выводить из данных, и они будут крайне изменчивыми; однако они все равно будут использоваться для направления пользователей по пути к общему согласию. В этом контексте в системы придется внедрять визуализацию, поскольку визуализация способствует исследованию и анализу данных. Наиболее важно то, что эти системы должно быть исключительно легко использовать. Вероятно, для этого потребуется пойти на компромисс относительно некоторых типичных функциональных возможностей баз данных и обеспечить большее количество полуавтоматических «подсказок», извлекаемых из данных. Здесь важной возможностью является цикл обратной связи – чем больше данных будет создаваться с использованием таких инструментальных средств, тем легче будет становиться извлечение информации и поддержка запросов. В этой области начали появляться коммерческие и академические прототипы, но имеется достаточно места для дополнительных инноваций и разработок.

Содержание раздела