Классика баз данных - статьи

       

На корпоративном уровне вкладом сообщества


На корпоративном уровне вкладом сообщества является развитие средств поиска и обнаружения взаимосвязей между структурированными и неструктурированными данными.

Первой проблемой, с которой пришлось столкнуться, является извлечение структуры и смысла из неструктурированных и полуструктурированных данных. Технология извлечения информации может теперь способствовать извлечению структурированных сущностей и взаимосвязей из неструктурированного текста, даже в неконтролируемом контексте Web. Предположительно, к пространству данных будут применяться сотни экстракторов. Следовательно, требуются методы применения большого числа независимо разработанных экстракторов и управления получаемыми от них результатами. Также требуются алгоритмы, которые могли бы анализировать корректность результатов экстракции и комбинировать данные об обоснованности этих результатов некоторым хорошо обоснованным способом. В этих усилиях сообщество баз данных не одиноко; для достижения успеха следует укреплять связи с сообществами информационного поиска (Information Retrieval) и машинного обучения (Machine Learning).

Интересно, что в настоящее время работы в этом направлении ведутся одновременно и почти независимо в нескольких сообществах, в том числе, в сообществах баз данных, информационного поиска, машинного обучения и Semantic Web.

Существенным аспектом семантики данных является их контекст. У контекста может иметься несколько форм, таких как текст и гиперссылки, окружающие таблицу на Web-странице, имя каталога, в котором хранятся данные, и сопутствующие аннотации и обсуждения, взаимосвязи с физически или логически близкими элементами данных. В таких приложениях контекст помогает интерпретировать смысл данных, поскольку данные часто являются менее точными, чем в традиционных приложениях баз данных, так как они извлекаются из неструктурированного текста, данные исключительно разнородны или чувствительны к условиям, при которых они были зафиксированы. Для управления данными в контексте требуется более совершенная технология баз данных.

Содержание  Назад  Вперед