Классика баз данных - статьи

       

Вероятностная трактовка данных


По существу, все научные данные, происходящие из наблюдений над реальным миром, являются принципиально неточными. В предыдущих работах (например, [Bar92], [Wid05]) затрагивались проблемы хранения и обработки неточных или вероятностных данных в традиционных базах данных. В ASAP мы сосредотачиваемся на неточности при обработке многомерных массивов. В этом контексте неточность может появиться по нескольким причинам:

  • Неточность данных. У значений массива неизменно имеется ошибка измерения, причиной которой является неточность реальных значений. Этот случай относится к типичной поддержке вероятностных данных в базе данных.
  • Неточность позиции (значения измерения). В некоторых случаях неточной является сама позиция измерения, а не полученное значение данных. Соответственно, в этом случае неточными являются значения измерений массива.
  • Неточность результатов функций или предикатов. Некоторые функции или предикаты даже при применении к детерминированным данным производят неточные результаты. Например, операция LOCATE, производящая сопоставление с образцом, может производить неточные результаты из-за природы данных и алгоритмов сопоставления.

Давнишней открытой проблемой является лаконичное представление неточных данных и их эффективная обработка в базах данных. Именно на этом мы в основном фокусируемся при работе с неточными значениями. У нас имеются три способа представления неточных значений данных:

  • R1: пары «значение-вероятность». Значение элемента массива представляется как (v1, p1), (v2, p2),…, (vn, pn), где (vi, pi) означает, что вероятность того, что значением данного элемента является vi, равна pi. Если сумма psum значений pi оказывается меньше единицы, то (1-psum) является вероятностью того, что значение вообще не присутствует в массиве.
  • R2: пара «математическое ожидание, дисперсия». Значение элемента массива, которое, вообще говоря, может являться результатом некоторой операции, представляется как пара (E, Var), содержащая статистическую информацию о данном значении.

    Содержание  Назад  Вперед