Классика баз данных - статьи

       

и данные реально начинают становиться


Научные измерения часто производятся с высоким временным разрешением (тысячи замеров в секунду в нейропсихологии, гораздо больше в физике элементарных частиц), и данные реально начинают становиться огромными, когда замеры производятся еще и в двух или трех пространственных координатах; при исследованиях в области нейровизуализации с применением функциональной магнито-резонансной томографии (fMRI, Functional Magnetic Resonance Imaging) в одном эксперименте могут генерироваться сотни и даже тысячи гигабайт данных. Вообще, визуализация – это источник самых больших данных, но проблемы крупных данных изображений – это тема отдельной статьи; здесь я рассматривать их не буду.

Тот факт, что у большей части крупных наборов данных имеются неотъемлемые временные и/или пространственные измерения, крайне важен для понимания того, каким образом большие данные могут вызывать проблемы производительности, особенно при применении баз данных. Например, кажется интуитивно очевидным, что данные, обладающие временным измерением, в большинстве случаев следует сохранять и обрабатывать с поддержкой хотя бы частичной упорядоченности по времени, чтобы, по мере возможности, сохранять локальность ссылок в тех случаях, когда данные используются в порядке времени. В конце концов, в большинстве случаев нетривиального анализа потребуется, как минимум, агрегировать результаты наблюдений за один или несколько непрерывных временных интервалов. Например, более вероятно может понадобиться посмотреть на покупки случайным образом выбранного набора клиентов, сделанные в течение некоторого периода времени, чем на покупки некоторого "непрерывного диапазона" клиентов (как бы он ни определялся) в случайным образом выбранные моменты времени.

Эта мысль становится еще более понятной при учете потребностей анализа временных рядов и прогнозирования, где данные агрегируются с применением методов, зависящих от порядка (например, кумулятивных агрегатных функций и функций с подвижным окном, операций упреждения и запаздывания (lead и lag) и т.д.).

Содержание  Назад  Вперед