Классика баз данных - статьи

       

Бесшовная интеграция подготовки данных в реальном времени и их хранения


Большинство ученых получает исходные данные от инструментов, а затем выполняет поток шагов обработки для «приготовления» данных. Эти шаги включают операции для преобразования систем координат и очистки данных. Одним из важных компонентов родословной данных является «рецепт» их подготовки, который должен корректно сохраняться в любой системе.

Кроме того, важно, чтобы у системы подготовки имелась та же модель данных, что и у системы хранения. В противном случае будут требоваться постоянные преобразования данных. В добавок к этому, на тот случай, если система подготовки окажется чрезмерно нагруженной, должна иметься возможность сохранения частично подготовленных данных для их последующей обработки, что также является аргументом в пользу поддержки в обоих компонентах одной и той же модели данных. В ASAP содержится компонент подготовки данных в реальном времени, который получен путем перенастройки линии кода Aurora/Borealis для поддержки массивов.

Эта интеграция подготовки данных в реальном времени и их хранения была бесполезна для двух рассмотренных тестовых наборов. Однако в третьем случае мы могли бы выполнять всю требуемую обработку даже без сохранения данных на дисках и выполнения каких-либо переключений задач. В отличие от этого, в РСУБД требуется сначала сохранить данные, а потом выбирать их для обработки, что приводит к появлению значительных накладных расходов.

Как показывают результаты прогона тестовых наборов скалярного произведения и умножения матриц, эти архитектурные изменения позволили добиться повышения производительности в 10 и более раз. Мы думаем, что получили бы еще более впечатляющие результаты, если бы успели пропустить тестовый набор анализа изображений.



Содержание  Назад  Вперед