Наука с интенсивной обработкой данных – новая парадигма

Научные инструменты и компьютерное имитационное моделирование порождают громадные объемы данных, для анализа и организации которых требуются новые научные методы. Каждый год объемы данных почти удваиваются. Поскольку новые научные инструменты обладают исключительной точностью, так же быстро улучается качество данных. Для анализа этих данных с целью нахождения тонких эффектов, упущенных в предыдущих исследованиях, требуются алгоритмы, которые одновременно могут работать с огромными наборами данных и обнаруживать при этом очень тонкие эффекты – нужно находить иголки в стоге сена, а также находить сами очень мелкие стога сена, которые остались необнаруженными при предыдущих замерах.

"Сырые" данные, полученные от инструментов и в результате моделирования, обрабатываются конвейерами, которые производят стандартные продукты данных. По терминологии NASA, сырые данные уровня 0 выверяются и исправляются до наборов данных уровня 1, которые комбинируются с другими данными, порождая наборы данных уровня 2. Большая часть аналитической работы происходит с этими наборами данных уровня 2, а в случае обнаружения аномалий производится "спуск" к данным уровня 1.

Мы полагаем, что в науке большинство новых результатов получается, когда данные анализируются новыми способами. Поэтому в этой статье мы концентрируемся на исследовании данных, интерактивном анализе данных и интеграции данных на уровне 2.

Средства анализа данных не поспевают за нашими возможностями собирать и хранить данные. Многие ученые завидуют времени карандаша и бумаги, когда все данные помещались в рабочей тетради, а анализ выполнялся при помощи логарифмической линейки. Тогда все было проще; можно было полностью сконцентрироваться на научных проблемах без потребности одновременно становиться профессионалом в области информационных технологий с опытом использования загадочных компьютерных средств анализа данных.

Наибольшей брешью анализа данных является этот человеко-машинный интерфейс. Как нам вернуть ученому контроль над своими данными? Как нам построить средства анализа, являющиеся интуитивными и усиливающими интеллект ученого, а не обременяющими его. Реальная проблема состоит в создании интеллектуальной рабочей тетради, которая раскрывает данные и облегчает их фиксацию, организацию, анализ, визуализацию и публикацию.

Эта статья посвящается уровню данных и анализа данных внутри такой интеллектуальной рабочей тетради. Мы утверждаем, что эта интеллектуальная рабочая тетрадь будет обращаться к данным, предоставляемым научными центрами, и будет обеспечивать сообщество средства анализа и вычислительными ресурсами для исследования огромных архивов данных.

Содержание Назад Вперед