Классика баз данных - статьи




Качество данных


Базы данных практически всегда содержат некорректные данные. К ним относятся пропущенные данные (например, данные о поле в анкетах), ошибочные данные, нестандартные данные (например, вес и денежная сумма в единицах, не используемых на территории страны) и т.п. Проверка ошибок и своевременное обновление часто не выполняются, поскольку подобные операции требуют значительных накладных расходов. Автоматическая проверка ошибок перед вводом данных в базу замедляет пополнение базы.

В контексте национальной безопасности один из особо неприятных видов некорректных данных — имена людей, приехавших из стран Азии, Ближнего Востока, Африки, Европы. Мохаммед, Мухаммед, Мухамед или Мохамед; (бывший премьер-министр Китая) Чоу Энлай, Чу Юн-Лай и Чоу Эн Лай; Цичристиз, Цикричис и Цичристис — каждое из этих имен может принадлежать как одному человеку, так и нескольким разным людям. Кроме того, зачастую в базе данных хранятся только определенный вид имен (например, только фамилии). Современные системы баз данных, в основном, предназначены для поиска только точных соответствий, т. е. могут найти строку или число, точно соответствующих условиям запроса. В результате, если в запросе указано «Чоу Энлай», а информация об этом человеке хранится в базе данных под именем «Чоу Эн-Лай», данные найдены не будут. Еще один вид некорректных данных, порождающих серьезные проблемы, — неактуальные адреса и информация о месте работы. Люди меняют место жительства, а информация в базе данных остается старой и не соответствующей действительности. Попытки найти подозрительного человека могут затянуться, если, скажем, есть сведения о его адресе и месте работы лишь двухлетней давности.

Модуль проверки грамматики может применяться для тестирования текстовых данных (скажем, имена и адреса). Для проверки корректности перекрестных ссылок могут формироваться избыточные данные. Можно создать триггеры, которые будут храниться в базе данных и автоматически обновлять изменяемые данные максимально быстро после возникновения определенных событий.




Содержание  Назад  Вперед