Правила для хранилищ данных
1994 год, Уиллиам и Келли предложили 12 правил для хранилищ данных:
1) Хранилища данных и операционная среда должны быть разделены.
2) Данные в хранилище должны интегрироваться.
3 )В хранилище содержатся данные, накопленные за долгое время.
4) Данные в хранилище- это мгновенный снимок данных, полученный в данный момент времени.
5) Данные в хранилище предметно ориентированы.
6) Данные в хранилище предназначены для чтения с периодическим обновлением на основе операционных данных (ежемесячно, ежеквартально, еженедельно и т.д.). Данные в хранилище обновлять оперативно нельзя.
7) Жизненный цикл в хранилище данных отличается от (операционной базы данных) классической информационной системы.
В хранилище данных во главе- данные, а в операционной базе данных- процесс.
8) В хранилище данных хранятся данные с несколькими уровнями детализации (текущие, старые, слабообобщенные, данные высокой степени обобщения).
9) Среда хранилища данных характеризуется транзакциями, выполняющих чтение только большого числа данных. (Среда операционной базы данных – большое число транзакций обновлений).
10) Хранилище данных в составе имеет систему, которая отслеживает источники данных, преобразование и хранение. В системе д.б. ,соответственно, 3 программных куска.
11) Метаданные хранилища- важнейший компонент этой инфраструктуры, так как описывает источники, преобразование, хранение, использование, связи, интеграцию и историю каждого элемента данных.
12) В хранилище данных должен иметься механизм использования ресурсов для оптимизации всех процессов. Хотелось бы, чтобы быстро работал. Есть подход, когда данные хранятся в виде кубов, 2-й – когда каждый раз создается виртуальный куб. На практике 2-й способ хорош, когда небольшой объем данных, в противном случае – этот куб долго создается, это – неудобно, поэтому стараются создать куб, чтобы хранить в нем данные – например, на нижнем уровне – сами данные, на следующем – первая степень детализации, на следующем – вторая и т.д. – до самого обобщенного показателя. Если посмотрели обобщенный показатель, он нам понравился, спускаемся на следующий уровень , смотрим откуда он получился, таким образом, спускаемся по цепочке до самого низа, смотрим, можем ли мы доверять данным.