Склады Данных и их принципы
Понятие Склада Данных (Хранилище) получило активное хождение после 90-ого года и до сих пор расценивается как перспективное динамичное направление в проектировании информационных систем поддержки принятия решения. Одно из определений склада данных заключается в том, что это специальная база данных где в хронологическом порядке накапливаются все данные деятельности предприятия (не операционная). Назначения этих данных служить основой для получения справочной аналитической и обобщающей информацией. Автор концепции хранилища данных Imond.
В 91 году фирма IBM первая предложила архитектуру информационного склада. Склад данных естественно ориентирован на определенную предметную область. Очень часто на складах хранится не все полученная информация, а обобщенная информация. По сути дела данные постепенно поступая на склад получаются статус неизменной информации. Основные компоненты склада данных следящие:
— Средство накопление слада
Программа, которая из ОЛТП из информационной системы подготавливает, обрабатывает и записывает в ОЛАП системы.
— Сама база данных
Чаще всего реляционная БД, хотя сейчас многие производители СУБД (МS) сделал ОЛАП систему… Оракал делал… Такого рода базы данных как правило работают при пакетной загрузке, в том смысле год закончился – и всю информацию за год записывают на склад
— Средство анализа данных
Это какая-то программа которая выполняет некий анализ данных, по принципу, что если так, если это… Чаще всего информация поставляется в графической форме, по скольку считается что через глаза люди получают больше информации
Основные принципы организации складов данных:
1) Предметная ориентация
Например: для магазина торгующего аудио видео техникой интерес могут представлять такие области как: клиенты, кассеты, CD-диски и тд.
2) Средство интеграции
Одни и те же данные, сущности, в зависимости от назначения могут храниться по разному. Но при этом возможны некоторые средства интеграции, чтобы их можно было представлять в единообразном виде.
3) Постоянство данных
Как правило Хранилища данных не включают средств для изменения данных. Пакетная загрузка, пакетная обработка.
4) Хронология данных
Благодаря средствам интеграции склад данных нечто больше чем специальным образом организованная последовательность снимков данных, то есть ей присущ хронологический аспект данных собирается в соответствии с некой истории по годам месяца… без поддержки хронологии нельзя говорить о решении задачи прогнозирования и анализа тенденций, особенно когда идет конкуренция.
Важным моментом надо отметить тот факт, что такого рода базы данных ОЛАП системы на пустом месте не создаются, то есть для того чтобы ее создать нужно уже какую-то операционную базу данных уже иметь. Туда не заносят данные каждый день.
Несколько слов как происходит обобщение данных. Для операционных баз данных, с которыми клиент работает ежеминутно, конечно необходим максимальный уровень детализации данных о каждом клиенте, поставщике, компакт диске и т.д. О пользователям такого рода систем, конечно, подробный список всех клиентов или отчет о товаре не нужен. Менеджеру аналитику чаще всего нужны усредненный данные… за месяц, за квартал и т.д. Данные по разным регионам, чтобы знать чего куда везти (В деревню – валенки). Таким образом важным моментом такого рода систем является обобщение информации (данных). Информация – это все что мы видим, слышим и так далее. По ГОСТУ информация в цифровом – виде данные. Конечно формально говоря, вот это обобщение информации можно было делать сразу в операционной базе данных, но как правило это не делают – это дополнительная нагрузка. Пример: идет покупатель за покупателем, один больше покупает, другой меньше товаров.
Если каждый раз после каждого покупателя идет обобщение информации, то ясно что база данных будет работать сама на себя, то есть сервер через каждую секунду будет обобщать информацию заново, заново готовить эти обобщенные характеристики, и это ненормально, сервер будет работать сам на себя. По этому как правило это дело выгружают и там уже обобщают то, что уже не меняется. Поэтому причина того что приходиться делать отдельную базу данных, то есть снижается производительность.