StatSoft
StatSoft

 

 

Сбор и хранение данных

Реализации хранилищ данных
Имеющиеся решения
Решения компании StatSoft в области обработки хранилищ данных

В этой статье мы рассмотрим понятие хранилище данных и как это относится к тематике нашего сайта. Термин хранилище данных можно представить в виде объединения двух основных идей: интеграция разобщенных данных в едином хранилище (например, данные о браке на производстве или параметрах выпускаемых деталей) и разделение наборов данных и приложений для обработки и анализа.

Хранилище данных необходимо для единого доступа данным, например, у вас имеется производственный процесс, когда выход с одного цеха подается на вход другого цеха, при этом необходимо обеспечить беспрепятственный обмен данными между ними.
Для менеджеров по контролю качества и инженеров в свою очередь требуется система, которая позволяет: проводить анализ с учетом временных рамок, формирование произвольных запросов к системе, обрабатывать большие объемы данных, объединять данных с различных систем (например, из нескольких цехов). Простые регистрирующие системы не удовлетворяют этим требованиям - информация в регистрирующей системе актуальна только на момент подачи запроса, а в другой момент времени данные уже совершенно иные. Регистрирующие системы обычно рассчитаны на проведение жестко ограниченных операций, и создание нерегламентированного запроса могло поставить эту систему в тупик. Также были весьма ограничены возможности обработки больших массивов информации.

Хранилище данных

Хранилище данных - это предметно-ориентированная, интегрированная, содержащая исторические данные, неразрушаемая совокупность данных, предназначенная для поддержки принятия управленченских решений. Одним из первых это определение дал Уильям Инмон в своей монографиии. Схему хранилища данных можно представить следующим образом:


Рис.1. Схема хранилища данных

Данные из различных источников помещаются в хранилище, а их описания — в репозиторий метаданных. Конечный пользователь с помощью различных инструментов может анализировать данные в хранилище. Результатом является информация в виде готовых отчетов, найденных скрытых закономерностей, каких-либо прогнозов. Так как средства работы конечного пользователя с хранилищем данных могут быть самыми разнообразными, то теоретически их выбор не должен влиять на структуру хранилища и функции его поддержания в актуальном состоянии. Физическая реализация данной схемы может быть самой разнообразной.

Рассмотрим первый вариант - виртуальное хранилище данных, это система, предоставляющая доступ к обычной регистрирующей системе, которая эмулирует работу с хранилищем данных. Виртуальное хранилище можно организовать двумя способами. Можно создать ряд представлений (view) в базе данных или использовать специальные средства доступа к базе данных (например, продукты класса desktop OLAP).


Рис.2. Виртуальное хранилище

Теперь рассмотрим основные преимущества и недостатки виртуальных хранилищ. Преимущества: простота и малая стоимость реализации, единая платформа с источником информации, отсутствие сетевых соединений между источником информации и хранилищем данных. Недостатков больше: работаем всего лишь с иллюзией хранилища данных, остаются проблемы с производительностью, трансформацией данных, интеграцией данных с другими источниками, отсутствием истории, чистотой данных, зависимость от доступности и структуры основной базы данных.

Поскольку конструирование хранилища данных — сложный процесс, который может занять несколько лет, некоторые организации вместо этого строят витрины данных (data mart), содержащие информацию для конкретных подразделений. Например, маркетинговая витрина данных может содержать только информацию о клиентах, продуктах и продажах и не включать в себя планы поставок. Несколько витрин данных для подразделений могут сосуществовать с основным хранилищем данных, давая частичное представление о содержании хранилища. Витрины данных строятся значительно быстрее, чем хранилище, но впоследствии могут возникнуть серьезные проблемы с интеграцией, если первоначальное планирование проводилось без учета полной бизнес-модели. Это второй способ.
Двухуровневая архитектура хранилища данных подразумевает построение витрин данных (data mart) без создания центрального хранилища, при этом информация поступает из регистрирующих систем и ограничена конкретной предметной областью. При построении витрин используются основные принципы построения хранилищ данных, поэтому их можно считать хранилищами данных в миниатюре.


Рис.3. Двухуровневая структура хранилища

Плюсы: простота и малая стоимость реализации; высокая производительность за счет физического разделения регистрирующих и аналитических систем, выделения загрузки и трансформации данных в отдельный процесс, оптимизированной под анализ структурой хранения данных; поддержка истории; возможность добавления метаданных.

Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре. На первом уровне расположены разнообразные источники данных — внутренние регистрирующие системы, справочные системы, внешние источники (данные информационных агентств, макроэкономические показатели). Второй уровень содержит центральное хранилище, куда стекается информация от всех источников с первого уровня, и, возможно, оперативный склад данных, который не содержит исторических данных и выполняет две основные функции.


Рис.4. Корпоративное хранилище данных

Во-первых, он является источником аналитической информации для оперативного управления и, во-вторых, здесь подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и проведение определенных проверок. Наличие оперативного склада данных просто необходимо при различном регламенте поступления информации из источников. Третий уровень представляет собой набор предметно-ориентированных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей.

Здесь можно найти информацию о реализациях хранилищ данных.
Решения компании StatSoft в области обработки хранилищ данных.

наверх