|
|
Сбор и хранение данных |
Реализации
хранилищ данных В этой статье мы рассмотрим понятие хранилище данных и как это относится к тематике нашего сайта. Термин хранилище данных можно представить в виде объединения двух основных идей: интеграция разобщенных данных в едином хранилище (например, данные о браке на производстве или параметрах выпускаемых деталей) и разделение наборов данных и приложений для обработки и анализа. Хранилище
данных необходимо для единого доступа данным, например, у вас имеется
производственный процесс, когда выход с одного цеха подается на вход
другого цеха, при этом необходимо обеспечить беспрепятственный обмен
данными между ними. Хранилище данныхХранилище данных - это предметно-ориентированная, интегрированная, содержащая исторические данные, неразрушаемая совокупность данных, предназначенная для поддержки принятия управленченских решений. Одним из первых это определение дал Уильям Инмон в своей монографиии. Схему хранилища данных можно представить следующим образом:
Данные из различных источников помещаются в хранилище, а их описания — в репозиторий метаданных. Конечный пользователь с помощью различных инструментов может анализировать данные в хранилище. Результатом является информация в виде готовых отчетов, найденных скрытых закономерностей, каких-либо прогнозов. Так как средства работы конечного пользователя с хранилищем данных могут быть самыми разнообразными, то теоретически их выбор не должен влиять на структуру хранилища и функции его поддержания в актуальном состоянии. Физическая реализация данной схемы может быть самой разнообразной. Рассмотрим первый вариант - виртуальное хранилище данных, это система, предоставляющая доступ к обычной регистрирующей системе, которая эмулирует работу с хранилищем данных. Виртуальное хранилище можно организовать двумя способами. Можно создать ряд представлений (view) в базе данных или использовать специальные средства доступа к базе данных (например, продукты класса desktop OLAP).
Теперь рассмотрим основные преимущества и недостатки виртуальных хранилищ. Преимущества: простота и малая стоимость реализации, единая платформа с источником информации, отсутствие сетевых соединений между источником информации и хранилищем данных. Недостатков больше: работаем всего лишь с иллюзией хранилища данных, остаются проблемы с производительностью, трансформацией данных, интеграцией данных с другими источниками, отсутствием истории, чистотой данных, зависимость от доступности и структуры основной базы данных. Поскольку
конструирование хранилища данных — сложный процесс, который может занять
несколько лет, некоторые организации вместо этого строят витрины данных
(data mart), содержащие информацию для конкретных подразделений. Например,
маркетинговая витрина данных может содержать только информацию о клиентах,
продуктах и продажах и не включать в себя планы поставок. Несколько
витрин данных для подразделений могут сосуществовать с основным хранилищем
данных, давая частичное представление о содержании хранилища. Витрины
данных строятся значительно быстрее, чем хранилище, но впоследствии
могут возникнуть серьезные проблемы с интеграцией, если первоначальное
планирование проводилось без учета полной бизнес-модели. Это второй
способ.
Плюсы: простота и малая стоимость реализации; высокая производительность за счет физического разделения регистрирующих и аналитических систем, выделения загрузки и трансформации данных в отдельный процесс, оптимизированной под анализ структурой хранения данных; поддержка истории; возможность добавления метаданных. Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре. На первом уровне расположены разнообразные источники данных — внутренние регистрирующие системы, справочные системы, внешние источники (данные информационных агентств, макроэкономические показатели). Второй уровень содержит центральное хранилище, куда стекается информация от всех источников с первого уровня, и, возможно, оперативный склад данных, который не содержит исторических данных и выполняет две основные функции.
Во-первых, он является источником аналитической информации для оперативного управления и, во-вторых, здесь подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и проведение определенных проверок. Наличие оперативного склада данных просто необходимо при различном регламенте поступления информации из источников. Третий уровень представляет собой набор предметно-ориентированных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей. Здесь
можно найти информацию о реализациях хранилищ данных.
|