Главное Авторские колонки Вакансии Вопросы
141 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Как построить оптимальную архитектуру управления данными в компании? Что такое модель a16z? Типы DWH-архитектур

В этой статье мы расскажем, как эволюционировали подходы к архитектуре хранилищ данных, и какая из них может стать единой опорой для аналитики, BI, ML и бизнес-решений.
Мнение автора может не совпадать с мнением редакции

Умение извлекать пользу из данных становится критическим для роста компании. Продуктовые гипотезы, персонализация, прогнозирование спроса, контроль финансов, автоматизация маркетинга — все это невозможно без доступа к актуальной, качественной и структурированной информации.

Меняется и подход бизнеса к работе с данными: аналитику автоматизируют с помощью ИИ и ML, грамотность в области данных становится ключевой компетенцией, появляются новые функциональные роли — Chief Data Officer, Data Scientist, Machine Learning Engineer, специалист по этике ИИ и другие.

Для анализа и управления данными компании внедряют не просто ПО, а масштабные инфраструктуры данных, которые в первую очередь ориентированы на стоящие бизнес-задачи и перспективы масштабирования, а не технологии.

Корпоративное хранилище DWH становится основой этой инфраструктуры. Оно представляет собой сложную систему, обеспечивающую процессы извлечения, обработки, структурирования данных.

Место Data Warehouse (DWH, корпоративное хранилище данных, КХД) в общей архитектуре управления данными

На протяжении десятилетий в индустрии сформировались разные подходы к построению DWH — от классических моделей Инмона и Кимбалла до более современных архитектур Лямбда и Каппа, появившихся в эру Big Data и real-time аналитики. Выбор подхода к проектированию зависит от задач компании.

Команда Qlever зарекомендовала себя на рынке как эксперт в области внедрения корпоративных хранилищ данных. При проектировании хранилищ мы выбираем системный подход — так называемую модель a16z (Unified Data Infrastructure 2.0), которая стремится объединить все компоненты управления данными в единую платформу.

В этой статье мы расскажем, как эволюционировали подходы к архитектуре хранилищ данных, и какая из них может стать единой опорой для аналитики, BI, ML и бизнес-решений.

Подход Инмона: корпоративное хранилище данных «сверху вниз»

Уильям Инмон, отец концепции корпоративных хранилищ данных, заложил основы архитектуры DWH еще в 1980-х. Он предложил классический подход к построению DWH «сверху вниз», который предполагает создание централизованного, нормализованного хранилища данных на уровне предприятия (Enterprise Data Warehouse), из которого уже формируются витрины данных для бизнес-пользователей.

Основной акцент в подходе Инмона делается на целостности и качестве данных. Для интеграции данных из различных источников, их преобразования и загрузки в хранилище активно применяются процессы извлечения, трансформации и загрузки — ETL. 

Все данные сначала проходят очистку и нормализацию, после чего попадают в хранилище в форме 3NF (третьей нормальной форме), которая позволяет избежать аномалий при добавлении, удалении и обновлении данных, уменьшает дублирование и упрощает управление базой данных.

На основе очищенных данных строятся Data Marts (витрины данных) — тематические подмножества, ориентированные на нужды конкретных подразделений.

Data Warehouse по Инмону

Подход позволяет адаптировать данные для различных бизнес-задач, обеспечивает масштабируемость и доступ к подготовленной, согласованной информации для аналитики. Такая модель особенно ценна для компаний с высокой регуляторной нагрузкой, сложной структурой и необходимостью строгого контроля качества данных.

Несмотря на высокую стоимость проектирования и продолжительный период внедрения, эта архитектура обеспечивает долгосрочную устойчивость и согласованность аналитики во всей компании.

Подход Кимбалла: звезды и снежинки

Ральф Кимбалл, американский эксперт по аналитике данных, предложил подход, противоположный методу Инмона, который направлен на практическую ценность для бизнеса.

Архитектура DWH строится «снизу вверх»: сначала создаются доменно-ориентированные — структурированные по областям знаний или ответственности — витрины данных для отдельных бизнес-направлений, которые затем могут быть объединены в хранилище.

Data Warehouse по Кимбаллу

Кимбалл предложил использовать денормализованные модели данных:

  • «Звезда» (star), где в центре находится таблица фактов с агрегированными числовыми показателями для составления отчетов, а вокруг нее расположены денормализованные таблицы измерений, которые описывают хранимые данные


  • «Снежинка» (snowflake) — схема, в которой для сокращения избыточности нормализованы отдельные таблицы измерений


Подход Кимбалла делает данные более доступными для аналитиков и BI-инструментов, а проект — более гибким и адаптивным к изменениям требований. Архитектура позволяет начать использовать аналитику гораздо раньше, не дожидаясь построения централизованного хранилища, оперативно внося изменения. Проект внедрения дробится на этапы, становится более предсказуемым и управляемым.

Такой подход часто выбирают компании, которым важна быстрая окупаемость аналитических инвестиций и высокая вовлеченность бизнес-пользователей.

При масштабировании и усложнении структуры возрастает риск дублирования и несогласованности данных между витринами.

Лямбда-архитектура: объединение потоковой и пакетной обработки

С развитием технологий Big Data и ростом потребности в точной обработке данных в реальном времени, встал вопрос о совмещении быстрой потоковой (стриминговой) обработки с пакетным режимом. Ответом стала Лямбда (Lambda) архитектура, предложенная Натаном Марцом.

Архитектура включает три уровня:

  1. Batch layer — пакетный уровень — для надежного хранения сырых данных и НСИ, периодической пакетной обработки и генерации результатов
  2. Speed layer — потоковый уровень — обеспечивает реактивную обработку новых данных в реальном времени, в обход пакетного уровня, чтобы минимизировать задержки и обеспечить доступ к свежей информации сразу после поступления
  3. Serving layer — слой сервисных данных, обеспечивающий быстрый доступ для анализа


Лямбда-архитектура DWH

Ключевое преимущество Лямбда-архитектуры — точность и полнота анализа при одновременной возможности получать данные здесь и сейчас.

Благодаря параллельной обработке данных в пакетном и потоковом режимах компания может и ежедневно пересчитывать стратегические метрики, и получать данные в режиме, близком к реальному времени: например, по текущим продажам, поведению клиентов или системным инцидентам. Такая архитектура особенно актуальна в сферах, где важно принимать решения быстро, но при этом нельзя жертвовать полнотой данных — например, в eCommerce, финтехе или логистике.

При этом архитектура довольно сложна в реализации и сопровождении: приходится поддерживать два параллельных конвейера обработки, что увеличивает стоимость владения и риск рассинхронизации между слоями.

Kappa-архитектура: все — поток

В качестве альтернативы Лямбда-архитектуре для устранения дублирования логики между batch- и speed-слоями была-предложена Каппа (Kappa) архитектура.

В Kappa-архитектуре используется единый стриминг-конвейер: все события последовательно сохраняются в брокере сообщений (например, Apache Kafka или Apache Pulsar). Это позволяет при изменении логики обработки переигрывать весь поток заново, без необходимости поддерживать отдельный batch-слой.

Каппа-архитектура DWH

Подход устраняет избыточность данных и обеспечивает быстрое масштабирование. Он особенно подходит для проектов, в которых важна минимальная задержка между поступлением и обработкой данных.

Переход к Kappa-архитектуре означает для бизнеса снижение затрат на поддержку и развитие аналитических систем. Поскольку здесь используется единый поток обработки данных, упрощается логика пайплайнов, снижается дублирование кода и точек отказа.

Реализация Kappa-архитектуры требует зрелой инфраструктуры, но позволяет бизнесу быстрее реагировать на происходящее и легче масштабировать решения.

Что такое модель a16z или Unified Data Infrastructure 2.0

В 2020 году эксперты легендарной венчурной компании Andreessen Horowitz (a16z) провели исследования среди передовых data-driven компаний и выделили ключевые тренды в инфраструктуре данных:

  1. Инструменты аналитики мигрируют в облако, что обеспечивает высокую гибкость, масштабируемость и простоту эксплуатации
  2. Требуются более производительные и надежные хранилища, объединяющие возможности Data Lake и СУБД (например, поддерживающие ACID-транзакции и интерактивные SQL-запросы)
  3. ETL- процессы (извлечение-обработка-загрузка) заменяются более гибкими ELT-пайплайнами (извлечение-загрузка-обработка)
  4. Стандартные инструменты оркестрации задач уступают место концепции Dataflow Automation, в которой данные становятся центральным объектом, а их перемещение и обработка между системами происходят автоматически в рамках единого потока, без необходимости дублировать логику в коде оркестратора
  5. Бизнес-аналитика, разработка отчетности и создание дашбордов становятся доступными для пользователей без технического бэкграунда (self-service BI)
  6. Повышаются требования к соблюдению политики безопасности и конфиденциальности, поэтому процессы распределения прав доступа централизуются на data-платформе

Кроме того, активно растет число разнообразных источников данных (SaaS, API, внешние источники), сливаются в единую data-платформу аналитическая и ML-инфраструктура, растет популярность dbt и принципов DataOps — версионирование, CI/CD, тестирование данных и т.д.

Все эти наблюдения приводят к выводу: классическая архитектура хранилища данных больше не отражает действительность.

На смену ей Andreessen Horowitz предложили единую инфраструктуру данных Unified Data Infrastructure, в которой все ключевые процессы работы с данными (сбор, хранение, трансформация, анализ, ML) строятся на единой платформе, а отдельные технологии подбираются в зависимости от уникальных задач.

Инфраструктура данных постоянно совершенствуется. На текущий момент актуальна версияUnified Data Infrastructure 2.0, цель которой — устранить разрозненность в ИТ-инфраструктуре и повысить управляемость данных на всех этапах жизненного цикла.

Unified Data Infrastructure 2.0

Как устроена архитектура Unified Data Infrastructure 2.0

  • Sources — слой источников данных

Данные поступают в хранилище из разных источников — CRM, ERP, веб-сервисов, сенсоров, Excel-файлов, БД и других.

  • Ingestion and Transport — передача и наполнение

Слой обеспечивает доставку данных из источников в хранилище данных. На нем осуществляется репликация данных, real-time сценарии загрузки, оркестрация дата-пайплайнов и Reverse ETL — процесс обратного перемещения преобразованных данных в операционные инструменты и бизнес-приложения.

  • Storage — слой хранения данных

Непосредственно Data Warehouse (DWH) и (или) Data Lake, Data Lakehouse хранилища данных. Storage oбъединяет структурированные данные в единую версию правды для последующей аналитики, Data Science или ML.

  • Query and Processing — запросы и вычисления / обработка по запросу

Слой, в котором осуществляются аналитические запросы, ad-hoc обработка, выполнение SQL/ML-запросов в моменте

  • Transformation — трансформация данных

Слои, в которых осуществляются операции изменения структуры и содержания данных: очистка, нормализация, агрегация, объединение

  • Analysis & Output Layer — потребители данных

Инструменты для предоставления данных в удобной, понятной для пользователя форме BI-дашбордов, отчетов, визуализаций. Доставка ML-инсайтов в продуктовые или операционные системы.

  • Уровень поддержки, управления и контроля — Data Governance, Data Discovery, Data Observability, Entitlements & Security

Интегрируется со всеми уровнями архитектуры — от хранения до аналитики, и обеспечивает:

  1. Соответствие политике безопасности
  2. Соблюдение регуляторных требований (GDPR, Закон О персональных данных)
  3. Мониторинг, алертинг, формирование data lineage
  4. Контроль качества данных и доступов

***

Unified Data Infrastructure (2.0) — это устойчивая, гибкая и масштабируемая инфраструктура, охватывающая все аспекты работы с данными — от BI до ML.

Такой подход позволяет эффективно обрабатывать большие объемы данных, использовать современные инструменты аналитики, а также обеспечивает:

  1. Производительность хранилища — сокращает дублирование данных, упрощает избыточную логику и пайплайны
  2. Быструю адаптация под меняющиеся бизнес-сценарии — каждый компонент можно заменить или настроить
  3. Единый контроль доступа и соответствие требованиям (compliance)
  4. Масштабируемость — позволяет развивать отдельные компоненты, не ломая общую архитектуру
  5. Сокращение стоимости владения DWH за счет объединения компонентов в платформу с единым управлением и поддержкой

Выбор архитектуры на основе модели a16z (Unified Data Infrastructure 2.0) позволяет бизнесу отказаться от сложносоставных, изолированных решений в пользу единой, сквозной платформы данных.

Такой подход особенно полезен в быстрорастущих компаниях или тех, кто переходит к data-driven управлению: сокращается путь от сбора данных до действия, появляются реальные сценарии автоматизации и предиктивной аналитики, а инфраструктура остается устойчивой и масштабируемой.

Именно поэтому компания Qlever Solutions использует архитектурный подход к построению DWH, ориентированный на модель a16z, который сохраняет согласованность, управляемость и возможность изменения каждого компонента хранилища.



DWH, которое работает на ваш бизнес

Поможем сократить стоимость владения DWH без потери производительности при помощи масштабируемых технологий и гибких методологий, адаптированных по ваши задачи

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем