요약 정리
핵심 내용 (TL;DR)
- Medallion Architecture는 데이터 레이크하우스(Lakehouse)에서 데이터를 논리적으로 체계화하는 설계 패턴으로, Bronze(원본) → Silver(정제) → Gold(비즈니스) 3단계를 거치며 데이터 품질을 점진적으로 향상시킨다.
- 이 아키텍처의 핵심은 ETL이 아닌 ELT 접근법으로, 원본 데이터를 먼저 적재(Load)한 후 단계별로 변환(Transform)하는 전략이다.
- 저자는 AI 기술 컨퍼런스 노트 정리에 비유하여, 날것의 기록(Bronze) → 정리된 노트(Silver) → 경영진 보고서(Gold)로 설명한다.
주요 포인트
1. Medallion Architecture란?
- 데이터 레이크하우스에서 데이터를 논리적으로 조직화하기 위한 데이터 설계 패턴
- 목표: 단계별로 데이터 품질을 체계적으로 개선하는 방법 제공
- ELT(Extract-Load-Transform) 방식 채택 — 원본 데이터를 먼저 Bronze에 적재하고, 원본 상태를 보존한 채 점진적으로 변환
2. 주요 도구 생태계
- 스토리지: S3, ADLS(Azure Data Lake Storage), GCS
- 테이블 포맷: Delta Lake, Apache Iceberg, Apache Hudi (ACID 트랜잭션 지원)
- 프로세싱: Databricks, dbt, Snowflake
3. 장단점
- 장점: 데이터 리니지(Lineage) 추적 용이, 유연성, 각 단계별 데이터 품질 체크포인트
- 단점: 스토리지 비용 증가, 아키텍처 복잡성
4. 3개 레이어 상세 (AI 컨퍼런스 노트 비유)
레이어 비유 역할
| Bronze (Raw Recording) | 컨퍼런스에서 날것 그대로 받아 적은 노트 | 원본 데이터 랜딩, 최소한의 정리만 수행 |
| Silver (Organized Notebook) | 컨퍼런스 후 정리한 깔끔한 노트 | 중복 제거, null 처리, 오타 수정, 표준화 |
| Gold (Executive Report) | 상사에게 보고하는 경영진 요약 보고서 | 비즈니스 질문에 답할 수 있는 최종 산출물, 집계 및 비정규화 |
5. 구현 체크리스트
- Bronze: 소스 데이터 + load_timestamp 필수 포함
- Silver: 데이터 품질 검증 + 변환(transformation) 적용
- Gold: 최종 사용자(end-user)의 니즈를 중심으로 설계
한글 번역
Medallion Architecture 101: 왜 메달리온 아키텍처는 결국 스마트한 노트 정리 전략인가
저자: Henry | 2026년 1월 9일
원시(Raw) "Bronze" 데이터의 혼돈을 세련된 "Gold" 비즈니스 인사이트로 바꾸는, 확장 가능한 ELT 파이프라인 구축을 위한 실용 가이드.
Medallion Architecture란 무엇인가?
Medallion Architecture(메달리온 아키텍처)는 레이크하우스(Lakehouse) 내에서 데이터를 논리적으로 조직화하기 위한 데이터 설계 패턴이다. 핵심 목표는 단계(stage)를 거치며 데이터 품질을 체계적으로 향상시키는 방법을 제공하는 것이다.
ELT, ETL이 아니다
이 아키텍처의 핵심 철학은 ELT(Extract-Load-Transform)이다. 원본(raw) 데이터를 먼저 Bronze 레이어에 적재(Load)하여 원본 상태를 보존한다. 그런 다음 점진적으로(incrementally) 변환(Transform)을 수행한다. 이는 기존의 ETL(Extract-Transform-Load) 방식과 대비되는 접근법으로, 데이터를 변환하기 전에 먼저 안전하게 저장하는 것을 우선시한다.
일반적인 도구 생태계
메달리온 아키텍처를 구현할 때 흔히 사용되는 도구들은 다음과 같다:
- 스토리지(Storage): Amazon S3, Azure Data Lake Storage(ADLS), Google Cloud Storage(GCS)
- 테이블 포맷(Format): Delta Lake, Apache Iceberg, Apache Hudi — 모두 ACID 트랜잭션을 지원하는 오픈 테이블 포맷
- 프로세싱(Processing): Databricks, dbt, Snowflake
장점과 단점
장점:
- 리니지(Lineage)와 유연성: 데이터가 어디서 왔고 어떻게 변환되었는지 추적 가능
- 데이터 품질 체크포인트: 각 레이어 전환 시점에서 품질 검증 수행 가능
단점:
- 스토리지 비용: 동일 데이터의 여러 복사본을 유지하므로 저장 비용 증가
- 복잡성(Complexity): 아키텍처 설계 및 운영에 추가적인 복잡도 발생
3개 레이어 — AI 기술 컨퍼런스 노트 정리 비유
저자는 메달리온 아키텍처의 3개 레이어를 AI 기술 컨퍼런스에서 노트를 정리하는 과정에 비유하여 설명한다.
Bronze 레이어 (Raw Recording — 날것의 녹음)
Bronze 레이어는 **원본 데이터가 처음 도착하는 랜딩 존(landing zone)**이다. 최소한의 정리만 수행하며, 데이터의 원본 상태를 최대한 보존한다.
이는 마치 컨퍼런스에서 날것 그대로 받아 적는 노트와 같다. 발표자의 말을 빠짐없이 기록하되, 정리하거나 편집하지 않는다. 오타가 있어도, 중복이 있어도, 일단 그대로 적어둔다.
Silver 레이어 (Organized Notebook — 정리된 노트)
Silver 레이어에서는 Bronze의 원시 데이터를 필터링하고 정제한다. 구체적으로 다음과 같은 작업을 수행한다:
- 중복 제거(deduplication): 같은 내용이 여러 번 기록된 것을 하나로 통합
- Null 처리: 빠진 값을 처리하고 보완
- 오타 수정: 잘못된 데이터 값을 교정
- 표준화(standardization): 일관된 형식으로 데이터 통일
이는 마치 컨퍼런스가 끝난 후 자리에 앉아 노트를 깔끔하게 정리하는 과정이다. 중복된 내용을 지우고, 약어를 풀어쓰고, 카테고리별로 분류하며, 빠진 부분을 채운다.
Gold 레이어 (Executive Report — 경영진 보고서)
Gold 레이어는 비즈니스 질문에 직접 답할 수 있는 최종 산출물이다. 데이터를 집계(aggregate)하고, 비정규화(denormalize)하여 특정 비즈니스 유스케이스에 최적화한다.
이는 마치 상사(경영진)에게 보고할 요약 보고서를 작성하는 것과 같다. 상사는 노트의 날것이나 정리 과정에는 관심이 없다. "이번 컨퍼런스에서 우리 팀이 알아야 할 핵심 인사이트 3가지"와 같은, 바로 의사결정에 활용할 수 있는 정보만 필요로 한다.
구현 체크리스트
각 레이어를 구현할 때 확인해야 할 핵심 사항:
- Bronze: 소스 데이터 원본과 함께 반드시 load_timestamp(적재 시점)를 기록할 것
- Silver: 데이터 품질 검증 규칙을 적용하고, 필요한 변환(transformation)을 수행할 것
- Gold: 항상 최종 사용자(end-user)의 니즈를 먼저 생각하고 설계할 것
관련 자료 및 링크
원문 링크
관련 자료
- Medallion Architecture (Bronze/Silver/Gold): Is It Still Relevant in 2026? — Reliable Data Engineering: 2026년 시점에서 메달리온 아키텍처가 여전히 유효한지 검토하는 글
- What is the Medallion Lakehouse Architecture? — Microsoft Learn (Azure Databricks): Microsoft의 공식 메달리온 아키텍처 문서 (Azure Databricks)
- What is Medallion Architecture? — Databricks: Databricks 공식 메달리온 아키텍처 용어집
- The 2025 & 2026 Ultimate Guide to the Data Lakehouse — DEV Community: 2025-2026년 데이터 레이크하우스 생태계 종합 가이드
- Data Lakehouse Architecture in 2025: Benefits, Challenges & Best Practices — Medium: 데이터 레이크하우스 아키텍처의 이점, 도전, 모범 사례
- Apache Iceberg And Trino: Powering Data Lakehouse Architecture — Open Source For You: Apache Iceberg와 Trino를 활용한 레이크하우스 아키텍처 구현
- Databricks Lakehouse Fundamentals: Your 2026 Guide — HatchWorks: 2026년 Databricks 레이크하우스 기초 가이드
'Data Analysis > Data Engineering' 카테고리의 다른 글
| DataHub vs OpenMetadata 메타데이터 카탈로그 시스템 비교 보고서 (1) | 2025.06.22 |
|---|---|
| DataHub: 현대 데이터 조직을 위한 강력한 데이터 카탈로그 시스템 1 (1) | 2025.06.22 |
| CP 터미널 명령어는 뭐 하는 명령어일까 ? - cp custom_vanna.py custom_vanna.py.backup (0) | 2025.05.28 |
| ICEBURG TABLE - Iceberg란 무엇인가? (0) | 2025.04.13 |
| 데이터 저장 형식 TextInputFormat/ Parquet 관련해서 정리 (2) | 2024.08.06 |
댓글