LumoMate
LumoMate/용어집/SedimentData

데이터 웨어하우스

데이터 웨어하우스(Data Warehouse)는 여러 시스템에서 모은 데이터를 분석용으로 정리해 둔 중앙 저장소입니다. BI 대시보드·보고서의 단일 출처 역할을 합니다.
데이터 웨어하우스의 개념을 표현한 편집형 일러스트.

쉬운 설명

회사 데이터는 보통 영업 CRM·결제 시스템·웹 로그·광고 콘솔처럼 여기저기 흩어져 있습니다. 각각이 자기 형식과 정의로 저장하기 때문에, 'A 캠페인이 매출에 얼마나 기여했나' 같은 질문을 답하려면 데이터를 한곳에 모아 표준화해야 합니다. 그 한곳이 데이터 웨어하우스입니다.

웨어하우스는 분석을 위해 설계됩니다. ① 컬럼 기반 저장(집계 쿼리에 강함), ② 분산 처리(큰 데이터를 여러 서버에 나눠 동시에), ③ 스타 스키마 같은 정리된 데이터 모델(사실 표 + 차원 표), ④ SQL 표준 지원. 운영 DB와는 다른 트레이드오프를 갖는 별도 시스템입니다.

현대 클라우드 웨어하우스의 대표는 Snowflake·BigQuery·Redshift·Databricks·ClickHouse입니다. 모두 '스토리지와 컴퓨팅 분리' — 데이터를 저장하는 비용과 쿼리하는 비용을 따로 관리 — 라는 같은 발상을 공유합니다. 작은 회사도 매월 수십~수백만 원 수준으로 시작할 수 있게 됐습니다.

데이터 레이크와의 차이: 레이크는 '원본을 일단 다 보관', 웨어하우스는 '깔끔히 정리해서 분석 즉시 가능하게'. 최근에는 둘의 장점을 합친 레이크하우스가 일반화되어, 같은 저장소에서 원본 보관과 분석을 같이 합니다. Databricks·Snowflake가 이 흐름의 선두입니다.

웨어하우스 위에는 보통 dbt(데이터 모델링·변환), Tableau·Looker·메타베이스(시각화), Hightouch·Census(역방향 ETL — 웨어하우스에서 영업 도구로 다시 보내기) 같은 도구가 얹힙니다. '모든 팀이 같은 숫자를 본다'는 사실은 의외로 강력합니다 — 회의에서 숫자 차이를 다투는 시간이 사라지고, 의사결정 속도가 빨라집니다.

데이터 웨어하우스의 개념을 본문 안에서 다른 각도로 비춰 보는 편집형 일러스트.
FIG. 1데이터 웨어하우스를 다른 각도에서 다시 봅니다.

비유로 보면

웨어하우스는 회사의 중앙 도서관과 같습니다. 부서마다 자기 자료실(영업·재무·운영)이 있어도, 중앙 도서관에 같은 자료의 정리된 사본이 모여 있어 누구나 '같은 책의 같은 페이지'를 볼 수 있습니다. 회의에서 '내가 본 숫자와 네 숫자가 왜 달라?'가 사라지는 게 그 가치의 절반입니다.

어디에서 만나나

BI 대시보드의 데이터 공급, 마케팅 어트리뷰션 분석, 영업·재무 보고서, 머신러닝 학습 데이터 준비, A/B 테스트 결과 평가, 고객 데이터 통합(CDP). 어느 정도 규모 있는 회사라면 거의 모두 한 가지 클라우드 웨어하우스를 운영합니다.

작은 예시

마케팅·재무·운영 팀이 매일 아침 같은 대시보드를 보고 '오늘의 매출, 광고 ROI, 재고 회전율'을 확인합니다. 이 숫자들이 서로 어긋나지 않는 이유는, 모든 팀이 보는 데이터가 같은 웨어하우스에서 나오기 때문입니다.

자주 하는 오해

오해
흔한 오해 둘. ① '웨어하우스만 있으면 분석이 잘된다' — 좋은 데이터 모델·문서·교육 없이는 같은 질문에 다른 답이 나옵니다. ② '비싸서 큰 회사용' — 클라우드 매니지드 서비스 덕에 작은 팀도 수십만 원 수준으로 시작할 수 있습니다.

한 줄 정리

웨어하우스의 핵심 가치는 '단일 출처(single source of truth)'입니다. 같은 숫자를 두고 모두가 의사결정을 할 수 있게 되는 순간, 회사의 속도가 한 단계 올라갑니다.
매주 월요일 오전 8시

한 주에 한 통,
오래 남는 이해를 보냅니다.

흘려보내지 않는 글만 골라 보내드립니다. 광고와 추적, 외부로 빠지는 미끼 링크 없이 메일 안에서 끝나는 한 통입니다.

언제든 한 번의 클릭으로 해지할 수 있습니다. 스팸은 보내지 않습니다.