쉬운 설명
회사 데이터는 보통 영업 CRM·결제 시스템·웹 로그·광고 콘솔처럼 여기저기 흩어져 있습니다. 각각이 자기 형식과 정의로 저장하기 때문에, 'A 캠페인이 매출에 얼마나 기여했나' 같은 질문을 답하려면 데이터를 한곳에 모아 표준화해야 합니다. 그 한곳이 데이터 웨어하우스입니다.
웨어하우스는 분석을 위해 설계됩니다. ① 컬럼 기반 저장(집계 쿼리에 강함), ② 분산 처리(큰 데이터를 여러 서버에 나눠 동시에), ③ 스타 스키마 같은 정리된 데이터 모델(사실 표 + 차원 표), ④ SQL 표준 지원. 운영 DB와는 다른 트레이드오프를 갖는 별도 시스템입니다.
현대 클라우드 웨어하우스의 대표는 Snowflake·BigQuery·Redshift·Databricks·ClickHouse입니다. 모두 '스토리지와 컴퓨팅 분리' — 데이터를 저장하는 비용과 쿼리하는 비용을 따로 관리 — 라는 같은 발상을 공유합니다. 작은 회사도 매월 수십~수백만 원 수준으로 시작할 수 있게 됐습니다.
데이터 레이크와의 차이: 레이크는 '원본을 일단 다 보관', 웨어하우스는 '깔끔히 정리해서 분석 즉시 가능하게'. 최근에는 둘의 장점을 합친 레이크하우스가 일반화되어, 같은 저장소에서 원본 보관과 분석을 같이 합니다. Databricks·Snowflake가 이 흐름의 선두입니다.
웨어하우스 위에는 보통 dbt(데이터 모델링·변환), Tableau·Looker·메타베이스(시각화), Hightouch·Census(역방향 ETL — 웨어하우스에서 영업 도구로 다시 보내기) 같은 도구가 얹힙니다. '모든 팀이 같은 숫자를 본다'는 사실은 의외로 강력합니다 — 회의에서 숫자 차이를 다투는 시간이 사라지고, 의사결정 속도가 빨라집니다.

비유로 보면
웨어하우스는 회사의 중앙 도서관과 같습니다. 부서마다 자기 자료실(영업·재무·운영)이 있어도, 중앙 도서관에 같은 자료의 정리된 사본이 모여 있어 누구나 '같은 책의 같은 페이지'를 볼 수 있습니다. 회의에서 '내가 본 숫자와 네 숫자가 왜 달라?'가 사라지는 게 그 가치의 절반입니다.
어디에서 만나나
BI 대시보드의 데이터 공급, 마케팅 어트리뷰션 분석, 영업·재무 보고서, 머신러닝 학습 데이터 준비, A/B 테스트 결과 평가, 고객 데이터 통합(CDP). 어느 정도 규모 있는 회사라면 거의 모두 한 가지 클라우드 웨어하우스를 운영합니다.
작은 예시
마케팅·재무·운영 팀이 매일 아침 같은 대시보드를 보고 '오늘의 매출, 광고 ROI, 재고 회전율'을 확인합니다. 이 숫자들이 서로 어긋나지 않는 이유는, 모든 팀이 보는 데이터가 같은 웨어하우스에서 나오기 때문입니다.
자주 하는 오해
한 줄 정리
웨어하우스의 핵심 가치는 '단일 출처(single source of truth)'입니다. 같은 숫자를 두고 모두가 의사결정을 할 수 있게 되는 순간, 회사의 속도가 한 단계 올라갑니다.
