Data Pipeline — Lumo glossary

쉬운 설명

회사가 데이터를 의미 있게 쓰려면, '원본이 어딘가에서 들어오면 → 정리되어 분석 가능한 곳으로 흘러가게' 하는 일을 매일·매시간 자동으로 해야 합니다. 그 자동화된 흐름이 데이터 파이프라인입니다. 보통 추출(extract) → 변환(transform) → 적재(load) 단계로 이루어집니다.

파이프라인은 단순한 스크립트가 아닙니다. 실패하면 다시 시도하고, 늦은 데이터가 들어와도 결과가 망가지지 않게 하고, 새 컬럼이 추가되면 알아서 처리하고, 누가 언제 무엇을 돌렸는지 기록해야 합니다. 데이터 양이 늘수록 이 자잘한 일들이 결과 신뢰성의 핵심이 됩니다.

두 가지 큰 모델이 있습니다. ① 배치 파이프라인: 일정 주기(매일 새벽, 매시간)에 한 덩어리씩 처리. 보고서·정산·머신러닝 학습에 적합. ② 스트리밍 파이프라인: 들어오는 이벤트를 즉시 처리. 실시간 추천·이상 탐지·라이브 대시보드에 적합. 한 회사 안에 두 가지가 공존하는 경우가 흔합니다.

도구 생태계가 풍부합니다. 배치 쪽은 Airflow·Prefect·Dagster·dbt가 표준. 스트리밍 쪽은 Kafka·Kinesis(이벤트 버스), Flink·Spark Streaming·Beam(처리 엔진). 클라우드 사업자들은 이 모두를 매니지드 서비스로 제공해 작은 팀도 가볍게 시작할 수 있게 했습니다.

잘 만들기 어렵습니다. ① 데이터 품질이 들쭉날쭉하면 결과도 들쭉날쭉. ② 한 단계가 실패하면 뒤 단계가 잘못된 입력으로 돌 수 있어, 의존성·재시도·격리가 중요. ③ 비용·시간을 관리하지 않으면 새벽 한 시간에 클라우드 비용이 폭증. 그래서 모니터링·알람·테스트(예: dbt tests)를 처음부터 같이 둡니다.

데이터 파이프라인의 개념을 본문 안에서 다른 각도로 비춰 보는 편집형 일러스트. — FIG. 1데이터 파이프라인을 다른 각도에서 다시 봅니다.

비유로 보면

데이터 파이프라인은 정수 시스템 같습니다. 원수가 들어와 침전·여과·소독·저장을 거쳐 깨끗한 물로 가정에 도착합니다. 한 단계라도 막히면 가정에 이상한 물이 가니, 모든 단계가 늘 잘 동작하는지 자동으로 확인해야 합니다.

어디에서 만나나

BI 대시보드의 데이터 공급, 머신러닝 학습·예측, 실시간 추천 시스템, 이상 거래·사기 탐지, IoT 센서 데이터 처리, 마케팅 어트리뷰션, 매출·재고 예측. 데이터가 흐르는 거의 모든 자리에 파이프라인이 깔립니다.

작은 예시

유튜브 같은 서비스에선 시청 이벤트가 1초에 수십만 건씩 들어옵니다. 스트리밍 파이프라인이 그 이벤트를 실시간으로 받아 정리하고, 추천 모델이 그날 사용자의 시청 기록을 곧바로 반영해 다음 추천을 다르게 만듭니다. 이 자동 흐름이 사람 손 없이 돌아가는 게 잘 만든 파이프라인입니다.

자주 하는 오해

오해

흔한 오해 둘. ① '파이프라인은 만들면 끝' — 원본 시스템 변경·스키마 변경·트래픽 증가에 따라 평생 손볼 일이 생깁니다. ② '실시간이 항상 좋다' — 실시간은 비싸고 복잡합니다. 일·주 단위로 충분한 일에 실시간을 들이대면 자원 낭비가 됩니다.

한 줄 정리

좋은 파이프라인의 특징은 '사람이 매번 손을 안 댄다'입니다. 자동화·모니터링·테스트가 같이 자라야 진짜 신뢰할 수 있는 흐름이 됩니다.