CS

[CS] - 데이터 웨어하우스, 데이터 마트, 데이터레이크 개념 정리 (Data Warehouse, Data Lake)

jyu_seo_ 2026. 1. 27. 11:41

데이터 웨어하우스란?

 

데이터 웨어하우스(Data Warehouse)란 정보(data)와 창고(warehouse)의 의미가 합성되어 만들어진 어휘로, 조직 전체의 여러 소스들(ERP,CRM,데이터베이스,loT,파트너 시스템등)로 부터 데이터를 저장하고 처리하여 비즈니스 인텔리전스(BI)활동, 특히 분석을 활성화 및 지원하기 위해 설계된 데이터 관리 시스템의 한 유형이다.

 

쉽게 사용자의 의사 결정에 도움을 주기 위하여 정보들이 분석 가능한 형태로 저장되어 있는 중앙 저장소이며, 때문에 '의사결정 지원 시스템'이라고도 하는데 데이터 웨어하우스는 기존의 정보를 활용해 더 나은 정보를 제공하고, 데이터 품질을 향상하며, 비용과 자원 관리의 효율성을 향상하는등의 목적을 가지고 있으며, 실제 비즈니스 부분에서 사용되는 대시보드,리포트,분석 툴 등의 기능을 강화하는 역할을 하고있다.

 

데이터 웨어하우스의 4가지 특성

주제 지향적(Subject Oriented)

'업무 중심이 아닌 주제 중심' 기존의 데이터베이스가 '기능'이나'업무'처리를 중심으로 설계된 것에 비해 데이터 웨어하우스는 이용자 관점에서 접근이 가능한 '주제' 중심으로 데이터가 구성된다.

통합적(Integrated)

'데이터의 정합성과 물리적 일관성을 갖는 구조' 데이터웨어하우스(DW)는 데이터 속성의 이름, 코드 구조, 단위 등의 일관성을 유지하는 등, 전사적인 데이터 표준화를 통해 데이터의 통일성을 확보한다.

비휘발성(Non-volatile)

'데이터의 갱신이 발생하지 않는 조회 전용 데이터' 데이터 웨어하우스에는 일반적으로 데이터 갱신 프로세스가 존재하지 않으며, 데이터 적재와 데이터 엑서스만 존재한다.따라서 데이터 웨어하우스 내의 데이터는 일단 적재(Loading)가 완료되면 읽기 전용의 스냅 샷(Snapshot)데이터로 존재하게 된다.

시계열적(Time Variant)

'시간 변이적'시계열성은 어떤 자료가 시간에 따라 변경되어야 하는것이 아니고, 시간에 따른 변경을 항상 반영하고 있어야 함을 의미한다.(이력 데이터를 통해 시간 경과에 따른 데이터의 변화 과정을 파악할 수 있다.)


데이터 레이크란?

데이터 레이크(Data Lake)는 정형,반정형 및 비정형 데이터를 비롯한 가공되지 않은 모든 종류의 데이터 저장,처리,보호하기 위한 중앙 집중식 저장소이다. 데이터 레이크는 크기 제한을 무시하고 다양한 데이터를 기본 형식으로 저장할 수 있다는 특징이 있다.

애플리케이션, SNS, loT 등에서 얻은 데이터는 데이터 레이크에서 원시 데이터로 수집된다.

 

데이터 레이크는 빅데이터 시대에 도래하며 그 중요성이 다시 부각되고 있다.

빅데이터 분석을 위해 정형 데이터 뿐만 아니라 비정형 데이터까지 수집하고 분석하는 것에 대한 수요가 높아지면서 데이터 종류와 모델에 관계없이 모든 유형의 데이터를 저장하고 분석할 수 있는 데이터레이크의 활용도가 높아지고 있다. 한문장으로 정리하자면,

데이터 레이크는 빅데이터를 효율적으로 분석하고 관리하는데 목적을 두고 있다.

 

데이터레이크에 있는 데이터(원시 데이터)는 쿼리 되기 전까지는 정의되지 않는다는 특징이 있는데,

해당 데이터는 분석을 위해 필요할 때 변환되며, 이때'읽기 스키마(schema on read)'가 적용되어 데이터분석이 가능해진다.

 

데이터 레이크에는 데이터의 가치를 끌어낼 수 있는 적절한 설계와 명확한 방법 없이 그저 데이터를 수집만 하게 되는 경우 잘못 관리된 데이터에 대한 '데이터 늪(Data Swamp)'이 생길수 있다.


데이터 웨어하우스와 데이터 레이크의 차이점

 

먼저 데이터 레이크는 처리되지 않은 원시 데이터를 저장하는 반면, 데이터 웨어하우스에서는 데이터를 정제한 뒤에 저장한다는 차이점이 있다. 데이터레이크에는 정형,반정형, 비정형 데이터를 모두 저장할 수 있는 반면, 데이터 웨어하우스는 정형 데이터를 저장하는데 최적화 되어 있다는 차이점도 있다. 또한 데이터 레이크의 경우 미리 정의된 목적이 없는 데이터를 저장하는 반면, 데이터 웨어하우스는 미리 정의된 목적을 가진 데이터를 저장한다는 차이점이 있다.

 

이처럼 데이터 웨어하우스와 데이터 레이크는 데이터 저장의 기능을 포함하고 있지만 각각 다른 용도에 맞게 최정화 되어 있으며, 필요에 따라 이 두가지는 같이 사용되며 상호 보완적인 역할을 할 수 있다.

 


데이터 마트

데이터 마트는 조직의 사업부와 관련된 정보를 포함하는 데이터 스토리지 시스템입니다. 여기에는 회사가 더 큰 스토리지 시스템에 저장하는 데이터의 일부만 포함됩니다. 기업은 데이터 마트를 사용하여 부서별 정보를 보다 효율적으로 분석합니다. 주요 이해 관계자가 정보에 입각한 결정을 신속하게 내리는 데 사용할 수 있는 요약 데이터를 제공합니다. 

예를 들어, 회사는 공급업체 정보, 주문, 센서 데이터, 직원 정보 및 재무 레코드와 같은 다양한 소스의 데이터를 데이터 웨어하우스 또는 데이터 레이크에 저장할 수 있습니다. 그러나 회사는 소셜 미디어 리뷰 및 고객 레코드와 같은 마케팅 부서와 관련된 정보를 데이터 마트에 저장합니다.

다른 유형의 데이터 스토리지 시스템과 비교하여 데이터 마트는 어떤가?

데이터 마트와 데이터 웨어하우스의 비교

데이터 마트는 데이터 웨어하우스의 많은 특성을 공유합니다. 차이점은 데이터 웨어하우스에는 다양한 주제에 대한 전사적 데이터가 포함되어 있다는 것입니다. 한편 데이터 마트는 특정 주제와 밀접하게 관련된 정보를 저장합니다. 예를 들어, 데이터 웨어하우스는 마케팅, 인사, 조달 및 고객 지원 부서에 대한 정보를 저장할 수 있습니다. 그러나 데이터 마트는 단일 부서와 관련된 트랜잭션 데이터만 저장할 수 있습니다. 데이터 마트 빌드의 매력은 데이터 마트를 관리하는 부서가 데이터 로드 및 관리를 완전히 제어할 수 있다는 것입니다. 

많은 조직에서 데이터 공유와 같은 기술을 사용하여 데이터 마트를 중앙 데이터 웨어하우스에 게시하고 있습니다. 이를 통해 소유권을 분산시키고 워크로드를 격리하여 더 민첩해질 수 있습니다. 유사하게, 데이터 공유를 통해 부서별 데이터 마트는 데이터 웨어하우스 또는 기타 데이터 마트에서 공유된 데이터를 사용할 수 있습니다.

데이터 마트와 데이터 레이크의 비교

데이터 레이크는 처리되지 않은 데이터를 저장하기 때문에 일부 정보는 중복되거나 회사에 의미가 없을 수 있습니다. 한편, 데이터 마트는 특정 요구에 맞는 처리된 데이터를 저장합니다. 데이터 레이크는 데이터 마트의 소스가 될 수 있습니다. 기업은 데이터 마트의 기록 데이터를 보고 데이터 추세를 결정하지만 데이터 레이크를 사용하여 저장된 정보를 심층적으로 분석합니다. 

데이터 마트의 중요성

기업에서 데이터 마트를 사용할 수 있는 몇 가지 좋은 이유가 여기에 있습니다. 

보다 효율적으로 데이터 검색

기업은 데이터 마트를 사용하여 특정 정보에 보다 효율적으로 액세스할 수 있습니다. 데이터 웨어하우스와 비교할 때 데이터 마트에는 부서에서 자주 액세스하는 관련 세부 정보가 포함되어 있습니다. 따라서 비즈니스 관리자는 성과 보고서 또는 그래픽을 생성하기 위해 전체 데이터 웨어하우스를 검색할 필요가 없습니다.

의사 결정 간소화

기업은 데이터 마트를 사용하여 데이터 웨어하우스에서 데이터의 하위 세트를 만들 수 있습니다. 그러면 부서 내의 직원이 데이터를 분석하고 동일한 정보 세트를 기반으로 결정을 내릴 수 있습니다. 

보다 효과적으로 정보 제어

데이터 마트는 직원들에게 매우 세분화된 액세스 권한을 제공합니다. 즉, 회사는 특정 사용자에게 특정 데이터를 보거나 검색할 수 있는 권한을 부여할 수 있습니다. 이는 기업이 데이터 거버넌스 개선하고 정보 액세스 정책을 시행하는 데 도움이 됩니다. 예를 들어, 데이터 마트를 사용하여 데이터 웨어하우스의 특정 정보에 대한 사용자 액세스를 직원에게 제공할 수 있습니다.

유연하게 데이터 관리

데이터 마트는 데이터 웨어하우스보다 더 작고 테이블 수가 적습니다. 즉, 데이터 엔지니어가 주요 데이터베이스 변경 없이 데이터 마트에서 정보를 관리하고 변경할 수 있습니다.