데이터 엔지니어링

[데이터 엔지니어링] - Cloudera

jyu_seo_ 2026. 3. 1. 19:21

클라우데라

클라우데라(Cloudera)는 하둡(Hadoop) 기반으로 시작해, 현재는 데이터 레이크 + 데이터 웨어하우스 + AI/ML을 통합 제공하는 엔터프라이즈 데이터 플랫폼 기업입니다.

  • 기업용 Hadoop 배포판(CDH) 제공
  • HDFS, YARN, Hive, Impala 등 통합 관리
  • 대기업/금융/공공기관에서 많이 사용

CDP (Cloudera Data Platform)

👉 온프레미스 + 클라우드(AWS, Azure 등) 통합 플랫폼

구성 요소:

영역설명
Data Engineering Spark 기반 ETL 처리
Data Warehouse Hive/Impala 기반 SQL 분석
Machine Learning ML 실험·배포 환경
Data Flow Kafka, NiFi 기반 실시간 처리
Security & Governance Ranger, Atlas 기반 통합 보안

Cloudera vs Hadoop 차이

구분 Hadoop Cloudera
설치 수동 구성 통합 배포 툴 제공
보안 기본 설정 Ranger 기반 세밀한 권한관리
운영 CLI 중심 GUI 관리 콘솔
클라우드 제한적 하이브리드/멀티클라우드 지원

클라우데라는 Hadoop 생태계를 기업 환경에 맞게 안정화·보안·운영 자동화까지 포함해 제공하는 통합 데이터 플랫폼이다.

클라우데라 기술 스포트라이트

Iceberg는 Apache Softwere Foundation을 통해 개발된 100% 오픈 테이블 형식으로, 사용자가 벤더 고정을 피할 수 있도록 돕습니다. 오늘의 일반 공개 발표는 Cloudera Data Warehouseing(CDW), Cloudera Data Engineering(CDE), Cloudera Machine Learning(CML) 등 Cloudera Data Platform(CDP) 내 주요 데이터 서비스 내에서 실행되는 Iceberg를 다룹니다. 이 도구들은 분석가와 데이터 과학자가 동일한 데이터를 쉽게 협업할 수 있도록 도와줍니다. 기업들이 CDP의 일부로서 Iceberg의 혜택을 받기 위해 필요한 노력은 전혀 필요하지 않습니다. 더 이상 고정 작업, 불필요한 데이터 변환, 데이터에서 인사이트를 추출하기 위한 도구와 클라우드 간 데이터 이동이 없습니다.

 

오픈 데이터 레이크하우스를 제공하는 최초의 하이브리드 데이터 플랫폼으로서, CDP는 여러 클라우드 및 온프레미스에 걸쳐 스트리밍과 클라우드 네이티브 객체 저장소에 저장된 데이터를 모두 페타바이트 규모로 다기능 분석을 가능하게 합니다. 이를 통해 고객들은 선호하는 분석 도구를 자유롭게 선택할 수 있습니다. Cloudera의 하이브리드 데이터 비전 통해 오픈 데이터레이크하우스를 도입한 기업들은 데이터 확장에 대한 걱정 없이 온프레미스 환경과 퍼블릭 클라우드와의 애플리케이션 상호운용성과 이동성을 쉽게 얻을 수 있습니다. CDP에 처음부터 내장된 공유 데이터 경험(SDX)을 통해 고객은 모든 데이터에 걸쳐 공통 메타데이터, 보안, 거버넌스 모델을 누릴 수 있습니다.

왜 Apache Iceberg를 Cloudera Data Platform과 통합해야 할까?

Cloudera는 개방성과 상호운용성에 대한 우리의 약속을 분명히 합니다. 이로 인해 Apache Hive, Apache Spark, Apache Nifi, Apache Impala, Apache YuniKorn 등 다양한 커뮤니티에서 혁신에 중요한 기여를 해왔습니다. 2022년 2월, 우리는 CDP 내에서

Apache Iceberg를 도입했습니다.

 

지난 10년간 Cloudera는 Hive 테이블 포맷과 Hive ACID를 도입하여 데이터 레이크에서 다기능 분석을 가능하게 했습니다. 레이크하우스 패턴은 클라우드로 진화했지만, 여전히 주 엔진과 종종 단일 벤더에 묶인 테이블 형식에 의해 주도되고 있습니다. 반면 기업들은 벤더 락인 없이 데이터 레이크에서 고도로 확장 가능하고 유연한 분석 엔진과 서비스를 계속 요구해왔습니다. 조직들은 비즈니스 속도에 맞춰 진화하는 현대적인 데이터 아키텍처를 원하며, 저희는 최초의 오픈 데이터 레이크하우스로 이를 지원하게 되어 기쁩니다.

 

현재 CDP의 일부로 포함된 Apache iceberg는 현대 데이터 아키텍처에 다음과 같은 중요한 이점을 제공한다.

  • - 스키마와 파티션 변경을 하나의 명령어로 다루는 인플레이스 테이블 진화를 일주일간의 번거로운 과정이 아닌 단일 명령으로 구현했습니다
  • - 포렌식 가시성과 규제 준수 기능을 위한 시점 조회를 통한 시간 여행
  • - 엣지부터 AI까지 종단 간 데이터 수명 주기 요구를 동시 다기능 분석으로 제공합니다
  • - 성능: 매우 대규모 데이터 세트를 처리하기 위한 공격적 분할로 성능 향상

CDP는 아이스버그로 가는 가장 빠르고 쉬운 경로를 제공합니다

우리는 Iceberg를 CDP의 SDX 계층에 통합하여 고객이 쉽게 사용할 수 있도록 하고, 오픈 테이블 형식의 생산성과 성능 향상을 바로 사용할 수 있습니다. 고객은 대규모 데이터 세트를 건드리지 않고 단일 명령어로 메타데이터 전용 마이그레이션을 수행합니다. 이것은 채택을 위한 엄청난 가속화 요인입니다.

데이터 레이크하우스를 강화하고, 열어보세요

데이터 레이크하우스는 Cloudera나 우리 고객들에게 새로운 것이 아닙니다. 예를 들어, IQVIA는 Cloudera를 활용해 전 세계 250개의 데이터 웨어하우스(오라클, IBM Netezza, Teradata 시스템을 포함)에서 2페타바이트 이상의 데이터를 통합해 글로벌 다중 테넌트 데이터 레이크로 만들어 분석을 수행합니다. IQVIA는 5년 넘게 Hive 오픈 테이블 형식과 Cloudera의 사전 통합 다기능 분석 플랫폼을 활용해 왔습니다. 하지만 현재의 데이터 레이크하우스 아키텍처 패턴만으로는 충분하지 않습니다. 우리는 기업들이 전체 데이터 수명 주기에 걸쳐 다양한 고급 분석 유용 사례를 제공하고, 완전한 데이터가 움직이며, 운영 중인 데이터베이스 서비스를 제공할 수 있는 플랫폼이 필요하다고 봅니다. 이것이 바로 클라우드 오직 클라우드라만이 하이브리드 데이터 플랫폼에서 제공할 수 있는 오픈 데이터 레이크하우스입니다.

 

자료공유:https://www.cloudera.com/blog/technical/supercharge-your-data-lakehouse-with-apache-iceberg-in-cloudera-data-platform.html