데이터 엔지니어링

[데이터 엔지니어링] - Data Lineage

jyu_seo_ 2026. 3. 9. 15:14

Data Lineage

 

데이터리니지란 데이터가 어디에서 생성되고 어떻게 변환되고 어디로 이동했는지를 추적하는 데이터 흐름 기록을 말합니다.

데이터의 생성부터 변환, 최종 사용까지의 전체 흐름을 추적하는 것입니다.

  • Data Flow에 따라 데이터가 Transform 될 때 원천이 되는 Source 데이터가 어떤 것인지 알 수 있도록 하는 방법론
  • 데이터의 흐름을 시각화하는 것.

Data Lineage Tool

  • Apache Atlas
  • OpenLineage
  • DataHub
  • Amundsen

데이터 리니지의 목적 

  • 개인정보 보호
    데이터의 출처와 이동경로를 추적함으로써, 데이터 유출이나 오용을 방지
  • 데이터의 신뢰성과 품질을 보장
     의사결정과정에서 중요하게 여겨지는 부분
  • 오류 원인 이해 및 수정
  • 데이터 중복 식별 및 방지를 통한 운영 간소화 및 비용절

데이터 리니지의 예시

  • 고객이 고객 서비스 센터에 전화를 걸어 주소변경을 요청할 경우
  • 데이터 리니지는 다른 시스템이 새 주소로 업데이트 되는 데이터 프로세스를 보여줌

특징

데이터 생명주기 생성, 변경, 이동 등 전 생명주기 관리
적시 확인 데이터 최적화 형태 적시 확인
정확성, 안전성 데이터 계보 현행화 시스템 안정성 향상

 

절차 별 구성요소

절차 구성요소 설명
수집/분석 EDF AP, ETT, DA 모델
외부 솔루션 BI/DW, EAI, ETL, CDC, Log
적재/관리 맵핑정보 Data Flow, Data Mgmt
메타데이터 데이터모델, 맵핑/시스템정보
시각화 시각화 툴 데이터 맵, 테이블/컬럼 흐름
리포팅 연관레포팅, BI 리포팅

 

참고자료

https://f-lab.kr/insight/importance-and-strategy-of-data-lineage

 

데이터 리니지의 중요성과 구축 전략

데이터 리니지의 중요성과 구축 전략에 대해 설명하며, 데이터의 신뢰성과 품질을 보장하기 위한 방법론을 제시합니다.

f-lab.kr

https://www.keboola.com/blog/data-lineage-tools

 

7 Best Data Lineage Tools in 2023

Learn why you need a data lineage tool and the seven best tools on the market.

www.keboola.com