Data Lineage

데이터리니지란 데이터가 어디에서 생성되고 어떻게 변환되고 어디로 이동했는지를 추적하는 데이터 흐름 기록을 말합니다.
데이터의 생성부터 변환, 최종 사용까지의 전체 흐름을 추적하는 것입니다.
- Data Flow에 따라 데이터가 Transform 될 때 원천이 되는 Source 데이터가 어떤 것인지 알 수 있도록 하는 방법론
- 데이터의 흐름을 시각화하는 것.
Data Lineage Tool
- Apache Atlas
- OpenLineage
- DataHub
- Amundsen
데이터 리니지의 목적
- 개인정보 보호
데이터의 출처와 이동경로를 추적함으로써, 데이터 유출이나 오용을 방지 - 데이터의 신뢰성과 품질을 보장
의사결정과정에서 중요하게 여겨지는 부분 - 오류 원인 이해 및 수정
- 데이터 중복 식별 및 방지를 통한 운영 간소화 및 비용절
데이터 리니지의 예시
- 고객이 고객 서비스 센터에 전화를 걸어 주소변경을 요청할 경우
- 데이터 리니지는 다른 시스템이 새 주소로 업데이트 되는 데이터 프로세스를 보여줌
특징
| 데이터 생명주기 | 생성, 변경, 이동 등 전 생명주기 관리 |
| 적시 확인 | 데이터 최적화 형태 적시 확인 |
| 정확성, 안전성 | 데이터 계보 현행화 시스템 안정성 향상 |
절차 별 구성요소
| 절차 | 구성요소 | 설명 |
| 수집/분석 | EDF | AP, ETT, DA 모델 |
| 외부 솔루션 | BI/DW, EAI, ETL, CDC, Log | |
| 적재/관리 | 맵핑정보 | Data Flow, Data Mgmt |
| 메타데이터 | 데이터모델, 맵핑/시스템정보 | |
| 시각화 | 시각화 툴 | 데이터 맵, 테이블/컬럼 흐름 |
| 리포팅 | 연관레포팅, BI 리포팅 |
참고자료
https://f-lab.kr/insight/importance-and-strategy-of-data-lineage
데이터 리니지의 중요성과 구축 전략
데이터 리니지의 중요성과 구축 전략에 대해 설명하며, 데이터의 신뢰성과 품질을 보장하기 위한 방법론을 제시합니다.
f-lab.kr
https://www.keboola.com/blog/data-lineage-tools
7 Best Data Lineage Tools in 2023
Learn why you need a data lineage tool and the seven best tools on the market.
www.keboola.com
'데이터 엔지니어링' 카테고리의 다른 글
| [데이터 엔지니어링] - 이커머스 주문 데이터 파이프라인 구축(Snowflake + dbt) (0) | 2026.03.09 |
|---|---|
| [데이터 엔지니어링] - Data Lake House (0) | 2026.03.09 |
| [데이터 엔지니어링] - BigQuery 해부하기 (0) | 2026.03.08 |
| [데이터 엔지니어링] - Cloud Data Warehouse(BigQuery&Snowflake) (1) | 2026.03.04 |
| [데이터 엔지니어링] - Cloudera (1) | 2026.03.01 |