본문 바로가기

dataengineer5

[데이터 엔지니어링] - 이커머스 주문 데이터 파이프라인 구축(Snowflake + dbt) 프로젝트는 snowflake + dbt 실제 실습 프로젝트를 데이터엔지니어 관점에서 처음부터 끝까지 따라할수 있게 연습해보려고 합니다. snowflake와 dbt에 대한 자료가 그렇게 많지 않기때문에 직접해보고 연습해보는 과정을 해보기로 했습니다. 프로젝트 주제이커머스 주문 데이터 파이프 라인 구축Snowflake에 원천 데이터를 적재하고, dbt로 Staging -> marts 구조의 분석용 모델을 만드는 프로젝트입니다. 프로젝트로 인해 배우는것들Snowflake 기본 테이블 생성Raw / Staging / Mart 계층 분리dbt source() / ref() 사용dbt 모델 실행dbt test 적용incremental 모델 기초스타 스키마 느낌의 분석 모델 설계전체 아키텍처raw schema └ .. 2026. 3. 9.
[데이터 엔지니어링] - Data Lineage Data Lineage 데이터리니지란 데이터가 어디에서 생성되고 어떻게 변환되고 어디로 이동했는지를 추적하는 데이터 흐름 기록을 말합니다.데이터의 생성부터 변환, 최종 사용까지의 전체 흐름을 추적하는 것입니다.Data Flow에 따라 데이터가 Transform 될 때 원천이 되는 Source 데이터가 어떤 것인지 알 수 있도록 하는 방법론데이터의 흐름을 시각화하는 것.Data Lineage ToolApache AtlasOpenLineageDataHubAmundsen데이터 리니지의 목적 개인정보 보호데이터의 출처와 이동경로를 추적함으로써, 데이터 유출이나 오용을 방지데이터의 신뢰성과 품질을 보장 의사결정과정에서 중요하게 여겨지는 부분오류 원인 이해 및 수정데이터 중복 식별 및 방지를 통한 운영 간소화 및 .. 2026. 3. 9.
[데이터 엔지니어링] - 데이터엔지니어로서 SQL 실력을 향상시키는법 1. 서론SQL은 데이터 엔지니어링의 핵심이다. SQL을 숙달하고 SQL로 무엇을 할수 있는지 이해하면 더나은 데이터 엔지니어가 될수 있다. 만약 내가SQL 기초를 넘어 실력을 향상시키는 방법을 잘 모르겠다.온라인 튜토리얼이 충분히 심도있게 다루지 않았다SQL 관련 핵심 기술 몇가지가 부족한데, 정확히 무엇이 문제인지 짚어내지 못한다.그렇다면 내가 고민해보고 SQL실력을 늘리는 길에대해서 혼자 연구한 비법을 작성해 보려한다.이러한 개념들을 이해하고, 적용하고, 연습하다보면 SQL 실력을 한단계 끌어올릴수 있을것이다. 사전학습 : https://www.w3schools.com/sql/ W3Schools.comW3Schools offers free online tutorials, references and .. 2026. 1. 24.
[Kafka] - 카프카 KSQL(KsqlDB)란? 스트리밍 SQL로 실시간 데이터 처리하기 KsqlDB란?ksqlDB(이전 명칭: KSQL, Kafka SQL)는 Apache Kafka를 위한 스트리밍 SQL 엔진이다. SQL 인터페이스를 제공하여 개발자들이 익숙한 SQL 구문으로 Kafka에서 실시간 스트리밍 처리를 쉽게 할수 있도록 도와준다. 2017년 Confluent 사에서 개발을 시작했으며, 2019년에 KSQL에서 ksqlDB로 재브랜딩되었습니다. Confluent Community License 하에 제공되고 있습니다. 주요 기능1. 친숙한 SQL 구문관계형 데이터베이스와 유사한 방식으로 실시간 스트리밍 데이터를 처리할 수 있다. 복잡한 스트림 처리 로직을 간단한 SQL로 표현할 수 있어 학습 곡선이 낮다.2. 확장 가능한 아키텍처ksqlDB는 fault-tolerant하고 수평.. 2026. 1. 22.
[Redis] - RFID 기반 실시간 재고 조회 API 구축 재고 시스템에서 가장 어려운 문제는 단순히 “재고를 저장하는 것”이 아니라,변화하는 재고를 얼마나 정확하고 빠르게 조회할 수 있느냐다.이번 글에서는 RFID 이벤트를 Kafka로 수집하고,Postgres에 정합성 있게 누적한 뒤,FastAPI + Redis를 이용해 실시간에 가까운 재고 조회 API를 구축한 과정을 정리한다. 현재 까지 작업단계 1.Kafka 토픽으로 RFID 이벤트를 받는다.2.Python Consumer가 이벤트를 읽고 Postgres에 원장으로 저장한다.3.동시에 현재 재고 테이블을 실시간으로 업데이트한다.4.Airflow가 매일 스냅샷과 예측 결과를 생성한다.5.Metabase로 실시간/배치 결과를 한눈에 모니터링한다.실시간 RFID 재고 시스템 구축기 Kafka → Postgre.. 2026. 1. 10.