데이터 엔지니어링

[토스] - 전천후 데이터 분석을 위한 DW 설계 및 운영하기

jyu_seo_ 2026. 3. 1. 19:02

 

 

토스 개발자 컨퍼런스 SLASH 24 - 전천후 데이터 분석을 위한 DW 설계 및 운영하기를 통해서

데이터 웨어하우스를 통해서 데이터가 쌓이면 어떻게 분석을하고 전처리를 어떻게 저장하고 관리하기 편한지에 대한

강의를 듣고 정리를 하게 되었다. 

 

실무적인 부분이나 앞으로 데이터 웨어하우스를 활용할때 생각해야될 부분들을 배울수있어서 강연을 듣고

강연의 내용들을 한번 정리해보려한다.

 

고민의 시작

의사결정자가 체결된 월간 주문건수를 면밀히 살펴봐야 하는데

주문테이블, 체결테이블도 찾아야하고 이것저것 데이터 필터링도 복잡

 

분석을 진행하기 전에 데이터를 찾고 전처리하는 시간을 줄일수 없을까?

위 과정을 미리 해둔 데이터가 있다면 좋지 않을까?

 

ex:) 자주 인입되는 질문을 몇가지 패턴으로 유형화를 할수있다.

-유저가 언제 방문하는지

-daily,weekly,monthly 단위로 몇명 인지

-이탈/복귀/신규 유저 중 어떤 카테고리에 속하는지

  • 복귀했으면 며칠 만에 복귀한건지
  • 이탈했으면 마지막 이용일 기준으로 며칠동안 이탈중인지

그래서 토스증권에서는 AU 테이블이라고 불리는 "active user"를 기록한 테이블을 만들어 사용하고 있고,

특정 지표를 설정하고(act_type이라는 명칭으로 설정)

다양한 관점에서 측정한 테이블을 만들어 내는 pipeline을 만들어 사용하고 있다.

act_type_table에 간단한 명칭이 부여되어있는걸 볼수있다.

 

AU pipeline 2.0

한통에 담았을때 m_ 마트성으로 담기위한 네이밍

 

서비스 혹은 주제설정
Aggregation이 될때 어떤 컬럼값 기준으로 집계가 되었는지 = userKey를 기준으로 넣어놨기 때문에 ukey
5개의 파이썬 파일들로 모든 act_type들을 다룰수 있게 설계
토스에서는 에어플로우를 사용하는데 오래된태스크들을 먼저 돌려주도록 설정해놨다. 리드타임을 줄이기 위한 설정
RDBMS로도 들어오지만 엠로그로도 들어온다