Spark

[Spark] - 실전 스파크

jyu_seo_ 2026. 3. 16. 09:50

1달정도 스파크 실무프로젝트를 진행하면서 실전중심의 프로젝트를 해보고 블로그를 작성해보려한다.

폐관수련을 앞두고 내가배울 목표들과 성과를 작성해보겠습니다.

앞으로의 목표

  • Spark의 기본 원리와 환경설정: Spark의 동작 원리와 환경 구성 방법을 익혀 로컬 및 Docker 환경에서 효율적으로 활용할수 있습니다.
  • 분산 데이터 처리와 최적화: Spark의 분산 처리 개념과 데이터 파티션, 셔플, 클러스터 리소스 구성등을 실습하며, 대규모 데이터 처리의 기초를 다집니다.
  • 실무 중심 데이터 처리 기술 습득: 다양한 Spark 명령어를 통해 데이터를 로드, 변환, 필터링, 조합하며, 고급 데이터 처리 기법을 학습합니다.
  • 데이터 분석과 시각화 능력 배양: Spark의 데이터프레임과 SQL 명령을 활용해 데이터를 분석하고, 결과를 시각화합니다.

스파크을 다루며 나타나는 인사이트

  1. Spark 환경 구성
    • 로컬 환경 및 Docker를 활용한 Spark 설치와 설정 방법을 익혀 실습 환경을 구성합니다.
  2. 분산 처리 개념
    • Spark가 대규모 데이터를 처리하는 방식과 분산 처리의 기본 원리를 학습합니다.
  3. Spark 동작 이해
    • Lazy Operation, 파티션, 셔플 등의 핵심 동작 원리를 Jupyter Notebook과 Spark UI를 통해 시각적으로 이해합니다.
  4. 실전 Spark 필수 명령어
    • 데이터 로딩, 날짜 필터링, join, aggregation, UDF 활용, 데이터 저장 등 실무에서 자주 사용되는 명령어를 익힙니다.
    • SQL 명령을 효율적으로 활용하는 방법도 포함됩니다.
  5. 고급 데이터 처리
    • 문자열 데이터 처리, null 값 처리, JSON 데이터 다루기, 파티션 최적화 등 실무에서 흔히 접하는 문제를 다루는 고급 기술을 학습합니다.

한달간 열심히 실무프로젝트 달려보쟈..!

'Spark' 카테고리의 다른 글

[Spark] - 12bestCodingQuestions - 스파크 핵심 기법  (0) 2026.03.21
[Spark] - DataFrame  (0) 2026.03.18
[Spark] - Cluster  (0) 2026.03.18
[Spark] - Partition&Shuffle  (0) 2026.03.17
[Spark] - Spark UI,Lazy Oparation, Action  (0) 2026.03.17