[Spark] - 실전 스파크

Spark

jyu_seo_ 2026. 3. 16. 09:50

1달정도 스파크 실무프로젝트를 진행하면서 실전중심의 프로젝트를 해보고 블로그를 작성해보려한다.

폐관수련을 앞두고 내가배울 목표들과 성과를 작성해보겠습니다.

Spark의 기본 원리와 환경설정: Spark의 동작 원리와 환경 구성 방법을 익혀 로컬 및 Docker 환경에서 효율적으로 활용할수 있습니다.
분산 데이터 처리와 최적화: Spark의 분산 처리 개념과 데이터 파티션, 셔플, 클러스터 리소스 구성등을 실습하며, 대규모 데이터 처리의 기초를 다집니다.
실무 중심 데이터 처리 기술 습득: 다양한 Spark 명령어를 통해 데이터를 로드, 변환, 필터링, 조합하며, 고급 데이터 처리 기법을 학습합니다.
데이터 분석과 시각화 능력 배양: Spark의 데이터프레임과 SQL 명령을 활용해 데이터를 분석하고, 결과를 시각화합니다.

Spark 환경 구성
- 로컬 환경 및 Docker를 활용한 Spark 설치와 설정 방법을 익혀 실습 환경을 구성합니다.
분산 처리 개념
- Spark가 대규모 데이터를 처리하는 방식과 분산 처리의 기본 원리를 학습합니다.
Spark 동작 이해
- Lazy Operation, 파티션, 셔플 등의 핵심 동작 원리를 Jupyter Notebook과 Spark UI를 통해 시각적으로 이해합니다.
실전 Spark 필수 명령어
- 데이터 로딩, 날짜 필터링, join, aggregation, UDF 활용, 데이터 저장 등 실무에서 자주 사용되는 명령어를 익힙니다.
- SQL 명령을 효율적으로 활용하는 방법도 포함됩니다.
고급 데이터 처리
- 문자열 데이터 처리, null 값 처리, JSON 데이터 다루기, 파티션 최적화 등 실무에서 흔히 접하는 문제를 다루는 고급 기술을 학습합니다.

한달간 열심히 실무프로젝트 달려보쟈..!

[Spark] - 12bestCodingQuestions - 스파크 핵심 기법 (0)	2026.03.21
[Spark] - DataFrame (0)	2026.03.18
[Spark] - Cluster (0)	2026.03.18
[Spark] - Partition&Shuffle (0)	2026.03.17
[Spark] - Spark UI,Lazy Oparation, Action (0)	2026.03.17

jyuseo

데이터 서빙알바생 쥬

데이터베이스, 코딩, 리트코드, 프로그래머스, 개발, 스파크, leetcode, 개발자, 데이터엔지니어, MYSQL, spark, SQL, 쿼리, hadoop, 하둡, 파이썬, 데엔, 코딩테스트, 코테, python,

jyuseo