1달정도 스파크 실무프로젝트를 진행하면서 실전중심의 프로젝트를 해보고 블로그를 작성해보려한다.
폐관수련을 앞두고 내가배울 목표들과 성과를 작성해보겠습니다.
앞으로의 목표
- Spark의 기본 원리와 환경설정: Spark의 동작 원리와 환경 구성 방법을 익혀 로컬 및 Docker 환경에서 효율적으로 활용할수 있습니다.
- 분산 데이터 처리와 최적화: Spark의 분산 처리 개념과 데이터 파티션, 셔플, 클러스터 리소스 구성등을 실습하며, 대규모 데이터 처리의 기초를 다집니다.
- 실무 중심 데이터 처리 기술 습득: 다양한 Spark 명령어를 통해 데이터를 로드, 변환, 필터링, 조합하며, 고급 데이터 처리 기법을 학습합니다.
- 데이터 분석과 시각화 능력 배양: Spark의 데이터프레임과 SQL 명령을 활용해 데이터를 분석하고, 결과를 시각화합니다.
스파크을 다루며 나타나는 인사이트
- Spark 환경 구성
- 로컬 환경 및 Docker를 활용한 Spark 설치와 설정 방법을 익혀 실습 환경을 구성합니다.
- 분산 처리 개념
- Spark가 대규모 데이터를 처리하는 방식과 분산 처리의 기본 원리를 학습합니다.
- Spark 동작 이해
- Lazy Operation, 파티션, 셔플 등의 핵심 동작 원리를 Jupyter Notebook과 Spark UI를 통해 시각적으로 이해합니다.
- 실전 Spark 필수 명령어
- 데이터 로딩, 날짜 필터링, join, aggregation, UDF 활용, 데이터 저장 등 실무에서 자주 사용되는 명령어를 익힙니다.
- SQL 명령을 효율적으로 활용하는 방법도 포함됩니다.
- 고급 데이터 처리
- 문자열 데이터 처리, null 값 처리, JSON 데이터 다루기, 파티션 최적화 등 실무에서 흔히 접하는 문제를 다루는 고급 기술을 학습합니다.
한달간 열심히 실무프로젝트 달려보쟈..!
'Spark' 카테고리의 다른 글
| [Spark] - 12bestCodingQuestions - 스파크 핵심 기법 (0) | 2026.03.21 |
|---|---|
| [Spark] - DataFrame (0) | 2026.03.18 |
| [Spark] - Cluster (0) | 2026.03.18 |
| [Spark] - Partition&Shuffle (0) | 2026.03.17 |
| [Spark] - Spark UI,Lazy Oparation, Action (0) | 2026.03.17 |