이번블로그는 Json파일을 가져와서 데이터를 다루는 몇가지 방법을 알려드리겠습니다.
opensource json example 5를 가져와서 다뤄봤습니다.
아래 링크에 들어가서 데이터를 긁은다음에 json으로 변환해서 업로드후 사용하시면 됩니다.
https://opensource.adobe.com/Spry/samples/data_region/JSONDataSetSample.html#Example5


Convert nested json

bat_df = raw_df랑 join을 시켜주고 key와 상단에 나와있는 batters > batter 데이터를 불러왔습니다.
스키마를 통해서 확인해보니 저렇게 가로로 되어있어서 하단이미지처럼 explode를 사용해서 데이터를 일렬로 나눠주는 모습입니다.explode = 폭파란뜻이기도 합니다.

df_bat와 bat2df을 join하고 그리고 id컬럼을 *로 붙힌다음에 정렬한 모습입니다.


Join

아까 가져온 bat와 topping을 id와 type을 갖고와서 join시키는 과정입니다
간단한게 json 파일을 가져와서 데이터를 다루는 작업을 해봤습니다
'Spark' 카테고리의 다른 글
| [Spark] - Spark (0) | 2026.03.27 |
|---|---|
| [Spark] - 파티션 최적화 (0) | 2026.03.25 |
| [Spark] - Null값 처리 (0) | 2026.03.24 |
| [Spark] - 정규식을 통한 문자열 처리 (0) | 2026.03.23 |
| [Spark] - Spark 기본 동작 (0) | 2026.03.23 |