Spark

[Spark] - Json 데이터 다루기(with_Explode)

jyu_seo_ 2026. 3. 24. 22:45

 

이번블로그는 Json파일을 가져와서 데이터를 다루는 몇가지 방법을 알려드리겠습니다.

 

opensource json example 5를 가져와서 다뤄봤습니다.

아래 링크에 들어가서 데이터를 긁은다음에 json으로 변환해서 업로드후 사용하시면 됩니다.

https://opensource.adobe.com/Spry/samples/data_region/JSONDataSetSample.html#Example5

handling json data로 sparksession을 만들어줍니다.
json파일을 불러오고 컬럼이름을 id와 key값으로 변경하는모습

 

Convert nested json

bat_df = raw_df랑 join을 시켜주고 key와 상단에 나와있는 batters > batter 데이터를 불러왔습니다.

스키마를 통해서 확인해보니 저렇게 가로로 되어있어서 하단이미지처럼 explode를 사용해서 데이터를 일렬로 나눠주는 모습입니다.explode = 폭파란뜻이기도 합니다.

정리가 잘된 모습

df_bat와 bat2df을 join하고 그리고 id컬럼을 *로 붙힌다음에 정렬한 모습입니다.

2차정렬
topping 도 가져와봤습니다

Join

아까 가져온 bat와 topping을 id와 type을 갖고와서 join시키는 과정입니다

간단한게 json 파일을 가져와서 데이터를 다루는 작업을 해봤습니다

'Spark' 카테고리의 다른 글

[Spark] - Spark  (0) 2026.03.27
[Spark] - 파티션 최적화  (0) 2026.03.25
[Spark] - Null값 처리  (0) 2026.03.24
[Spark] - 정규식을 통한 문자열 처리  (0) 2026.03.23
[Spark] - Spark 기본 동작  (0) 2026.03.23