테크 블로그
지금 지원하러 가기
테크 블로그
#DataScience
총 1개의 포스트가 있습니다.
Salting 기법 예제 코드
이 글에서는 salting 기법을 기본 버전, 심화 버전의 pyspark 코드로 보여드립니다. 데이터 엔지니어링 과정에서 두 개 이상의 데이터를 JOIN 할 때 특정 키(key)에 데이터가 집중되는 경우가 발생할 수 있습니다. 이런 것을 데이터 쏠림(skew)이라 합니다. 데이터 쏠림…