python UDF 성능 개선 작업

개발 2019. 8. 11. 14:27

최근 pyspark 에서 제공되는 udf 를 사용해서 대용량 데이터를 처리하는 문제에 대해서 해결해야할 이슈가 생겼다.

문제는 너무 느리다는것...

테스트 데이터는 17000 row 중에 컬럼의 값을 가져와서 udf 에 정의되어 있는 연산을 수행한후 리턴해주는 간단한 로직...

case 1.

code

puUdf = udf(lambda x:0 if x is None else long(len(x.split(','))), LongType())

puDf = adDf.withColumn('eqClass', puUdf(adDf[orgOrcIndex]))

puDf = puDf.groupBy('eqClass').agg(sum('eqClass').alias('cnt')).orderBy('eqClass')

수행 시간

195.8초

로컬환경에서 돌린것임으로 수행시간의 차이는 있을수 있지만...

udf 를 사용하지 않고 수행하게 되면 다음과 같이 성능이 개선되는것을 볼 수 있었다.

code

puDf = adDf.groupBy('eq_cnt').agg(sum('eq_cnt').alias('eqClass')).orderBy('eq_cnt')

수행시간

46.6초

대략 1/4 정도로 줄어드는 결과를 볼 수 있었다.

Spark 성능 튜닝 ( inferSchema ) (0)	2020.04.20
iBATIS, Hibernate, and JPA: Which is right for you? (0)	2019.08.08

기억속산책 기억속산책