SQL
-
python UDF 성능 개선 작업개발 2019. 8. 11. 14:27
최근 pyspark 에서 제공되는 udf 를 사용해서 대용량 데이터를 처리하는 문제에 대해서 해결해야할 이슈가 생겼다. 문제는 너무 느리다는것... 테스트 데이터는 17000 row 중에 컬럼의 값을 가져와서 udf 에 정의되어 있는 연산을 수행한후 리턴해주는 간단한 로직... case 1. code puUdf = udf(lambda x:0 if x is None else long(len(x.split(','))), LongType()) puDf = adDf.withColumn('eqClass', puUdf(adDf[orgOrcIndex])) puDf = puDf.groupBy('eqClass').agg(sum('eqClass').alias('cnt')).orderBy('eqClass') 수행 시간 19..