홈
태그
미디어로그
위치로그
방명록

분류 전체보기 (10)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

기억속산책 기억속산책

컨텐츠 검색 블로그 내 검색

SQL

python UDF 성능 개선 작업
개발 2019. 8. 11. 14:27

최근 pyspark 에서 제공되는 udf 를 사용해서 대용량 데이터를 처리하는 문제에 대해서 해결해야할 이슈가 생겼다. 문제는 너무 느리다는것... 테스트 데이터는 17000 row 중에 컬럼의 값을 가져와서 udf 에 정의되어 있는 연산을 수행한후 리턴해주는 간단한 로직... case 1. code puUdf = udf(lambda x:0 if x is None else long(len(x.split(','))), LongType()) puDf = adDf.withColumn('eqClass', puUdf(adDf[orgOrcIndex])) puDf = puDf.groupBy('eqClass').agg(sum('eqClass').alias('cnt')).orderBy('eqClass') 수행 시간 19..

이전

1

다음

인기포스트

ABOUT ME

여행, IT, 영어

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바