개발
-
Spark 성능 튜닝 ( inferSchema )개발 2020. 4. 20. 15:28
CSV 파일을 read 할경우 inferSchema=False 만해줘도 속도가 매우 향상됨 이렇게 쓸경우 schema 를 사전에 정의해줘야 하는 단계가 필요함. Spark 성능 튜닝 ( read, write 속도 올리기) CSV 파일을 read 할 경우 스키마를 사전에 정의하기만 해도 속도가 매우 향상됨 read 옵션 중에 inferSchema 가 있는데 해당 값을 False 로 셋팅해주면됨... ( inferSchema=False ) infer schema는 데이터의 스키마를 찾아주는 옵션입니다. infer schema 적용 전 1억건의 테스트 샘플 (csv 를 read 할경우 ) DEBUG 2020-04-20 15:16:41,883 : ### read csv start DEBUG 2020-04-20 ..
-
python UDF 성능 개선 작업개발 2019. 8. 11. 14:27
최근 pyspark 에서 제공되는 udf 를 사용해서 대용량 데이터를 처리하는 문제에 대해서 해결해야할 이슈가 생겼다. 문제는 너무 느리다는것... 테스트 데이터는 17000 row 중에 컬럼의 값을 가져와서 udf 에 정의되어 있는 연산을 수행한후 리턴해주는 간단한 로직... case 1. code puUdf = udf(lambda x:0 if x is None else long(len(x.split(','))), LongType()) puDf = adDf.withColumn('eqClass', puUdf(adDf[orgOrcIndex])) puDf = puDf.groupBy('eqClass').agg(sum('eqClass').alias('cnt')).orderBy('eqClass') 수행 시간 19..
-
iBATIS, Hibernate, and JPA: Which is right for you?개발 2019. 8. 8. 11:08
이 기사에서 우리는 두 개의 가장 유명한 오랫동안 쓰인 오픈 소스 framework를 소개 하고 비교한다. Ibatis 와 hibernate. 우리는 또한 Java persistence API 에 대해서 검토해 보고, 각 솔루션을 소개하고, 게다가 broad application scenarios 의 강점과 약점을 포함한 각각의 솔루션 품질에 대해서도 검토해 볼 것이다. 그 후에 IBATIS와 Hibernate 와 JPA 를 기반으로 한 성능, 이식성, 복잡성, 데이터 모델이 변할 때의 적용성의 요소를 통해 비교해 볼 것이다. 만약 당신이 초보 자바프로그래머이고 persistence concepts 이 처음이라면 이 기사를 읽는 것은 이 주제와 가장 유명한 오픈 소스 persistence solution..