전체 글
-
python UDF 성능 개선 작업개발 2019. 8. 11. 14:27
최근 pyspark 에서 제공되는 udf 를 사용해서 대용량 데이터를 처리하는 문제에 대해서 해결해야할 이슈가 생겼다. 문제는 너무 느리다는것... 테스트 데이터는 17000 row 중에 컬럼의 값을 가져와서 udf 에 정의되어 있는 연산을 수행한후 리턴해주는 간단한 로직... case 1. code puUdf = udf(lambda x:0 if x is None else long(len(x.split(','))), LongType()) puDf = adDf.withColumn('eqClass', puUdf(adDf[orgOrcIndex])) puDf = puDf.groupBy('eqClass').agg(sum('eqClass').alias('cnt')).orderBy('eqClass') 수행 시간 19..
-
iBATIS, Hibernate, and JPA: Which is right for you?개발 2019. 8. 8. 11:08
이 기사에서 우리는 두 개의 가장 유명한 오랫동안 쓰인 오픈 소스 framework를 소개 하고 비교한다. Ibatis 와 hibernate. 우리는 또한 Java persistence API 에 대해서 검토해 보고, 각 솔루션을 소개하고, 게다가 broad application scenarios 의 강점과 약점을 포함한 각각의 솔루션 품질에 대해서도 검토해 볼 것이다. 그 후에 IBATIS와 Hibernate 와 JPA 를 기반으로 한 성능, 이식성, 복잡성, 데이터 모델이 변할 때의 적용성의 요소를 통해 비교해 볼 것이다. 만약 당신이 초보 자바프로그래머이고 persistence concepts 이 처음이라면 이 기사를 읽는 것은 이 주제와 가장 유명한 오픈 소스 persistence solution..