Python
-
Spark 성능 튜닝 ( inferSchema )개발 2020. 4. 20. 15:28
CSV 파일을 read 할경우 inferSchema=False 만해줘도 속도가 매우 향상됨 이렇게 쓸경우 schema 를 사전에 정의해줘야 하는 단계가 필요함. Spark 성능 튜닝 ( read, write 속도 올리기) CSV 파일을 read 할 경우 스키마를 사전에 정의하기만 해도 속도가 매우 향상됨 read 옵션 중에 inferSchema 가 있는데 해당 값을 False 로 셋팅해주면됨... ( inferSchema=False ) infer schema는 데이터의 스키마를 찾아주는 옵션입니다. infer schema 적용 전 1억건의 테스트 샘플 (csv 를 read 할경우 ) DEBUG 2020-04-20 15:16:41,883 : ### read csv start DEBUG 2020-04-20 ..
-
순서 보존 암호화카테고리 없음 2019. 12. 19. 17:54
숫자형 범주에 대하여 그 대소가 유지되도록 다른 숫자형으로 암호화 하는 방식 예를 들어 20이라는 수를 300으로 암호화할 경우 20이상의 수는 300이상의 수로 암호화하고, 20이하의 수는 300이하로 하여야 한다. FFX(Format-preserving, Feistel-based Encryption) 모드를 구현한 파이썬 라이브러리 Github Source URL https://github.com/emulbreh/pyffx 관련 논문 The FFX Mode of Operation for Format-Preserving Encryption Addendum to “The FFX Mode of Operation for Format-Preserving Encryption”
-
python UDF 성능 개선 작업개발 2019. 8. 11. 14:27
최근 pyspark 에서 제공되는 udf 를 사용해서 대용량 데이터를 처리하는 문제에 대해서 해결해야할 이슈가 생겼다. 문제는 너무 느리다는것... 테스트 데이터는 17000 row 중에 컬럼의 값을 가져와서 udf 에 정의되어 있는 연산을 수행한후 리턴해주는 간단한 로직... case 1. code puUdf = udf(lambda x:0 if x is None else long(len(x.split(','))), LongType()) puDf = adDf.withColumn('eqClass', puUdf(adDf[orgOrcIndex])) puDf = puDf.groupBy('eqClass').agg(sum('eqClass').alias('cnt')).orderBy('eqClass') 수행 시간 19..