Spark 성능 튜닝 ( inferSchema ) :: 기억속산책

ABOUT ME

-

Today: -

Yesterday: -

Total: -

Spark 성능 튜닝 ( inferSchema )

개발 2020. 4. 20. 15:28

CSV 파일을 read 할경우 inferSchema=False 만해줘도 속도가 매우 향상됨

이렇게 쓸경우 schema 를 사전에 정의해줘야 하는 단계가 필요함.

Spark 성능 튜닝 ( read, write 속도 올리기)

CSV 파일을 read 할 경우 스키마를 사전에 정의하기만 해도 속도가 매우 향상됨

read 옵션 중에 inferSchema 가 있는데 해당 값을 False 로 셋팅해주면됨... ( inferSchema=False )

infer schema는 데이터의 스키마를 찾아주는 옵션입니다.

infer schema 적용 전

1억건의 테스트 샘플 (csv 를 read 할경우 )

DEBUG 2020-04-20 15:16:41,883 : ### read csv start
DEBUG 2020-04-20 15:20:13,250 : ### rows_count : 100000000

3분 32 초

infer schema 적용 후

1차

DEBUG 2020-04-20 14:55:37,976 : ### read csv start
DEBUG 2020-04-20 14:57:41,438 : ### rows_count : 100000000

1분 54초

'개발' 카테고리의 다른 글

python UDF 성능 개선 작업 (0) 2019.08.11

iBATIS, Hibernate, and JPA: Which is right for you? (0) 2019.08.08
관련글 관련글 더보기
- python UDF 성능 개선 작업
- iBATIS, Hibernate, and JPA: Which is right for you?

인기포스트

ABOUT ME

여행, IT, 영어

LINK

ADMIN

티스토리툴바