홈
태그
미디어로그
위치로그
방명록

분류 전체보기 (10)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

기억속산책 기억속산책

컨텐츠 검색 블로그 내 검색

CSV

Spark 성능 튜닝 ( inferSchema )
개발 2020. 4. 20. 15:28

CSV 파일을 read 할경우 inferSchema=False 만해줘도 속도가 매우 향상됨 이렇게 쓸경우 schema 를 사전에 정의해줘야 하는 단계가 필요함. Spark 성능 튜닝 ( read, write 속도 올리기) CSV 파일을 read 할 경우 스키마를 사전에 정의하기만 해도 속도가 매우 향상됨 read 옵션 중에 inferSchema 가 있는데 해당 값을 False 로 셋팅해주면됨... ( inferSchema=False ) infer schema는 데이터의 스키마를 찾아주는 옵션입니다. infer schema 적용 전 1억건의 테스트 샘플 (csv 를 read 할경우 ) DEBUG 2020-04-20 15:16:41,883 : ### read csv start DEBUG 2020-04-20 ..

이전

1

다음

인기포스트

ABOUT ME

여행, IT, 영어

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바