본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

줄리아, 파이썬보다 데이터 읽는 속도 최대 20배 빨라

OSS관리자3 게시글 작성 시각 2020-07-01 19:37:40 게시글 조회수 4392

6월 26일

ⓒ 지디넷코리아, 남혁우 기자 l firstblood@zdnet.co.kr

 

효율적인 멀티쓰레딩으로 분석 및 AI 학습 유리

 

프로그래밍 언어 줄리아가 파이썬보다 데이터 읽는 속도를 최대 20배까지 높일 수 있는 것으로 나타났다.

줄리아컴퓨팅은 프로그래밍언어 줄리아가 라이벌 언어인 파이썬과 R보다 10~20배 이상 빠르게 CSV 파일을 읽을 수 있어 데이터분석 및 인공지능(AI) 작업에 더 유리하다고 최근 발표했다.

 

CSV 파일은 표 형태의 데이터를 저장하는 파일 형식의 하나로 최근엔 AI를 학습시키기 위한 데이터셋을 제작할 때 주로 활용된다.

 

줄리아컴퓨팅은 세 언어의 CSV 파서인 CSV.jl(줄리아), Pandas'read_csv(파이썬), fread(R) 읽는 성능을 8개의 실제 데이터셋을 활용해 비교했다.

 

테스트 결과 결과에 멀티스레딩을 활용한 줄리아가 거의 모든 분야에서 10배 가까이 빠른 성능을 보였다.

멀티스레딩을 지원하는 R은 줄리아와 비슷한 성능을 보이는 듯했지만 스레드가 10개를 넘어서면서 격차가 발생했다.

 

파이썬은 단일스레드를 사용하는 만큼 스레드 증가를 통한 성능 향상을 노리기 어려울 뿐 아니라 단일 스레드 환경에서도 줄리아에 비해 1.5~5배 정도 느린 것으로 나타났다.

 

100만 행과 20개의 열로 배열된 균일한 부동소수점 데이터세트로 비교했을 때 적은 스레드를 사용할 때는 R이 줄리아보다 속도가 빨랐다. 하지만 스레드가 증가할수록 차이가 발생했으며 8개를 넘어서면서 두배 이상 차이를 벌렸다. 파이썬과는 11배 이상 속도 차이가 나는 것으로 나타났다.

 

5천 만개의 행과 5개의 열로 이뤄진 2.5Gb 규모의 실제 데이터인 애플의 주가로 진행한 비교에서는

단일 스레드의 경우 줄리아가 R보다 1.5배 빨랐으며 멀티 스레드를 사용할 경우 최대 22배까지 차이가 발생했다.

 

구글의 데이터과학 플랫폼인 케글의 모기지 위험 데이터셋을 활용한 비교도 진행됐다. 이 데이터셋은 35만5천 개의 행과 2천190개의 열로 이뤄졌으며 숫자, 텍스트 등 다양한 데이터를 포함하고 있다.

 

적은 스레드를 사용할 때는 R이 줄리아보다 빠른 것으로 나타났다. 하지만 스레드가 10개를 넘어가면서 상황이 역전됐다.

 

줄리아컴퓨팅은 이번 비교를 위해 줄리아는 벤치마크툴(benchmarktools.jl), R은 마이크로벤치마크(microbenchmark), 파이썬은 타임잇(timeit)의 도구를 사용했으며 장비는 인텔 제온 실버 4114 프로세서로 구동되는 우분투 18.04가 설치된 PC를 사용했다고 밝혔다.

 


※ 본 내용은 (주)지디넷코리아(http://www.zdnet.co.kr/)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ(주)지디넷코리아. 무단전재 및 재배포 금지
 

[원문출처: https://zdnet.co.kr/view/?no=20200624114048]

맨 위로
맨 위로