본문 바로가기
Data Analysis/Python

[Python] 대용량 데이터csv 읽어오기 (PyArrow)

by Hagrid 2023. 1. 7.
반응형

 

 

pyarrow

아파치 애로우(Apache Arrow)라는 메모리 내 분석을 위한 개발 플랫폼인데, 빅데이터를 빠르게 처리하고 이동할 수 있도록 하는 일련의 기술을 제공하는 라이브러리를 파이썬 PyArrow를 통해 구현할 수 있다.

기존의 pandas로 용량이 큰 csv파일을 로드하면 시간이 오래 걸리는데, pyarrow를 활용하면 시간 절약에 도움이 된다.

https://pypi.org/project/pyarrow/

공식 문서는 여기있다.

Across platforms, you can install a recent version of pyarrow with the conda package manager:

conda install pyarrow -c conda-forge

On Linux, macOS, and Windows, you can also install ㅇbinary wheels from PyPI with pip:

pip install pyarrow

위와 같은 방법으로 설치하면 되는 부분이고

사용은

from pyarrow import csv

df = csv.read_csv('data.csv').to_pandas()

위와 같은 코드를 이용해

csv 파일을 불러오기 하면 된다.

약 시간이 3배정도 단축된다고 하니

큰 파일을 불러올때는 pyarrow를 써보자

반응형

댓글