반응형
pyarrow
아파치 애로우(Apache Arrow)라는 메모리 내 분석을 위한 개발 플랫폼인데, 빅데이터를 빠르게 처리하고 이동할 수 있도록 하는 일련의 기술을 제공하는 라이브러리를 파이썬 PyArrow를 통해 구현할 수 있다.
기존의 pandas로 용량이 큰 csv파일을 로드하면 시간이 오래 걸리는데, pyarrow를 활용하면 시간 절약에 도움이 된다.
공식 문서는 여기있다.
Across platforms, you can install a recent version of pyarrow with the conda package manager:
conda install pyarrow -c conda-forge
|
On Linux, macOS, and Windows, you can also install ㅇbinary wheels from PyPI with pip:
pip install pyarrow
|
위와 같은 방법으로 설치하면 되는 부분이고
사용은
from pyarrow import csv
df = csv.read_csv('data.csv').to_pandas()
위와 같은 코드를 이용해
csv 파일을 불러오기 하면 된다.
약 시간이 3배정도 단축된다고 하니
큰 파일을 불러올때는 pyarrow를 써보자

반응형
'Data Analysis > Python' 카테고리의 다른 글
[Pandas] 조건걸고 새로운 칼럼 추가하기 (0) | 2023.01.07 |
---|---|
[Airflow] The important views of the Airflow UI (1) | 2023.01.07 |
[python] 서울시전월세_매물_위도,경도_구하기_GoogleMapAPI (0) | 2023.01.06 |
[Python] Pandas: 한 셀의 데이터를 여러 행으로 나누기 (0) | 2023.01.06 |
[Python] Python에서 youtube 불러오기 (0) | 2023.01.06 |
댓글