https://python.plainenglish.io/5-python-libraries-every-data-scientist-should-know-about-ce04bf19d58d

5 Python Libraries Every Data Scientist Should Know About

This article is perfect for you if you are a beginner or intermediate machine learning engineer or data scientist. You’ve already selected…

python.plainenglish.io

이 문서는 초급 또는 중급 머신 러닝 엔지니어 또는 데이터 과학자에게 적합합니다. 파이토치나 텐서플로우 등 선호하는 머신 러닝 라이브러리를 이미 선택했고, 모델에 적합한 아키텍처를 선택하는 방법을 익혔을 것입니다. 또한 모델을 훈련하고 실제 문제를 해결할 수도 있습니다. 하지만 다음 단계는 무엇일까요?

이 글에서는 모든 머신 러닝 엔지니어와 데이터 과학자가 숙지해야 한다고 생각하는 5가지 라이브러리를 소개합니다. 이러한 라이브러리는 여러분의 기술을 향상시켜 경쟁력을 높이고 머신 러닝 개발 프로세스를 간소화할 수 있는 귀중한 도구가 될 것입니다.

1. MLFlow - 실험 및 모델 추적

고객 이탈을 예측하는 모델을 구축하는 프로젝트를 진행 중인 ML 개발자가 있다고 가정해 보겠습니다. Jupyter 노트북을 사용해 데이터를 탐색하고 다양한 알고리즘과 하이퍼파라미터를 실험하는 것으로 시작합니다. 작업을 진행하면서 노트북은 코드, 결과, 시각화로 점점 더 복잡해집니다. 진행 상황을 추적하고, 무엇이 효과가 있었고 무엇이 효과가 없었는지 파악하고, 최상의 결과를 재현하기가 어려워집니다 .

이것이 바로 MLflow가 필요한 이유입니다. MLflow는 ML 실험을 처음부터 끝까지 관리하여 추적성과 재현성을 보장하는 플랫폼입니다. 코드, 데이터 및 모델 아티팩트를 저장하는 중앙 집중식 저장소와 하이퍼파라미터, 메트릭 및 출력을 포함한 모든 실험을 기록하는 추적 시스템을 제공합니다.

MLflow를 통해 Jupyter 노트북을 단독으로 사용할 때의 함정을 피하는 방법은 다음과 같습니다:

중앙 집중식 리포지토리: MLflow는 코드, 데이터 및 모델 아티팩트를 체계적으로 정리하고 쉽게 액세스할 수 있게 해줍니다. 미로 같은 노트북에서 길을 잃지 않고 필요한 리소스를 빠르게 찾을 수 있습니다.
실험 추적: MLflow는 사용된 정확한 코드, 데이터, 하이퍼파라미터를 포함한 모든 실험을 기록합니다. 이를 통해 여러 실험을 쉽게 비교하고 무엇이 최상의 결과를 가져왔는지 파악할 수 있습니다.
재현성: MLflow를 사용하면 정확히 동일한 코드, 데이터 및 환경으로 최상의 모델을 재현할 수 있습니다. 이는 결과의 일관성과 신뢰성을 보장하는 데 매우 중요합니다.

따라서 효과적인 머신 러닝 모델을 구축하는 데 진지하게 임하고 있다면, Jupyter 노트북의 혼란을 버리고 MLflow의 강력한 기능을 수용하세요.

2. Streamlit - 빠르고 예쁜 웹 애플리케이션

Streamlit은 데이터 과학을 위한 가장 인기 있는 프론트엔드 프레임워크입니다. 오픈 소스 Python 프레임워크입니다. 사용자가 대화형 데이터 앱을 빠르고 쉽게 만들 수 있어 웹 개발 지식이 없는 데이터 과학자나 머신 러닝 엔지니어에게 특히 유용합니다.

Streamlit을 사용하면 개발자는 심층적인 프런트엔드 경험이나 지식 없이도 매력적인 사용자 인터페이스를 구축 및 공유하고 모델을 배포할 수 있습니다. 이 프레임워크는 무료, 올파이썬, 오픈소스로 제공되므로 공유 가능한 웹 앱을 몇 분 안에 만들 수 있습니다.

머신러닝과 관련된 펫 프로젝트가 있다면 Streamlit을 사용해 인터페이스를 추가하는 것이 좋습니다. 작업을 시작하는 데 시간이 걸리지 않고, 준비된 템플릿이 많으며, 몇 분 안에 프론트엔드를 완성할 수 있습니다. 또한 공유하기가 매우 쉬워 이력서에 넣어도 멋지게 보일 것입니다.

Python의 다른 프론트엔드 라이브러리를 살펴보고 싶다면, 데이터 과학을 위한 상위 5가지 Python 프론트엔드 라이브러리라는 글을 확인해 보세요

3. FastAPI - 쉽고 빠르게 모델 배포

작성자 이미지

모델을 학습하고 검증한 후에는 다른 애플리케이션에서 사용할 수 있도록 배포해야 합니다. 바로 이때 FastAPI가 필요합니다.

FastAPI는 RESTful API를 구축하기 위한 고성능 웹 프레임워크입니다. 단순성, 사용 편의성, 빠른 속도로 잘 알려져 있습니다. 따라서 머신 러닝 모델을 프로덕션에 배포하는 데 이상적인 선택입니다.

다음은 ML 엔지니어와 데이터 과학자가 FastAPI를 배워야 하는 몇 가지 이유입니다:

속도: FastAPI는 매우 빠릅니다. 최신 비동기 프로그래밍 모델을 사용하여 여러 요청을 동시에 효율적으로 처리할 수 있습니다. 이는 대량의 데이터를 처리해야 하는 머신 러닝 모델을 배포하는 데 필수적입니다.
단순성: FastAPI는 배우고 사용하기 쉽습니다. 명확하고 간결한 구문으로 깔끔하고 유지 관리가 쉬운 코드를 쉽게 작성할 수 있습니다. 이는 반드시 숙련된 웹 개발자가 아니더라도 ML 엔지니어와 데이터 과학자에게 중요합니다.
사용 편의성: FastAPI는 API를 쉽게 빌드하고 배포할 수 있는 다양한 기능을 제공합니다. 예를 들어 자동 문서화, 데이터 유효성 검사 및 오류 처리를 기본적으로 지원합니다. 따라서 시간과 노력이 절약되어 ML 엔지니어는 모델 구축 및 배포라는 핵심 업무에 집중할 수 있습니다.
프로덕션 준비 완료: FastAPI는 프로덕션용으로 설계되었습니다. 여러 백엔드, 보안 및 배포 도구 지원과 같은 기능을 갖추고 있습니다. 따라서 중요한 머신 러닝 모델을 배포하기 위한 신뢰할 수 있는 선택입니다.

결론적으로, FastAPI는 머신 러닝 모델을 프로덕션에 배포하는 데 사용할 수 있는 강력하고 다재다능한 도구입니다. 사용 편의성, 속도, 프로덕션 준비성 덕분에 다른 사람들이 자신의 모델에 액세스할 수 있도록 하려는 ML 엔지니어와 데이터 과학자에게 이상적인 선택입니다.

4. XGBoost - 표 형식의 데이터를 더 빠르고 더 잘 예측하는 방법

XGBoost는 정확도, 속도, 확장성으로 잘 알려진 강력한 머신러닝 알고리즘입니다. 여러 개의 약한 학습자를 하나의 강한 학습자로 결합하는 그라데이션 부스팅 프레임워크를 기반으로 합니다. 간단히 말해, 랜덤 포레스트와 같은 여러 개의 작은 모델을 사용하여 큰 모델로 결합하면 결국 신경망에 비해 더 빠른 모델을 얻을 수 있지만 동시에 확장 가능하고 과적합이 덜 발생합니다.

ML 엔지니어와 데이터 과학자가 XGBoost를 배워야 하는 몇 가지 이유는 다음과 같습니다:

정확도: XGBoost는 가장 정확한 머신 러닝 알고리즘 중 하나입니다. 여러 머신 러닝 대회에서 우승한 바 있으며 다양한 작업에서 꾸준히 상위 알고리즘으로 꼽히고 있습니다.
속도: XGBoost도 매우 빠릅니다. 대규모 데이터 세트에 대해 빠르고 효율적으로 학습하고 예측할 수 있습니다. 따라서 실시간 사기 탐지나 재무 모델링과 같이 속도가 중요한 애플리케이션에 적합합니다.
확장성: XGBoost는 확장성이 뛰어납니다. 정확도 저하 없이 대규모 데이터 세트와 복잡한 모델을 처리할 수 있습니다. 따라서 데이터 볼륨이나 모델 복잡성이 우려되는 애플리케이션에 적합합니다.

표 형식의 데이터를 사용하는 작업(예: 방 수를 기반으로 집의 가격을 예측하거나, 마지막 구매/계정 데이터를 기반으로 고객의 제품 구매 가능성을 계산하는 등)이 있는 경우 Keras 또는 PyTorch를 사용한 신경망을 사용하기 전에 항상 XGBoost를 먼저 시도해 보아야 합니다.

5. ELI5 - 모델을 더욱 해석 가능하고 투명하게 만들기

모델을 훈련한 후에는 배포하여 사용할 수 있습니다. 하지만 이 시점에서 모델은 '블랙박스'에 가깝게 작동하며, 물건을 꽂으면 물건을 꺼낼 수 있습니다. 어떻게 작동하나요? 아무도 모릅니다. 숫자가 이쪽으로 가고, 숫자가 저쪽으로 가고, 결국에는 답을 얻게 됩니다.

고객/상사가 모델이 어떻게 구체적인 답변을 생각해 냈는지 묻는다면 어떻게 해야 할까요? 다시 말하지만, 여러분은 모릅니다. 아니면 훈련 중에 어떤 매개변수가 가장 중요하고 어떤 매개변수가 잡음을 더하는지 알고 싶으신가요?

이 모든 질문은 ELI5를 사용하여 답할 수 있습니다. 이 라이브러리는 모델을 투명하고 해석 가능하며 이해하기 쉽게 만드는 데 도움이 됩니다. 모델뿐만 아니라 데이터, 학습 프로세스, 가중치 분포 및 입력 매개변수에 대한 더 많은 정보를 얻을 수 있습니다. 그 외에도 모델을 '디버그'하여 어떤 아키텍처가 더 잘 작동하는지, 현재 모델에 어떤 문제가 있는지에 대한 더 많은 인사이트를 얻을 수 있습니다.

ELI5는 이미 Scikit-Learn, Keras, XGBoost 등의 라이브러리를 지원합니다. 이미지, 텍스트 및 표 형식 데이터의 분류를 위해 모델을 디버그할 수 있습니다.

결론

지금까지 5가지 주요 데이터 과학 프레임워크에 대해 살펴보았습니다. 모든 라이브러리를 조금이라도 이해한다면 여러 가지 이점을 얻을 수 있습니다

다른 데이터 과학자에 비해 머신 러닝의 여러 측면에서 다양한 기술을 습득했기 때문에 취업할 기회가 더 많습니다.
모델을 개발할 수 있을 뿐만 아니라 FastAPI 백엔드로 배포하고 사용자가 Streamlit 프론트엔드에서 모델과 상호 작용할 수 있으므로 풀스택 프로젝트에서 작업할 수 있습니다.
모든 머신 러닝 실험을 MLFlow로 추적 및 재현할 수 있고 모든 모델이 올바르게 버전이 관리되므로 'Jupyter Notebook 지옥'에서 길을 잃지 않을 수 있습니다.
확장 가능하고 빠르고 정확한 모델을 빠르게 훈련하는 방법을 알고 있기 때문에 표 형식의 데이터는 문제가 되지 않습니다.
그리고 대부분의 모델은 ELI5를 사용하면 사고 과정을 디버깅하고 예측을 설명하면서 더 깊이 이해할 수 있기 때문에 더 이상 '블랙박스'가 아닙니다.

이 모든 라이브러리는 여러분의 삶을 더 쉽게 만들어 줄 것이며, 유용하고 중요한 기술을 여러분의 무기고에 추가해 줄 것입니다. 행복한 코딩!

저작자표시

'Data' 카테고리의 다른 글

An AI application that can chat with with very large SQL databases. - 초대형 SQL 데이터베이스와 채팅할 수 있는 AI 애플리케이션 (1)	2024.02.18
An AI application that can chat with any SQL database. (1)	2024.02.13
듀오링고가 사용자 성장에 다시 불을 붙인 방법 (펌) (0)	2023.05.03
2023년에 기술 역량을 강화하기 위해 배워야 할 6가지 새로운 급성장하는 데이터 과학 라이브러리 (0)	2023.03.10
[주니어편] 데이터분석 멘토링할 때 자주 나오는 질문들 _ 거친코딩님 블로그 (펌) (0)	2023.02.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Hagrid's Data Analysis

5 Python Libraries Every Data Scientist Should Know About - 모든 데이터 과학자가 알아야 할 파이썬 라이브러리 5가지

1. MLFlow - 실험 및 모델 추적

2. Streamlit - 빠르고 예쁜 웹 애플리케이션

3. FastAPI - 쉽고 빠르게 모델 배포

4. XGBoost - 표 형식의 데이터를 더 빠르고 더 잘 예측하는 방법

5. ELI5 - 모델을 더욱 해석 가능하고 투명하게 만들기

결론

'Data' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

5 Python Libraries Every Data Scientist Should Know About - 모든 데이터 과학자가 알아야 할 파이썬 라이브러리 5가지

1. MLFlow - 실험 및 모델 추적

2. Streamlit - 빠르고 예쁜 웹 애플리케이션

3. FastAPI - 쉽고 빠르게 모델 배포

4. XGBoost - 표 형식의 데이터를 더 빠르고 더 잘 예측하는 방법

5. ELI5 - 모델을 더욱 해석 가능하고 투명하게 만들기

결론

'Data' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역