IBM Data Engineer - Introduction to Relational Databases (RDBMS)
Review of Data Fundamentals 데이터는 의미 있는 정보로 처리되는 사실, 관찰, 인식, 숫자, 문자, 이미지 등입니다. 데이터는 구조화, 반구조화, 비구조화로 분류됩니다. 다양한 데이터 소스에서 다양한 유형의 데이터를 얻을 수 있습니다 (예: 소셜 미디어에서 얻은 데이터는 비구조화 또는 반구조화일 수 있음). 데이터는 관계형 데이터베이스와 비관계형 데이터베이스 등 다양한 저장소에 저장할 수 있습니다. 데이터는 CSV, XML, JSON 파일로 전송할 수 있습니다. Information and Data Models 정보 모델과 데이터 모델의 차이: 정보 모델은 개념 수준에서 추상적이며, 객체 간의 관계를 정의합니다. 반면 데이터 모델은 더 구체적인 수준에서 정의되며, 세부 사항을 포함합..
2023. 4. 19.
IBM Data Engineer - Extract, Transform, Load (ETL)
Extract, Transform, Load (ETL) 이 비디오에서는 ETL(추출, 변환, 로딩) 프로세스를 소개하고 간단한 Python 프로그램을 작성하는 방법을 배웁니다. ETL은 다양한 소스에서 데이터를 추출하고, 변환하여 원하는 형식으로 만든 다음, 데이터베이스 또는 목표 파일에 로드하는 과정입니다. 예를 들어, 당뇨병 위험을 예측하는 AI를 개발한 스타트업을 운영한다고 가정해보겠습니다. 일부 데이터는 CSV 형식이고, 다른 데이터는 JSON 파일에 있습니다. 이러한 데이터를 AI가 읽을 수 있는 하나의 파일로 병합해야 합니다. 또한, 데이터를 변환하여 미터법 단위로 바꾸고 최종적으로 하나의 큰 CSV 파일로 데이터를 로드해야 합니다. ETL을 Python으로 구현하려면 다음 단계를 수행합니다...
2023. 4. 18.
IBM Data Engineer - Introduction to Data Engineering
Responsibilities and Skillsets of a Data Engineer Responsibilities and Skillsets of a Data Engineer 데이터 엔지니어의 주요 책임은 데이터 사용자에게 분석 준비가 완료된 데이터를 제공하는 것입니다. 데이터 엔지니어는 다양한 출처에서 데이터를 추출, 조직화, 통합하고, 분석 및 보고를 위해 데이터를 변환하고 정제하며, 데이터 파이프라인을 설계하고 관리하고, 데이터 처리와 저장에 필요한 인프라를 설정하고 관리합니다. 데이터 엔지니어에게 필요한 기술 중 기술적인 기술로는 운영 체제, 인프라 구성 요소, 클라우드 기반 서비스, 데이터베이스 및 데이터 웨어하우스, 데이터 파이프라인 솔루션, ETL 도구, 쿼리 및 프로그래밍 언어, 쉘 및..
2023. 4. 4.