ICEBURG TABLE - Iceberg란 무엇인가?
테이블 포맷의 정의와 목적주요 특징: ACID 트랜잭션, 스냅샷 관리, 스키마 진화 등Key PointsIceberg은 대규모 분석 데이터셋을 관리하기 위한 오픈소스 테이블 포맷으로, SQL 테이블의 신뢰성과 단순성을 제공합니다.주요 특징은 ACID 트랜잭션, 스냅샷 관리, 스키마 진화 등이 포함됩니다.연구에 따르면, Iceberg은 데이터 일관성과 성능 최적화를 보장하며, 여러 데이터 처리 엔진이 동시에 동일한 테이블을 사용할 수 있게 합니다.Iceberg이란 무엇인가?Iceberg은 대규모 데이터 레이크에서 분석 데이터를 효율적으로 관리하기 위한 오픈소스 테이블 포맷입니다. Apache 소프트웨어 재단의 프로젝트로, SQL 테이블과 유사한 신뢰성과 단순성을 제공하며, Spark, Trino, Flin..
2025. 4. 13.
IBM Data Engineer - Introduction to Relational Databases (RDBMS)
Review of Data Fundamentals 데이터는 의미 있는 정보로 처리되는 사실, 관찰, 인식, 숫자, 문자, 이미지 등입니다. 데이터는 구조화, 반구조화, 비구조화로 분류됩니다. 다양한 데이터 소스에서 다양한 유형의 데이터를 얻을 수 있습니다 (예: 소셜 미디어에서 얻은 데이터는 비구조화 또는 반구조화일 수 있음). 데이터는 관계형 데이터베이스와 비관계형 데이터베이스 등 다양한 저장소에 저장할 수 있습니다. 데이터는 CSV, XML, JSON 파일로 전송할 수 있습니다. Information and Data Models 정보 모델과 데이터 모델의 차이: 정보 모델은 개념 수준에서 추상적이며, 객체 간의 관계를 정의합니다. 반면 데이터 모델은 더 구체적인 수준에서 정의되며, 세부 사항을 포함합..
2023. 4. 19.
IBM Data Engineer - Extract, Transform, Load (ETL)
Extract, Transform, Load (ETL) 이 비디오에서는 ETL(추출, 변환, 로딩) 프로세스를 소개하고 간단한 Python 프로그램을 작성하는 방법을 배웁니다. ETL은 다양한 소스에서 데이터를 추출하고, 변환하여 원하는 형식으로 만든 다음, 데이터베이스 또는 목표 파일에 로드하는 과정입니다. 예를 들어, 당뇨병 위험을 예측하는 AI를 개발한 스타트업을 운영한다고 가정해보겠습니다. 일부 데이터는 CSV 형식이고, 다른 데이터는 JSON 파일에 있습니다. 이러한 데이터를 AI가 읽을 수 있는 하나의 파일로 병합해야 합니다. 또한, 데이터를 변환하여 미터법 단위로 바꾸고 최종적으로 하나의 큰 CSV 파일로 데이터를 로드해야 합니다. ETL을 Python으로 구현하려면 다음 단계를 수행합니다...
2023. 4. 18.