본문 바로가기
데이터 저장 형식 TextInputFormat/ Parquet 관련해서 정리 문제📌 Hue 에서 컬럼수정시 >> 테이블 스키마 구조가 바뀌면 backfill 해줘야 하는 현상 아니면 Mismatch 오류가 뜸원인테이블 빌드시 parquet 가 아닌 경우 (TextInputFormat) 에는 컬럼 순서를 지켜줘야 함영향을 받는 형식'org.apache.hadoop.mapred.**TextInputFormat**'그렇다면 ? >>빌드할때 PARQUET 형식으로 빌드해야함external table 인데 spark.sql.sources.schema 달리면 안됨spark.sql.... property 를 모두 제거하거나spark.sql.sources.schema json 에 새로 추가하는 컬럼을 추가ROW FORMAT SERDEROW FORMAT SERDE 'org.apache.hado.. 2024. 8. 6.
Airflow에서 데코레이터(decorator)를 사용하는 이유 사용이유 코드를 간결하게 하고, 재사용성을 높이며, 함수나 메소드에 추가 기능을 손쉽게 적용하기 위해서입니다. Airflow에서 특히 자주 사용되는 데코레이터는 @task 데코레이터인데, 이는 몇 가지 중요한 이유로 사용됩니다 코드의 간결성: @task 데코레이터를 사용하면, 일반 Python 함수를 Airflow 태스크로 변환할 수 있습니다. 이는 DAG 내에서 태스크를 정의할 때 보다 간결하고 명확한 코드를 작성할 수 있도록 도와줍니다. 재사용성 증가: 함수를 사용하여 태스크 로직을 정의하면, 이 함수를 다른 DAG에서도 재사용할 수 있습니다. 데코레이터는 이런 함수들을 태스크로 쉽게 변환해주므로 코드 재사용성이 높아집니다. 추가 기능의 적용: Airflow의 @task 데코레이터는 태스크의 실행 방.. 2024. 4. 19.
IBM Data Engineer - Introduction to Relational Databases (RDBMS) Review of Data Fundamentals 데이터는 의미 있는 정보로 처리되는 사실, 관찰, 인식, 숫자, 문자, 이미지 등입니다. 데이터는 구조화, 반구조화, 비구조화로 분류됩니다. 다양한 데이터 소스에서 다양한 유형의 데이터를 얻을 수 있습니다 (예: 소셜 미디어에서 얻은 데이터는 비구조화 또는 반구조화일 수 있음). 데이터는 관계형 데이터베이스와 비관계형 데이터베이스 등 다양한 저장소에 저장할 수 있습니다. 데이터는 CSV, XML, JSON 파일로 전송할 수 있습니다. Information and Data Models 정보 모델과 데이터 모델의 차이: 정보 모델은 개념 수준에서 추상적이며, 객체 간의 관계를 정의합니다. 반면 데이터 모델은 더 구체적인 수준에서 정의되며, 세부 사항을 포함합.. 2023. 4. 19.
IBM Data Engineer - Extract, Transform, Load (ETL) Extract, Transform, Load (ETL) 이 비디오에서는 ETL(추출, 변환, 로딩) 프로세스를 소개하고 간단한 Python 프로그램을 작성하는 방법을 배웁니다. ETL은 다양한 소스에서 데이터를 추출하고, 변환하여 원하는 형식으로 만든 다음, 데이터베이스 또는 목표 파일에 로드하는 과정입니다. 예를 들어, 당뇨병 위험을 예측하는 AI를 개발한 스타트업을 운영한다고 가정해보겠습니다. 일부 데이터는 CSV 형식이고, 다른 데이터는 JSON 파일에 있습니다. 이러한 데이터를 AI가 읽을 수 있는 하나의 파일로 병합해야 합니다. 또한, 데이터를 변환하여 미터법 단위로 바꾸고 최종적으로 하나의 큰 CSV 파일로 데이터를 로드해야 합니다. ETL을 Python으로 구현하려면 다음 단계를 수행합니다... 2023. 4. 18.
IBM Data Engineer - Python for Data Science, AI & Development 3 REST APIs & HTTP Requests - Part 1 이 동영상에서는 HTTP 프로토콜에 대해 다룹니다. 주요 주제로는 다음과 같습니다: 일관된 리소스 로케이터(URL), 요청(Request), 응답(Response). 이전 섹션에서는 REST API를 간략하게 다루었습니다. HTTP 프로토콜은 웹을 통한 정보 전송의 일반적인 프로토콜로, 많은 종류의 REST API를 포함합니다. REST API는 요청을 보내고 이를 HTTP 메시지를 통해 통신하는 방식으로 작동합니다. 일반적으로 HTTP 메시지는 JSON 파일을 포함합니다. 클라이언트가 웹 페이지를 사용하면 브라우저가 해당 페이지가 호스팅되는 서버에 HTTP 요청을 보냅니다. 서버는 기본적으로 "index.html"과 같은 원하는 리소스를 찾.. 2023. 4. 18.
IBM Data Engineer - Python for Data Science, AI & Development 2 Numpy in Python One Dimensional Numpy 안녕 친구! 이번에는 numpy라는 걸 배울 거야. numpy는 과학 계산을 도와주는 도구인데, 이걸 사용하면 많은 것을 할 수 있어. numpy를 사용하면 빠르게 계산할 수 있고, 컴퓨터 메모리도 적게 사용하게 돼. 그럼 이제 numpy를 이용해서 어떻게 쓰는지 몇 가지 예시를 보여줄게! numpy 배열 만들기: numpy 배열은 숫자들이 모여 있는 것이야. 파이썬 리스트처럼 생겼지만, 모든 요소가 같은 타입이어야 해. 그래서 numpy 배열을 만들 때는 이렇게 해볼게: import numpy as np my_list = [1, 2, 3, 4, 5] my_array = np.array(my_list) 배열에서 숫자 바꾸기: numpy .. 2023. 4. 12.
IBM Data Engineer - Python for Data Science, AI & Development Types Types 이 동영상에서는 Python의 다양한 데이터 유형에 대해 설명합니다: 정수(int): 정수는 양수와 음수를 모두 포함하는 정수입니다. 파이썬에는 정수의 범위가 넓지만 한정되어 있습니다. 부동 소수점(float): 부동 소수점은 정수와 정수 사이의 숫자를 포함하는 실수입니다. 파이썬에서 부동 소수점의 정밀도에는 한계가 있지만 그 폭은 매우 작습니다. 문자열(str): 문자열은 문자의 시퀀스입니다. 텍스트나 숫자를 텍스트로 표현하는 데 사용할 수 있습니다. 부울(bool): 부울에는 True(대문자 T 포함)와 False(대문자 F 포함)의 두 가지 값이 있습니다. 이진 상태 또는 조건을 나타내는 데 사용됩니다. 유형 변환은 한 데이터 유형을 다른 데이터 유형으로 변환하는 프로세스입니다.. 2023. 4. 5.
IBM Data Engineer - Introduction to Data Engineering Responsibilities and Skillsets of a Data Engineer Responsibilities and Skillsets of a Data Engineer 데이터 엔지니어의 주요 책임은 데이터 사용자에게 분석 준비가 완료된 데이터를 제공하는 것입니다. 데이터 엔지니어는 다양한 출처에서 데이터를 추출, 조직화, 통합하고, 분석 및 보고를 위해 데이터를 변환하고 정제하며, 데이터 파이프라인을 설계하고 관리하고, 데이터 처리와 저장에 필요한 인프라를 설정하고 관리합니다. 데이터 엔지니어에게 필요한 기술 중 기술적인 기술로는 운영 체제, 인프라 구성 요소, 클라우드 기반 서비스, 데이터베이스 및 데이터 웨어하우스, 데이터 파이프라인 솔루션, ETL 도구, 쿼리 및 프로그래밍 언어, 쉘 및.. 2023. 4. 4.
반응형