'Data Analysis/Data Engineering' 카테고리의 글 목록

본문 바로가기

DataHub vs OpenMetadata 메타데이터 카탈로그 시스템 비교 보고서 DataHub vs OpenMetadata: 메타데이터 카탈로그 시스템 비교최근 데이터 중심의 조직이 증가하면서 메타데이터 관리와 데이터 거버넌스의 중요성이 커지고 있습니다. 이에 따라 대표적인 오픈소스 메타데이터 관리 도구인 DataHub와 OpenMetadata를 비교하여 각각의 특징과 적합한 환경을 살펴봅니다.📌 개요항목 DataHub OpenMetadata개발 조직LinkedInUber출시 시기2019년2021년주요 사용자 사례LinkedIn, Stripe, Expedia 등 대규모 기업Uber 및 중견 기업, 스타트업 등📌 시스템 아키텍처 및 확장성항목 DataHub OpenMetadata아키텍처Kafka 기반 실시간 이벤트 아키텍처(MySQL, Elastic, Neo4j 사용)MySQL 기.. 2025. 6. 22.

DataHub: 현대 데이터 조직을 위한 강력한 데이터 카탈로그 시스템 1 DataHub: 현대 데이터 조직을 위한 강력한 데이터 카탈로그 시스템들어가며현대의 데이터 중심 조직에서는 수많은 데이터 소스, 파이프라인, 그리고 분석 도구들이 복잡하게 얽혀있습니다. 이러한 환경에서 "우리가 어떤 데이터를 가지고 있는지", "이 데이터는 어디서 왔는지", "누가 이 데이터를 소유하고 관리하는지"와 같은 기본적인 질문에 답하기가 점점 어려워지고 있습니다.바로 이런 문제를 해결하기 위해 등장한 것이 데이터 카탈로그(Data Catalog) 시스템이며, 그 중에서도 LinkedIn에서 개발한 DataHub는 가장 주목받는 오픈소스 솔루션 중 하나입니다.DataHub란 무엇인가?DataHub는 LinkedIn에서 개발하고 오픈소스로 공개한 차세대 데이터 카탈로그 플랫폼입니다. 조직의 모든 데.. 2025. 6. 22.

CP 터미널 명령어는 뭐 하는 명령어일까 ? - cp custom_vanna.py custom_vanna.py.backup cp custom_vanna.py custom_vanna.py.backup는 유닉스(리눅스/맥) 계열 터미널에서 사용하는 파일 복사 명령어입니다.cp : “copy”의 약자로, 파일이나 디렉터리를 복사할 때 사용합니다.첫 번째 인자 custom_vanna.py : 원본 파일두 번째 인자 custom_vanna.py.backup : 복사본(백업 파일) 이름즉, 현재 디렉터리에 있는 custom_vanna.py 파일을 동일 디렉터리 내 custom_vanna.py.backup 이라는 이름으로 복사해서 백업을 만드는 명령어입니다.추가로 자주 쓰는 옵션 예시:-i : 덮어쓸 때 확인(prompt)-r : 디렉터리 전체(recursive) 복사-v : 복사 과정을 상세히 출력(verbose)cp -iv custo.. 2025. 5. 28.

ICEBURG TABLE - Iceberg란 무엇인가? 테이블 포맷의 정의와 목적주요 특징: ACID 트랜잭션, 스냅샷 관리, 스키마 진화 등Key PointsIceberg은 대규모 분석 데이터셋을 관리하기 위한 오픈소스 테이블 포맷으로, SQL 테이블의 신뢰성과 단순성을 제공합니다.주요 특징은 ACID 트랜잭션, 스냅샷 관리, 스키마 진화 등이 포함됩니다.연구에 따르면, Iceberg은 데이터 일관성과 성능 최적화를 보장하며, 여러 데이터 처리 엔진이 동시에 동일한 테이블을 사용할 수 있게 합니다.Iceberg이란 무엇인가?Iceberg은 대규모 데이터 레이크에서 분석 데이터를 효율적으로 관리하기 위한 오픈소스 테이블 포맷입니다. Apache 소프트웨어 재단의 프로젝트로, SQL 테이블과 유사한 신뢰성과 단순성을 제공하며, Spark, Trino, Flin.. 2025. 4. 13.

데이터 저장 형식 TextInputFormat/ Parquet 관련해서 정리 문제📌 Hue 에서 컬럼수정시 >> 테이블 스키마 구조가 바뀌면 backfill 해줘야 하는 현상 아니면 Mismatch 오류가 뜸원인테이블 빌드시 parquet 가 아닌 경우 (TextInputFormat) 에는 컬럼 순서를 지켜줘야 함영향을 받는 형식'org.apache.hadoop.mapred.**TextInputFormat**'그렇다면 ? >>빌드할때 PARQUET 형식으로 빌드해야함external table 인데 spark.sql.sources.schema 달리면 안됨spark.sql.... property 를 모두 제거하거나spark.sql.sources.schema json 에 새로 추가하는 컬럼을 추가ROW FORMAT SERDEROW FORMAT SERDE 'org.apache.hado.. 2024. 8. 6.

Airflow에서 데코레이터(decorator)를 사용하는 이유 사용이유 코드를 간결하게 하고, 재사용성을 높이며, 함수나 메소드에 추가 기능을 손쉽게 적용하기 위해서입니다. Airflow에서 특히 자주 사용되는 데코레이터는 @task 데코레이터인데, 이는 몇 가지 중요한 이유로 사용됩니다 코드의 간결성: @task 데코레이터를 사용하면, 일반 Python 함수를 Airflow 태스크로 변환할 수 있습니다. 이는 DAG 내에서 태스크를 정의할 때 보다 간결하고 명확한 코드를 작성할 수 있도록 도와줍니다. 재사용성 증가: 함수를 사용하여 태스크 로직을 정의하면, 이 함수를 다른 DAG에서도 재사용할 수 있습니다. 데코레이터는 이런 함수들을 태스크로 쉽게 변환해주므로 코드 재사용성이 높아집니다. 추가 기능의 적용: Airflow의 @task 데코레이터는 태스크의 실행 방.. 2024. 4. 19.

IBM Data Engineer - Introduction to Relational Databases (RDBMS) Review of Data Fundamentals 데이터는 의미 있는 정보로 처리되는 사실, 관찰, 인식, 숫자, 문자, 이미지 등입니다. 데이터는 구조화, 반구조화, 비구조화로 분류됩니다. 다양한 데이터 소스에서 다양한 유형의 데이터를 얻을 수 있습니다 (예: 소셜 미디어에서 얻은 데이터는 비구조화 또는 반구조화일 수 있음). 데이터는 관계형 데이터베이스와 비관계형 데이터베이스 등 다양한 저장소에 저장할 수 있습니다. 데이터는 CSV, XML, JSON 파일로 전송할 수 있습니다. Information and Data Models 정보 모델과 데이터 모델의 차이: 정보 모델은 개념 수준에서 추상적이며, 객체 간의 관계를 정의합니다. 반면 데이터 모델은 더 구체적인 수준에서 정의되며, 세부 사항을 포함합.. 2023. 4. 19.

IBM Data Engineer - Extract, Transform, Load (ETL) Extract, Transform, Load (ETL) 이 비디오에서는 ETL(추출, 변환, 로딩) 프로세스를 소개하고 간단한 Python 프로그램을 작성하는 방법을 배웁니다. ETL은 다양한 소스에서 데이터를 추출하고, 변환하여 원하는 형식으로 만든 다음, 데이터베이스 또는 목표 파일에 로드하는 과정입니다. 예를 들어, 당뇨병 위험을 예측하는 AI를 개발한 스타트업을 운영한다고 가정해보겠습니다. 일부 데이터는 CSV 형식이고, 다른 데이터는 JSON 파일에 있습니다. 이러한 데이터를 AI가 읽을 수 있는 하나의 파일로 병합해야 합니다. 또한, 데이터를 변환하여 미터법 단위로 바꾸고 최종적으로 하나의 큰 CSV 파일로 데이터를 로드해야 합니다. ETL을 Python으로 구현하려면 다음 단계를 수행합니다... 2023. 4. 18.

IBM Data Engineer - Python for Data Science, AI & Development 3 REST APIs & HTTP Requests - Part 1 이 동영상에서는 HTTP 프로토콜에 대해 다룹니다. 주요 주제로는 다음과 같습니다: 일관된 리소스 로케이터(URL), 요청(Request), 응답(Response). 이전 섹션에서는 REST API를 간략하게 다루었습니다. HTTP 프로토콜은 웹을 통한 정보 전송의 일반적인 프로토콜로, 많은 종류의 REST API를 포함합니다. REST API는 요청을 보내고 이를 HTTP 메시지를 통해 통신하는 방식으로 작동합니다. 일반적으로 HTTP 메시지는 JSON 파일을 포함합니다. 클라이언트가 웹 페이지를 사용하면 브라우저가 해당 페이지가 호스팅되는 서버에 HTTP 요청을 보냅니다. 서버는 기본적으로 "index.html"과 같은 원하는 리소스를 찾.. 2023. 4. 18.

IBM Data Engineer - Python for Data Science, AI & Development 2 Numpy in Python One Dimensional Numpy 안녕 친구! 이번에는 numpy라는 걸 배울 거야. numpy는 과학 계산을 도와주는 도구인데, 이걸 사용하면 많은 것을 할 수 있어. numpy를 사용하면 빠르게 계산할 수 있고, 컴퓨터 메모리도 적게 사용하게 돼. 그럼 이제 numpy를 이용해서 어떻게 쓰는지 몇 가지 예시를 보여줄게! numpy 배열 만들기: numpy 배열은 숫자들이 모여 있는 것이야. 파이썬 리스트처럼 생겼지만, 모든 요소가 같은 타입이어야 해. 그래서 numpy 배열을 만들 때는 이렇게 해볼게: import numpy as np my_list = [1, 2, 3, 4, 5] my_array = np.array(my_list) 배열에서 숫자 바꾸기: numpy .. 2023. 4. 12.

이전 1 2 다음

티스토리툴바