Yondata
article thumbnail
Published 2023. 9. 26. 16:41
IT 용어 정리 기타
728x90
반응형
SMALL

리눅스

RPM(RedHat Package Manager)
RPM이란 RedHat Pacage Manager의 약자로 레드햇 계열의 리눅스 배포판에서 사용하는 프로그램(패키지) 설치 관리 도구 입니다. 현재는 RPM Package Manager의 재구적 약자로 사용되어 지고 있습니다. 오픈소스 진영 특유의 유머가 느껴지는 약자로 GNU의 GNU is Not Unix 와 같은 원리라고 볼 수 있습니다.

 

rpm [옵션] [rpm 패키지파일 또는 rpm 패키지이름]

 

yum(Yellodog Update Modified)
yum이란 Yellodog Update Modified의 약자로 레드햇 계열의 리눅스 배포판에서 사용하는 프로그램(패키지) 설치 관리 도구 입니다. 명령어 이름으로만 봤을때는 전혀 기능과 관련이 없어보이기도 합니다. 그러나 yum은 rpm 명령어가 해결하지 못했던 패키지 의존성 문제를 해결한 똑똑한 패키지 관리 툴입니다. yum 명령어를 사용하면 패키지 의존성 문제를 자동으로 처리하면서 설치, 업데이트, 삭제를 진행할 수 있습니다.

 

yum [옵션] [명령] [패키지명]

 


데이터베이스

 


Hadoop

https://wikidocs.net/23282

Hive 구성요소

UI
    사용자가 쿼리 및 기타 작업을 시스템에 제출하는 사용자 인터페이스
    CLI, Beeline, JDBC 등


Driver
   쿼리를 입력받고 작업을 처리
   사용자 세션을 구현하고, JDBC/ODBC 인터페이스 API 제공


Compiler
    메타 스토어를 참고하여 쿼리 구문을 분석하고 실행계획을 생성


Metastore
    디비, 테이블, 파티션의 정보를 저장


Execution Engine
    컴파일러에 의해 생성된 실행 계획을 실행

 

hive 실행 순서

1. 사용자가 제출한 SQL문을 드라이버가 컴파일러에 요청하여 메타스토어의 정보를 이용해 처리에 적합한 형태로 컴파일
2. 컴파일된 SQL을 실행엔진으로 실행
3. 리소스 매니저가 클러스터의 자원을 적절히 활용하여 실행
4. 실행 중 사용하는 원천데이터는 HDFS등의 저장장치를 이용
5. 실행결과를 사용자에게 반환

 

Hadoop

규모 데이터를 처리하고 저장하기 위한 오픈 소스 분산 데이터 처리 프레임워크입니다. Apache Hadoop 프로젝트의 일부로 개발되었으며, 많은 기업과 조직에서 대용량 데이터를 처리하고 분석하는 데 사용됩니다.

 

 HDFS (Hadoop Distributed File System)

Apache Hadoop 프로젝트의 일부로 개발된 분산 파일 시스템입니다. HDFS는 대용량 데이터를 저장하고 관리하기 위해 설계된 파일 시스템으로, Hadoop 클러스터의 여러 노드에 데이터를 분산하여 저장합니다. 이것은 대규모 데이터 처리 및 분석 작업을 위한 기반이 되는 저장 시스템입니다.

 

 MapReduce

Hadoop의 데이터 처리 모델 중 하나로, 대규모 데이터를 여러 노드에서 병렬로 처리할 수 있게 합니다. Map 단계에서 데이터를 필터링하고 변환하며, Reduce 단계에서는 결과를 집계하고 요약합니다.

 

 YARN (Yet Another Resource Negotiator)

Hadoop 클러스터에서 자원 관리 및 작업 스케줄링을 수행하는 컴포넌트입니다. 이를 통해 여러 다양한 작업 유형을 관리하고 실행할 수 있습니다.

 

 Hadoop Common

Hadoop 클러스터의 모든 노드에서 실행되는 공통 라이브러리와 유틸리티 모음입니다. 이것은 Hadoop 클러스터의 구성 및 관리를 단순화합니다. 

 

 Hadoop Ecosystem

Hadoop의 생태계는 다양한 관련 프로젝트와 도구로 구성되어 있습니다. 이러한 프로젝트들은 데이터 저장, 처리, 분석, 모니터링 및 시각화 등 다양한 데이터 관련 작업을 지원합니다. 예를 들어, HBase, Hive, Pig, Spark, Mahout 등이 있습니다.

 

 

Hive

hive는 데이터 웨어하우징 및 데이터 쿼리 언어를 제공하여 사용자가 대규모 데이터 세트를 쉽게 관리하고 쿼리할 수 있도록 도와줍니다. Hive는 Hadoop의 HDFS (Hadoop Distributed File System)에 저장된 데이터를 처리하고, SQL과 유사한 HiveQL 언어를 사용하여 데이터를 쿼리하고 분석할 수 있습니다.

 

Metastore

Hive Metastore는 Hive 테이블 및 메타 데이터를 관리하는 데 사용됩니다.

 

Apache Ambari

Hadoop 및 Hive와 같은 다양한 빅데이터 도구를 관리하고 모니터링 하는데 도움 되는 관리 도구

 


 

728x90
반응형
LIST
profile

Yondata

@Yondata

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!