자격증/빅데이터분석기사

[빅데이터분석기사 필기 요약정리] : Part 01. 빅데이터 분석 기획 / 23년 제6회 시험 대비 (feat. 김계철 교수님)

방랑청년 2023. 4. 3.
반응형

빅데이터분석기사 필기 요약정리 에요

 

지난번 ADsP 시험에서도 김계철 교수님 포인트 요약이 도움이 많이 되어, 이번에도 도움을 받아보려고 합니다

(제발 도와주실거죠...?)

 

핵심을 너무 잘 짚어주셔서 좋은데, 이번엔 양이 좀 많긴 하네요...그래도 다 정리해봅니다...1탄..

 

교수님께서 표시하신 중요도(별표) 순으로 정리했고, 저도 그 순으로 보려구요

 

모두 필기 합격!!

 


 

 

 

[빅데이터분석기사 필기 요약정리] : Part 01. 빅데이터 분석 기획 [중요도 - ★★★]

1.    데이터 거버넌스의 정의 및 체계요소

<정의>

  • 데이터 거버넌스란 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말함
  • 기업에서 가치 있는 양질의 데이터를 지속적으로 발굴 및 관리해 비즈니스 자산으로 활용하기 위한 데이터 통합관리체계를 말함
  • 마스터 데이터, 메타데이터, 데이터 사전은 데이터 거버넌스의 중요한 관리대상

<체계요소>

  • 데이터 표준화 : 데이터 표준 용어 설명, 명명규칙, 메타데이터 구축, 데이터 사전 구축 등의 업무로 구성
  • 데이터 관리 체계 : 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타데이터와 데이터 전의 관리원칙을 수립. 수립된 원칙에 근거하여 항목별 상세한 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비
  • 데이터 저장소 관리 : 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성. 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함. 또한 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용이 가능
  • 표준화 활동 : 데이터 거버넌스의 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시. 거버넌스의 조직 내 안정적 정착을 위한 계속적인 변화관리 및 주기적인 교육을 진행

 

2.    빅데이터 플랫폼을 구성하는 오픈소스 소프트웨어들의 역할
초기 빅데이터 플랫폼은 하둡 분산파일시스템과 맵리듀스의 모듈로 구성되었으나, 아래와 같이 지속적 발전

기능 소프트웨어 설명
코디네이터 Zookeeper 분산 환경에서 서버간의 상호 조정이 필요한 다양한 서비스를 제공하는 시스템
리소스관리 YARN 데이터 처리 작업을 실행하기 위한 클러스터 자원과 스케줄링을 위한 프레임워크
데이터저장 HBase HDFS 기반의 컬럼 기반 데이터베이스로 실시간 랜덤 조회 및 업데이트가 가능
Kudu 컬럼 기반 스토리지로 특정 컬럼에 대한 데이터 읽기를 고속화 할 수 있음
데이터수집 Chukwa 분산 환경에서 생성되는 데이터를 HDFS에 안정적으로 저장하는 플랫폼
Flume 척와처럼 분산된 서버에서 에이전트가 설치되고, 에이전트로부터 데이터를 전달받은 콜렉터로 구성 (동적 변경 가능)
Kafka 데이터 스트림을 실시간으로 관리하기 위한 분산 메세징 시스템으로 데이터 손실을 막기 위하여 디스크에 저장
데이터처리 Pig 맵리듀스 API를 매우 단순화한 형태이고 SQL과 유사한 형태로 설계
Spark 인메모리 기반의 범용 데이터 처리 플랫폼으로 배치 처리, 머신러닝, SQL 질의 처리, 스트리밍 데이터 처리, 그래프 라이브러리 처리와 같은 다양한 작업을 수용할 수 있도록 설계
Hive 하둡 기반의 데이터 웨어하우징 솔루션
Mahout 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈소스 프로젝트
Impala 클라우데라에서 개발한 하둡 기반의 분산 쿼리 엔진
Presto 페이스북이 개발한 대화형 질의를 처리하기 위한 분산 쿼리 엔진
Tajo 고려대학교 박사 과정 학생들이 주도해서 개발한 하둡 기반 데이터 웨어하우스 시스템
워크플로우 관리 Oozie 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
Airflow 에어비앤비에서 개발한 워크플로우 플랫폼
Azkaban 링크드인에서 개발한 워크플로우 플랫폼
Nifi 데이터 흐름을 모니터링하기 위한 프레임워크
데이터시각화 Zeppelin 빅데이터 분석가를 위한 웹 기반의 분석 도구이며 분석 결과를 시각화 작업 지원

 

 

3.    빅데이터의 3V, 5V (ROI 기반 4V)

구분 특징 내용
3V
(투자비용)
Volume(규모) 수집, 저장, 처리하는 데이터의 규모가 매우 큼
Variety(다양성) 정형화된 데이터뿐만 아니라 다양한 유형의 데이터를 처리함
Velocity(속도) 데이터의 수집, 분석, 활용의 속도가 매우 빠름
4V
(비즈니스)
Value(가치) 수집된 데이터를 처리함으로써 다양한 가치를 창출함
5V Veracity(신뢰성) 데이터 처리를 통한 노이즈 제거로 수집된 데이터의 신뢰 확보

 

4.    하향식 접근방법 개념 및 프로세스 (하향식은 탐.문.해.성)

  • 문제가 정의되어 주어지고 이에 대한 해결 방법을 찾기 위해 단계적으로 업무를 수행하는 방식
  • 프로세스 : 문제 탐색 -> 분석 문제 정의 -> 해결 방안 탐색 -> 타당성 평가 및 과제 선정

 

5.    상향식 접근방법 개념 및 프로세스

  • 문제를 정의할 수 없는 경우 데이터를 기반으로 문제를 정의하고 해결 방안을 탐색하는 방식
  • 장바구니 분석, 군집 분석 등 비지도 학습 기반으로 데이터의 상태를 분석하고 문제점을 도출

 

6.    빅데이터 분석 방법론 (방법론은 기.준.분.구.전)

  • 분석 과제 수행 시 참고할 수 있는 사전에 정의된 체계적인 절차와 처리 방법
  • 상세한 절차, 방법, 도구 및 기법, 템플릿과 산출물로 구성되어 있어 분석 업무를 수행할 때 일정한 수준의 품질 확보 가능
  • 프로세스 : 분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개

 

7.    데이터 유형별 수집 기술

  • 정형 데이터 : ETL, FTP, Open API
  • 비정형 데이터 : Crawling, RSS, Open API, FTP, Scrapy, Apache Kafka
  • 반정형 데이터 : Sensing, Streaming, Flume, Scribe, Chukwa

 

8.    비식별화 처리 기법과 사례

  • 가명처리 : 휴리스틱 가명화, K-익명화, 암호화, 교환 방법이 있으며, 개인 식별이 가능한 데이터를 다른 값을 대체하는 기법 ex) 김철수 -> 임꺽정
  • 총계처리 : 총합, 부분합, 라운딩, 재배열 등의 방법이 있으며, 개인정보에 통곗값을 적용하여 개인을 특정할 수 없게 하는 기법
  • 데이터 삭제 : 식별자 삭제, 부분 삭제, 레코드 삭제 등의 방법이 있으며, 특정 데이터 값을 삭제하는 기법
  • 데이터 범주화 : 범주화, 랜덤 라운딩, 범위화 등이 있으며, 식별 값을 해당 그룹의 대푯값이나 구간값으로 변환하는 기법
  • 데이터 마스킹 : 임의 작음 추가, 공백, 대체 방법이 있으며, 식별값의 전체 또는 부분을 대체값으로 변환하는 기법 ex) 김철*, 김철O

 

[빅데이터분석기사 필기 요약정리] : Part 01. 빅데이터 분석 기획 [중요도 - ★★]

1.    정형 데이터와 반정형 데이터 특징 구분 (비정형 포함)

유형 설명
정형 데이터 정형화된 스키마 구조를 가지고 고정된 필드에 저장되는 행과 열로 구성된 데이터
Ex) RDBMS, 스프레드 시트 등
반정형 데이터 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식이 일관되지 않은 데이터
Ex) XML, HTML, 웹 로그, 알람, JSON 파일, RSS, 센서 데이터 등
비정형 데이터 스키마 구조 형태 없이 고정된 필드에 저장되지 않는 데이터
Ex) SNS, 웹 게시판, 텍스트/이미지/오디오/비디오 등

 

2.    데이터 저장방식 중 RDBMS와 NoSQL 도구 분류

  • RDBMS : 테이블 형식의 관계형 데이터를 저장, 수정, 관리할 수 있는 데이터베이스로 SQL을 통해 데이터의 생성, 수정, 조회 등을 처리하며 Oracle, MSSQL, MySQL 등이 있다
  • NoSQL(Not Only SQL) : RDB보다 상대적으로 제한이 덜한 데이터 모델을 기반에 둔 분산 데이터베이스이다. NoSQL은 수평적 확장(Scale-out), 데이터 복제, 간편한 API 제공, 유연성 등의 장점이 있으며 MongoDB, Cassandra, HBase 등이 있다. 데이터 모델에 따라 Key Value Database, Document Database, Wide Column Database, Graph Database로 구분된다
  • 하둡 분산 파일 시스템 : 분산 파일 시스템이란 네트워크를 이용해 접근하는 파일 시스템을 말한다

 

3.    데이터베이스와 데이터웨어하우스의 특징 구분

  • 데이터베이스 특징 : 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터
  • 데이터 웨어하우스 특징 : 데이터의 주제지향성, 데이터의 통합성, 데이터의 시계열성, 데이터의 비휘발성
  • 다양하고 방대한 데이터를 효과적으로 통합 관리하고 BI 시스템의 정합성과 성능을 보장하기 위하여 사용자 관점의 주제별로 데이터를 통합하는 데이터 웨어하우스도 함께 발전되어 옴
  • 전사자원관리(ERP), 생산관리(MES), 공급망관리(SCM), 고객관계관리(CRM) 등 기업의 전반적인 활동 영역에서 생성되는 데이터를 수집/적재하여 다양한 관점의 통합 데이터를 생성하고, 주제영역별 요약 데이터 집계 등 데이터 모델링 결과를 통해 실적 기반의 데이터 분석활동을 지원

 

4.    빅데이터가 만들어내는 본질적인 변화

  • 사전처리에서 사후처리 시대로
  • 표본조사에서 전수조사로
  • 질보다 양으로
  • 인과관계에서 상관관계로

 

5.    빅데이터의 위기요인과 통제방안

  • 사생활 침해 : 동의제에서 책임제로의 변경. 데이터를 사용하는 사용주체가 책임을 지게 하여 사생활 침해에 대한 자구책 마련 주문
  • 책임 원칙 훼손 : 기존 책임 원칙을 강화, 보강하고 예측에 의한 불이익 가능성을 최소화하는 장치 마련
  • 데이터 오용 : 분석 알고리즘에 대한 접근을 허용하여 분석 결과에 대한 부당함을 반증할 방법에 대해 공개하도록 주문

 

6.    분석업무 수행 주제에 따른 3가지 조직구조 유형 구분

  • 집중 구조 : 각 부서별로 분석을 진행하며 전사 분석업무를 별도의 분석 전담 조직에서 담당. 분석업무가 이중화, 이원화될 수 있다
  • 기능 구조 : 각 부서별로 분석을 진행. 별도의 분석 조직이 없어 전사적 핵심분석이 어렵고, 과거 실적 분석에 국한될 가능성이 크다
  • 분산 구조 : 분석 조직 인력들을 현업부서로 직접 배치하여 분석업무를 수행. 분석 결과에 따른 신속한 활동이 가능하며 Best Practice의 공유가 가능하여 분석 수준을 상향 평준화 시킬 수 있다. 각 부서의 분석업무와 역할 분담을 명확히 해야 한다

 

7.    개인정보의 수집Ÿ이용 관련 주요 사항 (빅데이터 개인정보 보호 가이드라인)

  • 수집 시부터 개인식별 정보에 대한 철저한 비식별화 조치
  • 빅데이터 처리 사실, 목적 등의 공개를 통한 투명성 확보
  • 개인정보 재식별 시, 즉시 파기 및 비식별화 조치
  • 민감정보 및 통신비밀의 수집, 이용, 분석 등 처리 금지
  • 수집된 정보의 저장, 관리 시 ‘기술적, 관리적 보호조치’ 시행

 

8.    프라이버시 모델

  • 가능한 추론의 형태와 프라이버스 노출에 대한 정량적인 위험성을 규정하는 방법
  • K-익명성 : 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상 비식별되도록 함
  • I-다양성 : 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법
  • T-근접성 : i-다양성 뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법

 

9.    분석 주제 유형

  • 최적화(Optimization) : 분석의 대상과 방법을 모두 알 때
  • 통찰(Insight) : 분석의 대상은 모르지만 방법을 알 때
  • 솔루션(Solution) : 분석의 대상은 알지만 방법은 모를 때
  • 발견(Discovery) : 분석의 대상과 방법을 모두 모를 때

 

10.  마스터 플랜 수립 개요

  • 분석 마스터플랜은 분석대상이 되는 과제를 도출하고 우선순위를 평가하여 단기적인 세부이행계획과 중/장기적인 로드맵을 작성해야 함
  • 분석과제를 대상으로 전략적 중요도, 비즈니스 성과 및 ROI(투자회수율), 분석과제의 실행용이성 등을 고려해 적용할 우선순위를 설정할 필요가 있음
  • 분석업무의 내재화 여부, 분석데이터를 내부의 데이터로 한정할 것인지 여부, 분석기술은 어느 기술까지 적용할 것인지 등 종합적으로 고려하여 로드맵을 수립

 

11.  KDD(Knowledge Discovery in Database) (케디는 선.전.변.마.평)

  • 데이터로부터 통계적인 패턴이나 지식을 찾기 위해 정리된 데이터 마이닝 프로세스
  • 프로세스 : 데이터 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 해석과 평가

 

12.  CRISP-DM(Cross Industry Standard Process For Data Mining) (크리스피는 업.데.데.모.평.전)

  • 6단계로 구성
  • 폭포수 모형처럼 단방향으로 구성되어 있지 않고 단계 간 피드백을 통해 완성도를 높이는 방식
  • 프로세스 : 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개

 

13.  데이터 분석 프로세스 (데이터 분석은 수.저.처.분.모.시)

  • 프로세스 : 데이터 수집 -> 데이터 저장 -> 데이터 처리 -> 탐색적 데이터 분석(EDA) -> 모형 및 알고리즘 설계 -> 시각화 및 보고서를 통한 데이터 활용

 

14.  정형데이터 품질 기준

  • 수집된 정형 데이터의 품질은 데이터베이스의 테이블, 컬럼과 업무 규칙 등을 기준으로 검증
  • 정형 데이터의 품질 검증은 데이터베이스의 메타를 기준으로 정확성, 유효성, 완전성과 업무적으로 정의된 기준과 제약사항 등의 기술 규칙을 적용하여 검증할 수 있음

 

[빅데이터분석기사 필기 요약정리] : Part 01. 빅데이터 분석 기획 [중요도 - ★]

1.    데이터의 정의

  • 데이터란 현실 세계로부터 관찰되거나 측정되어 수집된 사실 또는 값을 의미
  • 의미 있는 정보를 가진 모든 값으로, 사람이나 자동기기가 생성 또는 처리하는 형태로 표시된 것
  • 데이터는 현상이나 사실을 기술하거나 추론과 추정의 근거를 이루는 사실로 사용되고 있음
  • 데이터를 어떻게 활용하는지에 따라 정보, 지식, 지혜로 구분

 

2.    정성적 데이터와 정량적 데이터 구분

구분 정성적 데이터 정량적 데이터
형태 비정형 데이터 정형/반정형 데이터
특징 객체 하나에 합의된 정보 보유 속성이 모여 객체를 이룸
구성 언어, 문자 등 수치, 도형, 기호 등
저장형태 파일, 웹 데이터베이스, 스프레드시트
소스 위치 SNS데이터 관계형데이터베이스

 

3.    암묵지와 형식지의 상호작용 정의

  • 공통화 : 개인 혹은 집단이 경험을 공유함으로써 지식이 공유되는 과정 (암묵지 -> 암묵지)
  • 표출화 : 개인의 지식을 공유하기 위해 문서나 매체로 표현하는 과정 (암묵지 -> 형식지)
  • 연결화 : 개인 혹은 집단이 형식지를 상호 결합하면서 새로운 지식을 창조하는 과정 (형식지 -> 형식지)
  • 내면화 : 교육, 훈련 등으로 형식지를 개인이 체득하여 암묵지로 체득하는 과정 (형식지 -> 암묵지)

 

4.    DIKW 피라미드 정의

  • 데이터 : 가공되기 전의 객관적 수치 또는 기호
  • 정보 : 데이터의 가공 및 처리를 통해 도출된 현상
  • 지식 : 정보의 구조화를 통해 도출되는 고유의 아이디어
  • 지혜 : 지식의 축적과 아이디어가 결합된 창의적 산물

 

5.    데이터베이스 설계 순서 (설계는 요.개.논.계.구)

  • 요구분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계 -> 구현

 

6.    SQL 데이터 정의어, 데이터 조작어 구분

  • 데이터 정의어(DDL) : 테이블을 생성하고 변경, 제거하는 기능을 제공
  • 데이터 조작어(DML) : 데이터를 검색, 데이터 삽입, 데이터 수정, 데이터 삭제하는 기능 제공
  • 데이터 제어어(DCL) : 보안을 위해 데이터에 대한 접근 및 사용권한을 사용자별로 부여하거나 취소하는 기능을 제공

 

7.    ETL 기능

  • Extraction : 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득
  • Transformation : 데이터 클렌징, 형식 변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용

 

8.    빅데이터의 구성요소

  • 규모(Volume), 다양성(Variety), 속도(Velocity), 진실성 또는 신뢰성(Veracity) + 가치(Value)

 

9.    빅데이터의 출현 배경

  • IT 기술의 발전
  • IT 기기 및 서비스의 가격하락
  • SNS 확산
  • 센서 및 임베디드 시스템 증가
  • 빅데이터 분석이 가능했던 결정적 기술은 클라우드 컴퓨팅과 분산 병렬처리 기법이라 할 수 있다. 이를 통해 대규모 데이터의 신속한 처리와 처리비용을 하락시켜 빅데이터 분석의 경제성을 개선하였다

 

10.  가트너의 비즈니스 분석 유형

  • 묘사(Descriptive) : 과거/현재에 어떤 일이 발생하였는지에 대한 분석
  • 진단(Diagnostic) : 과거/현재에 발생한 일에 대한 이해를 위한 분석
  • 예측(Predictive) : 미래에 어떤 일이 발생할 것인가에 대한 분석
  • 처방(Prescription) : 어떤 일을 해야 할 것인가를 제시하는 분석(대안 도출 또는 대안 실행)

 

11.  마이 데이터 정의

  • 사람과 조직 간의 신뢰, 자기 정보 결정권의 확보, 개인정보의 공정한 공유를 통한 공동의 이익극대화를 강조
  • 개인이 개인데이터의 통제, 결정권을 가지고 개인의 요구에 따라 개인정보 활용 주체는 안전한 환경을 제공하며, 개인의 승인 및 동의에 의해 활용이 되어야 하는 원칙을 가짐
  • 투명성, 신뢰성, 통제권, 가치 관점에서 개인정보 수집, 활용의 공개, 서비스 제공자의 신뢰성 확보, 개인정보 공유의 통제 및 개인에게 가치를 제공하도록 요구

 

12.  하드 스킬과 소프트 스킬

  • Hard Skill : 빅데이터 지식, 분석 기술 등
  • Soft Skill : 통찰력 있는 분석, 의사 전달 능력, 다분야 간 협력

 

13.  분석 준비도 6개 영역

  • 분석업무파악 : 발생한 사실 분석, 예측분석, 시뮬레이션 분석, 최적화 분석, 분석 업무 정기적 개선
  • 인력 및 조직 : 분석 전문가 직무 존재, 분석 전문가 교육훈련 프로그램, 관리자들의 기본적 분석 능력, 전사 분석 업무 총괄 조직 존재, 경영진 분석 업무 이해 능력
  • 분석기법 : 업무별 적합한 분석 기법 사용, 분석 업무 도입 방법론, 분석 기법 라이브러리/효과성평가/정기적개선
  • 분석데이터 : 분석업무를 위한 데이터 충분성/신뢰성/적시성, 비구조적 데이터 관리, 외부 데이터 활용 체계, 기준데이터 관리
  • 분석문화 : 사실에 근거한 의사결정, 관리자의 데이터 중시, 회의 등에서 데이터 활용, 경영진의 직관보다 데이터, 데이터 공유 및 현업 문화
  • IT인프라 : 서버, 빅데이터, 통계 등 분석 환경

 

14.  분석 성숙도 모델

<도입>

  • 분석을 시작하여 환경과 시스템을 구축
  • 실적분석 및 통계, 정기보고 수행, 운영 데이터 기반
  • 일부 부서에서 수행, 담당자 역량에 의존
  • 데이터 웨어하우스, 데이터 마트, ETL/EAI, OLAP

<활용>

  • 분석 결과를 실제 업무에 적용
  • 미래 결과 예측, 시뮬레이션, 운영 데이터기반
  • 전문 담당부서 수행, 분석 기법 도입, 관리자가 분석 수행
  • 실시간 대시보드, 통계분석 환경

<확산>

  • 전사 차원에서 분석을 관리하고 공유
  • 전사 성과 실시간 분석, 프로세스혁신 3.0, 분석규칙 관리, 이벤트 관리
  • 전사 모든 부서 수행, 분석 CoE 조직 운영, 데이터 사이언티스트 확보
  • 빅데이터 관리 환경, 시뮬레이션 최적화, 비주얼 분석, 분석 전용 서버

<최적화>

  • 분석을 진화 시켜서 혁신 및 성과 향상에 기여
  • 외부환경 분석 활용, 최적화 업무 적용, 실시간 분석, 비즈니스 모델 진화
  • 데이터 사이언스 그룹, 경영진 분석 활용, 전략 연계
  • 분석 협업 환경, 분석 Sandbox, 프로세스 내재화, 빅데이터 분석

 

15.  강한 인공지능과 약한 인공지능

  • 강한 인공지능 : 사람과 같은 지능으로 마음을 가지고 사람처럼 느끼면서 지능적으로 행동하는 기계를 말함 (추론, 문제해결, 판단, 계획, 의사소통, 자아의식, 감정, 양심)
  • 약한 인공지능 : 특정문제를 해결하는 지능적 행동으로 사람의 지능적 행동을 흉내 낼 수 있는 수준을 말함

 

16.  데이터 확보 프로세스 (데이터 확보는 정.도.예.수)

  • 목표 정의 -> 요구사항 도출 -> 예산안 수립 -> 계획 수립

 

17.  분석 프로젝트 관리 방안

18.  데이터별 특성에 따른 분류

19. 데이터 프로파일링(Data-Profiling) 정의 및 절차

반응형

댓글

💲 추천 글