자격증/ADsP

[ADsP 핵심이론 요약정리] 데이터분석준전문가(ADsP) 22년 10월 시험대비 (feat. 김계철 강사님)

방랑청년 2022. 10. 25.
반응형

ADsP 핵심이론 요약정리 개념을 모두 외우고 10월 시험 합격 합시다~~


<1과목>
1. 7개의 기업내부데이터 솔루션
1) OLTP : 네트워크상의 여러 이용자가 실시간으로 데이터베이스의 데이터를 갱신하거나 조회하는 등의 단위작업을 처리하는 방식 (Transaction 개념)
2) OLAP : 대화식의 정보 위주의 처리분석을 의미. 의사결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술 (Analytic 개념)
3) CRM : 선별된 고객으로부터 수익을 창출하고 장기적인 고객 관계를 가능케 함으로써 보다 높은 이익을 창출할 수 있는 솔루션
4) SCM : 제조, 물류, 유통업체 등 유통 공급망에 참여하는 모든 업체가 협력을 바탕으로 정보기술을 활용, 재고를 최적화하기 위한 솔루션
5) ERP : 제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 솔루션
6) BI : 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
7) BA : 소프트웨어로 데이터를 분석해 미래를 예측하거나(예측 분석), 특정 접근법을 적용했을 때 발생할 수 있는 일을 내다보는(처방적 분석)기술의 도움을 받는 과정. 고급분석이라고 불리며 의사결정을 위한 통계적/수학적 분석에 초점

2. 데이터베이스의 정의와 데이터베이스 관리시스템의 4가지 특성
- 데이터베이스 : 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합. (DBMS(소프트웨어)에 의해 관리)
- 데이터마트와 데이터웨어하우스 : 데이터 마트는 데이터웨어하우스 환경에서 정의된 접근계층으로, 데이터웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 함. 데이터마트는 데이터웨어하우스의 부분이며, 대개 특정한 조직, 혹은 팀에서 사용하는 것을 목적으로 함
- 데이터 레이크 : 대규모의 다양한 원시 데이터셋을 기본형식으로 저장하는 데이터 리포지토리 유형으로 데이터 레이크에 있는 데이터는 분석을 위해 필요할 때 변환되며, 이러한 경우 스키마가 적용되어 데이터 분석이 가능해짐. 이는 읽기 스키마로 불리는데, 데이터가 사용 준비 상태가 될 때까지 원시상태로 보관되기 때문

3. 데이터와 정보의 관계 (DIKW 피라미드)
- 데이터 --> 정보 --> 지식 --> 지혜 로 발전
- 데이터 : A마트 100원, B마트 200원
- 정보 : A마트 연필이 더 저렴
- 지식 : 가격이 저렴한 A마트에서 연필을 사야겠음
- 지혜 : A마트의 다른 상품들도 B마트보다 쌀 것임

4. 데이터 유형 분류

데이터 유형 특징 데이터 종류
정형데이터 RDBMS의 고정된 필드에 저장되며 데이터 스키마를 지원 RDB, 스프레드시트
반정형데이터 데이터 속성인 메타데이터를 가지며, 일반적으로 스토리지에 저장되는 데이터 파일 HTML, JSON, 웹문서, 센서데이터
비정형데이터 형태 및 구조가 복잡한 이미지, 동영상 같은 멀티미디어 데이터 소셜데이터, 문서, 이미지, 오디오, 비디오


5. 빅데이터가 만들어 내는 본질적 변화
1) 정보의 사전처리에서 사후처리 시대로
2) 표본조사에서 전수조사로
3) 질보다 양으로 (구굴의 자동번역, 결정계수)
4) 인과관계에서 상관관계로

6. 빅데이터 활용기법
1) 연관규칙학습 : 어떤 변수간에 주목할 만한 상관관계가 있는 지 찾는 방법
2) 유형분석 : 사용자의 특성을 분류 ('어떤 특성을 가진 집단에 속하는가?' 같은 문제를 해결)
3) 유전알고리즘 : 최적화의 메커니즘을 찾아가는 방법 ('최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에?')
4) 기계학습 : 훈련데이터로부터 학습한다고 알려진 특성을 활용해 '예측'에 초점 ('영화추천시스템' 등)
5) 회귀분석 : 독립변수를 사용하여, 종속변수가 어떻게 변하는지를 보며 두 변수의 관계를 파악 ('나이와 구매차량타입')
6) 감정분석 (또는 감성분석) : 고객의견/평가에 기반 ('새로운 환불정책에 대한 고객의 평가')
7) 소셜네트워크분석 : 영향력 있는 사람을 찾아낼 수 있으면, 고객들 간 소셜커머스 관계 파악 가능

7. 빅데이터 시대의 위기요인과 통제방안
1) 사생활 침해 : 개인의 동의를 구하는 것이 아닌 개인정보 사용자에게 책임을 지워 적극적인 보호장치를 마련하게 함
2) 책임 원칙의 훼손 : 예측 알고리즘의 희생양(취업, 대출)이 될 수 있으므로 기존의 책임원칙을 더 보강하고 강화
3) 데이터의 오용 : 과거데이터에 의존하기에 미래예측은 항상 맞을 수 없음. 알고리즘 접근권 허용, 객관적 인증방안, 알고리즈미스트 역할 요구

8. 데이터사이언스 vs 데이터마이닝 vs 통계학차이
- 데이터사이언스 : 데이터로부터 의미 있는 정보를 추출하는 학문. 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄하는 개념
- 데이터마이닝 : 주로 분석에 초점을 둠
--> 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 총체적 접근법을 사용. 결국 데이터사이언스란 데이터 공학, 수학, 통계학, 검퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문지식을 종합한 학문으로 정의

9. 데이터사이언티스트 요구역량 (하드스킬 vs 소프트스킬)
- 하드스킬 : 이론적 지식, 관련 기법에 대한 이해와 방법론, 분석기술에 대한 숙련, 최적의 분석 설계 및 노하우
- 소프트스킬 : 창의적 사고, 호기심, 논리적 비판, 스토리텔링, 시각화, 커뮤니케이션

10. 개인정보 비식별화 (식별요소 제거방법 설명)

비식별 기술 제거방법
가명처리 식별요소를 다른 값으로 대체
총계처리 또는 평균값 대체 데이터를 총합 표시하여 개별 데이터값을 보이지 않도록 함
데이터값 삭제 개인 식별을 인식할 수 있는 값 삭제
범주화 범주의 값으로 변환
데이터마스킹 개인 식별자가 보이지 않도록 처리


<2과목>
1~3. 분석방법론 개념

분석방법론 정의 분석절차
KDD - 1996년 Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스

- 데이터베이스에서 의미있는 지식을 탐색하는 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조
1) 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확히 설정

2) 데이터 세트 선택

3) 데이터 전처리 : 잡음/이상값/결측 식별 및 제거

4) 데이터변환 : 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하는 등 데이터셋 변경

5) 데이터마이닝 : 목적에 맞는 기법을 선택하고, 데이터마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측

6) 데이터마이닝 결과 평가 : 분석결과에 대한 해석과 평가 및 활용
CRISP-DM - 6단계로 구성

- 각 단계는 폭포수 모델처럼 한 방향으로 구성되어 있지 않고 단계 간 피드백을 통해 완성도를 높이게 됨
1) 업무이해
- 비즈니스관점 목적과 요구사항 이해
- 초기 프로젝트 계획 수립
- 업무목적파악, 상황파악, 데이터마이닝 목표설정, 프로젝트 계획 수립

2) 데이터이해
- 분석을 위한 데이터 수집 및 데이터 속성 이해, 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견
- 초기데이터 수집, 데이터기술 분석, 데이터 탐색, 데이터 품질 확인

3) 데이터준비
- 분석을 위해 수집된 데이터에서 분석기법에 적합한 데이터 세트를 편성 (많은 시간 소요)
- 분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 데이터 포멧팅

4) 모델링
- 다양한 모델링 기법과 알고리즘 선택
- 파라미터를 최적화해 나가는 단계
- 테스트용 프로세스와 데이터셋을 평가하여 모델 과적합 등의 문제를 발견하고 대응방안을 마련
- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

5) 평가
- 프로젝트의 목적 부합여부 평가
- 데이터마이닝 결과 수용여부 최종판단
- 분석결과 평가, 모델링과정 평가, 모델적용성 평가

6) 전개
- 완성모델을 실제 업무에 적용하기 위한 계획수립 및 모니터링, 유지보수 계획
- 전개계획수립, 모니터링과 유지보수 계획수립, 프로젝트 종료 보고서 작성, 프로젝트 검토
빅데이터 - 3계층으로 구성
: 단계(Phase), 태스크(Task), 스텝(Step)

- 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비단계로 피드백 가능

- 데이터 분석 단계에서 프로토타입 시스템을 구현하고자 하는 경우 시스템 구현 단계를 수행
1) 분석기획
- 비즈니스 이해 및 범위설정
- 프로젝트 정의 및 계획수립
- 프로젝트 위험계획 수립

2) 데이터준비
- 필요데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 적합성 점검

3) 데이터분석
- 분석용데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증

4) 시스템구현
- 설계 및 구현
- 시스템 테스트 및 운영

5) 평가 및 전개
- 모델 발전 계획
- 프로젝트 평가 보고
- 평가 및 전개


4. 분석 과제 발굴
- 문제가 주어져 있는 상태에서 답을 구하는 하향식 접근방식이 전통적으로 수행되었던 분석 과제 발굴
- 대규모의 다양한 데이터를 생성하고 빠르게 변하는 기업환경에서는 문제 자체의 변화가 심해 문제를 사전에 정의하는 것이 어려워짐. 데이터를 활용하여 생각하지 못했던 인사이트를 도출하고 시행착오를 통해서 개선해 가는 상향식 접근 방식이 점차 증가 추세
- 각 접근법 별 특징

접근법 내용 특징
하향식 접근법(Top-Down) 문제가 주어져 있는 상태에서 답을 구하는 방식 새로운 문제의 탐색에 한계 존재
상향식 접근 방식(Bottom Up Approach) - 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속해서 개선하는 방식
- 비지도학습 방법에 따라 수행
- 다량의 데이터 분석을 통해서 "왜"그러한 일이 발생하는지 역으로 추적하면서 문제를 도출하거나 재정의할 수 있는 것
애자일모델이 상향식에 해당

*애자일모델 : 전체적인 플랜을 짜고 문서를 통해 주도해나가던 과거의 방식(폭포수모델)과 달리 앞을 예측하며 개발하지 않고, 일정한 주기를 가지고 끊임없이 프로토타입을 만들어내며 필요할 때마다 요구사항을 더하고 수정하여 커다란 소프트웨어를 개발해 나가는 방식
디자인 씽킹 - 넓은 의미에서 디자이너의 사고 방식을 의미
- 시작 단계에서 대상을 자세히 관찰하고 그 상황이나 대상에 공감함으로써 많은 가능성과 아이디어를 생각
- 사용자들에게 공감하는 것에서 시작해 아이디어를 발산하고 곧 수렴하는 과정을 거쳐 많은 프로토타이핑과 피드백에 의해 발전하는 과정
<프로세스 5단계>
1) Empathize : 고객의 문제에 공감
2) Define : 고객의 문제를 정의
3) Ideate : 고객에게 적합한 해결 방안을 제시 (현실 가능성은 고려하지 않음)
4) Prototype : 새로운 아이디어를 프로토타입 또는 서비스에 대한 시나리오 작성
5) Test : 1차 완성된 프로토타입에 대한 고객 피드백을 바탕으로 개선


5. 분석 프로젝트 관리방안 (5가지 사항)
1) Data Size
2) Data Complexity
- BI 프로젝트처럼 정형 데이터가 분석 마트로 구성되어 있는 상태에서 분석하는 것과 달리 비정형, 반정형 데이터가 존재할 경우 데이터 확보뿐만 아니라 분석모델의 선정 등에 대한 사전 고려가 필요
3) Speed
4) Analytic Complexity
- 분석 모델의 정확도와 복잡도
- 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재. 이에 관한 기준점을 사전에 정의해야 함
5) Accuracy & Precision
- Accuracy는 모델과 실제 값 차이가 적다는 정확도를 의미하고, Precision은 모델을 지속적으로 반복했을 때 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미
- 분석의 활용측면에서는 Accuracy가 중요, 안정성 측면에서는 Precision이 중요
- 이 둘은 트레이드 오프 관계로 모델의 해석 및 적용 시 사전에 고려해야 함
--> 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일 프로젝트 관리방식에 대한 고려도 필요

6. 분석프로젝트 영역 별 주요 관리 항목 중 시간(Time)
- 데이터 분석 프로젝트는 초기에 의도했던 결과가 나오기 쉽지 않기 때문에 시간이 소요될 수 있음
- 그래서 품질을 보장한다는 전제 하에 타임박싱 기법으로 일정관리 진행 (철저한 통제가 아님)

7. 분석 준비도 모델 (6개 영역)

영역 내용
1) 분석 업무 파악 - 발생한 사실 여부 파악
- 예측 분석업무
- 시뮬레이션 분석업무
- 최적화 분석업무
- 분석업무 정기적 개선
2) 인력 및 조직 - 분석전문가 직무 존재/교육 훈련 프로그램
- 관리자들의 기본적 분석 능력
- 전사 분석업무 총괄 조직 존재
- 경영진 분석업무 이해 능력
3) 분석기법 - 업무 별 적합한 분석기법 사용
- 분석업무 도입 방법론
- 분석기법 라이브러리/효과성 평가/정기적 개선
4) 분석 데이터 - 분석업무를 위한 데이터 충분성/신뢰성/적시성
- 비구조적 데이터 관리
- 외부 데이터 활용 체계
- 기준데이터 관리
5) 분석문화 - 사실에 근거한 의사결정
- 관리자의 데이터 중시
- 회의 등에서 데이터 활용
- 경영진의 직관보다 데이터
- 데이터 공유 및 협업문화
6) IT 인프라 - 운영시스템 데이터 통합
- EAI, ETL 등 데이터 유통체계
- 분석 전용 서버 및 스토리지
- 빅데이터 분석 환경
- 통계 분석 환경
- 비주얼 분석 환경


8. 분석 성숙도 모델 (3개 영역)

영역 도입 활용 확산 최적화
비즈니스부문 실적분석 및 통계
정기보고 수행
운영 데이터 기반
미래 결과 예측
시뮬레이션
운영 데이터 기반
전사성과 실시간분석
프로세스혁신 3.0
분석규칙관리
이벤트관리
외부환경 분석 활용
최적화 업무 적용
실시간 분석
비즈니스 모델 진화
조직,역량 부문 일부 부서 수행
담당자 역량 의존
전문 담당부서 수행
분석 기법 도입
관리자가 분석 수행
전사 모든 부서 수행
분석 COE 조직 운영
데이터 사이언티스트 확보
데이터 사이언티스트 그룹
경영진 분석 활용
전략 연계
IT 부문 데이터 웨어하우스
데이터 마트
ETL / EAI / OLAP
실시간 대시보드
통계분석 환경
빅데이터 관리 환경
시뮬레이션 최적화
비주얼 분석
분석 전용 서버
분석 협업 환경
분석 Sandbox
프로세스 내재화
빅데이터 분석


9. 데이터 거버넌스(원칙, 조직, 프로세스) 체계요소 4가지
1) 데이터 표준화 : 데이터 표준 용어 설명, 명명 규칙, 메타 데이터 구축, 데이터 사전 구축
2) 데이터 관리 체계 : 메타 데이터와 데이터 사전의 관리원칙을 수립
3) 데이터 저장소관리 : 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성. 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함. 또한 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용 가능
4) 표준화 활동 : 데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 시행

10. 데이터 분석업무 주체에 따른 3가지 유형

구분 내용
집중구조 - 전사 분석업무를 별도의 분석전담 조직에서 담당
- 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능
- 현업 업무부서의 분석업무와 이중화/이원화 가능성 높음
기능구조 - 일반적인 분석수행구조
- 별도 분석조직이 없고 해당 업무부서에서 분석 수행
- 전사적 핵심분석이 어려우며, 부서현황 및 실적통계 등 과거 실적에 국한된 분석 수행가능성 높음
분산구조 - 분석조직 인력들을 현업부서로 직접 배치하여 분석업무 수행
- 전사 차원의 우선순위 수행
- 분석 결과에 따른 신속한 Auction 가능
- 베스트 프렉티스 공유 가능
- 부서 분석업무와 역할분담 명확히 해야 함


<3과목>
1. 주성분의 개념
- 주성분분석은 변수들의 선형결합으로 이루어진 서로 독립이며 기존자료보다 적은 수의 주성분들로 기존자료의 변동을 설명
- 주성분분석은 결국 독립변수만 분석을 하게 됨 (독립/종속 구분없이 사용하거나, 종속만 또는 같이 사용 불가)

2. 주성분 분석 수 결정 기준
- 주성분들이 설명하는 총 분산의 비율이 70~90% 사이가 되는 주성분의 개수를 선택
- 고윳값이 1 이상
- Scree Plot 에서 엘보우 포인트

3. 모형평가
- ROC그래프분류 모형의 평가에 사용되는 그래프로 x축은 (1-특이도) y축은 민감도로 그려짐
- ROC그래프의 밑부분 면적이 넓을수록 좋은 모형. X축이 0, AIC = 0.5 일때 분류 능력이 없음을 의미
- 검정용 데이터는 구축된 모델의 과잉 또는 과소맞춤 등에 대한 미세조정 절차를 위해 사용

4. 혼동행렬
- 민감도 : 민감도, 즉 재현율(Recall)은 참 긍정률(TP Rate)이라고도 불리며 범주의 불균형 문제에 사용되는 지표
- 특이도 : 실제로 'Negative'인 범주 중에서 'Negative'로 올바르게 예측(TN)한 비율로 범주의 불균형 문제에 사용되는 지표

5. 이익도표와 향상도 곡선
- 이익도표 : 이익은 목표 범주에 속하는 개체들이 각 등급에 얼마나 분포하고 있는지를 나타내는 값으로, 해당 등급에 따라 계산된 이익값을 누적으로 연결한 도표. 즉, 분류분석 모형을 사용하여 분류된 관측치가 각 등급별로 얼마나 포함되는지를 나타내는 도표
- 향상도 곡선 : 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프

6. 계층적 군집의 거리

군집방법 거리측정비교 두 군집사이의 거리
단일연결법 최단거리 - 한 군집의 점과 다른 군집의 점 사이의 가장 짧은 거리
- 사슬 모양으로 생길 수 있으며, 고립된 군집을 찾는데 중점을 둔 방법
완전연결법 최장거리 - 두 군집사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최댓값을 측정
- 같은 군집에 속하는 관측치는 알려진 최대 거리보다 짧으며, 군집들의 내부 응집성에 중점을 둔 방법
평균연결법 평균거리 - 모든 항목에 대한 거리 평균을 구하면서 군집화
- 불필요한 계산이 많아질 수 있음
중심연결법 중심거리 - 두 군집이 결합할 때 새로운 군집의 평균은 가중평균을 통해 구해짐
와드연결법 중심점연결 - 군집 내의 오차제곱합에 기초하여 군집을 수행


7. 비계층적 군집분석 (k-means 군집)
- 원하는 군집 수 만큼 초기값을 지정하고, 각 개체를 가까운 초기값에 할당하여 군집을 형성한 뒤, 각 군집의 평균을 재계산하여 초기값을 갱신
- 갱신한 값에 대해 위의 할당 과정을 반복하여 k개의 최종군집을 형성하는 방법
- k-means 프로세스
1) 초기 군집 중심(Centroid)으로 k개의 객체 임의 선정
2) 각 자료를 가장 가까운 군집 중심에 할당 (중심점(평균)으로부터 오차 제곱합이 최소가 되도록)
3) 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신
4) 군집 중심의 변화가 없을 때까지 2)와 3)을 반복
- 단점 : 잡음이나 이상값에 영향을 받기 쉬움 (k-medoids 군집을 사용하거나 이상값 사전 제거 필요)
- 계층적 군집과 차이점 : k-means 군집은 계층적 군집과는 달리 사전에 군집의 수를 정해 주어야 함

8. 연관성분석 측정지표

측정지표 개념 수식
지지도 전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율 A,B가 동시 포함된 거래수 / 전체거래수
신뢰도 A상품을 샀을 때 B상품을 살 조건부 확률 A,B가 동시 포함된 거래수 / A거래수
향상도 A와 B가 동시에 일어난 횟수 / A,B가 독립된 사건일 때 A,B가 동시에 일어날 확률 신뢰도 / B거래수


9. 앙상블 모형
- 여러 개의 분류모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법
- 적절한 표본추출법으로 데이터에서 여러 개의 훈련용 데이터 집합을 만들어 각각의 데이터 집합에서 하나의 분류기를 만들어 앙상블하는 방법
- 용어설명
1) 배깅 : Bootstrap aggregating의 준말로 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원, 추출하여 각 표본(붓스트랩 표본)에 대해 분류기를 생성한 후, 그 결과를 앙상블 하는 방법. 반복추출방법을 사용하기 때문에 같은 데이터가 한 표본에 여러번 추출될 수도 있고, 어떤 데이터는 추출되지 않을 수 있음
2) 부스팅 : 배깅의 과정과 유사하나 붓스트랩 표본을 구성하는 sampling 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출. Adaboosting은 가장 많이 사용되는 부스팅 알고리즘
3) 랜덤 포레스트 : 배깅에 랜덤 과정을 추가한 방법. 각 노드마다 모든 예측변수 안에서 최적의 분할을 선택하는 방법 대신 예측변수들을 임의로 추출하고, 추출된 변수내에서 최적의 분할을 만들어 나가는 방법을 사용

10. 교차검증
- 정의 : 모델의 일반화 오차에 대해 신뢰할만한 추정치를 얻기 위해 훈련, 평가 데이터를 기반으로 모형을 평가하는 방법
- 방법
1) 홀드아웃 : 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정 실시. 하나는 모형의 학습 및 구축을 위한 훈련용 자료로 하나는 성과 평가를 위한 검증용 자료로 사용
2) K-Fold 교차검증 : 데이터 집합을 무작위로 동일 크기를 갖는 k개의 부분집합으로 나누고 그 중 1개 집합을 평가용 데이터로 나머지를 k - 1개 집합을 학습데이터로 선정하여 모형을 평가하는 방법
3) 붓스트랩 : 평가를 반복한다는 측면에서 교차검증과 유사하나 훈련용 자료를 반복 재선정한다는 점에서 차이. 즉 관측치를 한 번 이상 훈련용 자료로 사용하는 복원추출법에 기반 (특정 샘플이 포함될 확률 63.2%, 제외될 확률 36.8%)

11. 로지스틱 회귀분석 (로짓변환의 정의)
- 정의 : 로지스틱 회귀모형이라고 부르기도 하고 일반화 선형모형의 이항분포를 따르는 모형의 일부로 해석하기도 하며 적절한 변환을 통해서 곡선을 직선 형태로 변환할 수 있으며, 로지스틱 회귀모형에 로그와 오즈변환을 로짓변환이라 하면 이 함수적 변환을 통해서 선형회귀와 같이 직관적 해석이 가능 (베타1 > 0 = S자 모양, 베타1 < 0 = 역S자 모양)
- 선형회귀 모형과 차이점 : 이항(이진)데이터에 적용 시 종속변수 y의 결과가 범위[0,1]로 제한되며 모형탐색으로 최대우도추정법, 유의성 검정으로 카이제곱분포를 이용

12. 의사결정나무 불순도 측도(3가지 지표)

구분 설명
카이제곱 통계량 데이터의 분포와 사용자가 선택한 기대 또는 가정된 분포 사이의 차이를 나타내는 측정값
지니 지수 지니 지수의 값이 클수록 이질적이며 순수도가 낮다고 볼 수 있음
엔트로피 지수 열역학에서 쓰는 개념으로 무질서 정도에 대한 측도로 엔트로피 지수의 값이 클수록 순수도가 낮다고 볼 수 있음


13. 의사결정나무 구분 (분류나무 vs 회귀나무)

구분 사용측도 내용
분류나무 카이제곱통계량의 p값
지니지수
엔트로피 지수
- 목표변수가 이산형인 분류나무의 경우 상위 노드에서 가지분할을 수행할 때 분류(기준)변수와 분류 기준값의 선택 방법

- 카이제곱 통계량의 p값은 그 값이 작을수록, 지니 지수와 엔트로피 지수는 그 값이 클수록 자식노드 내의 이질성이 큼을 의미

- 값들이 가장 작아지는 방향으로 가지분할을 수행
회귀나무 F통계량의 p값
분산의 감소량
- 목표변수가 연속형인 회귀나무의 경우에는 분류(기준)변수와 분류 기준값의 선택 방법

- F통계량은 일원배치법에서의 검정통계량으로 그 값이 클수록 차의 변동에 비해 처리의 변동이 크다는 것을 의미하며 자식노드 간 이질적임을 의미

- 값이 커지는(p값은 작아지는) 방향으로 가지분할을 수행

- 분산의 감소량도 이 값이 최대화되는 방향으로 가지분할수행


14. 가지치기
- 최종마디가 너무 많으면 모형이 과대적합된 상태로 현실문제에 적용할 수 있는 규칙이 나오지 않게 됨. 따라서 분류된 관측치의 비율 또는 MSE (Mean Squared Error) 등을 고려하여 적절한 수준의 가지치기 규칙을 제공해야 함

15. 인공신경망 특징 (인공신경망 vs 의사결정나무)
- 인공신경망이란 인간의 뉴런 구조를 본떠 만든 기계학습 모델로 지도학습의 한 방법이며 역전파 알고리즘 이용
- 신경망에 입력이 주어지면 신경망 모델의 화살표를 따라 은닉층에 도달. 은닉층의 노드는 주어진 입력에 따라 활성화되며, 활성화된 은닉 노드는 출력값을 계산하고 그 결과를 출력층에 전달
- 신경망의 가중치처럼 학습 과정에서 얻어지는 값을 파라미터라고 부르고, 학습률이나 배치 크기처럼 사용자가 임의로 지정해야 하는 값을 하이퍼파라미터라고 함 (하이퍼파라미터 = 학습률, 은닉층 노드의 수)
- 인공신경망 vs 의사결정나무

인공신경망 의사결정나무
- 결과 해석이 쉽지 않음
- 최적의 모형을 도출하는 것이 상대적으로 어려움
- 지역해에 빠질 위험이 있음 (데이터 정규화 필요)
- 모형복잡 시 훈련 과정에 많은 시간 소요
- 비모수적 방법
- 설명 및 해석이 쉬움
- 잡음 데이터에 민감하지 않음 (노이즈 민감 X)
- 변수의 교호작용 파악 (인과관계 규명 X)


16. 인공신경망 활성화 함수

활성화 함수 설명
계단함수 임계값 0.1을 기준으로 활성화 또는 비활성화
부호함수 임계값을 기준으로 양의 부호(+1) 또는 음의 부호(-1)를 출력
시그모이드함수 로지스틱 함수라고 하며 특정 임계값을 기준으로 출력값이 급격하게 변하는 계단함수와 달리 완만한 곡선형태로 0 ~ 1 사이의 값을 출력
Tanh 함수 확장된 시그모이드 함수 (-1 ~ 1 사이 값 출력)
ReLU 함수 입력값이 0보다 작으면 0을, 0보다 크면 입력값을 그대로 출력하는 함수
소프트맥스 함수 목표값이 다범주인 경우에 사용하며 입력받는 값을 정규화하여 0 ~ 1 사이의 값으로 출력. 소프트맥스 함수를 적용한 노드의 출력값은 항상 1임


17. 역전파알고리즘 (+ 기울기 소실문제)
- 역전파 신경망의 학습 알고리즘은 두 단계로 구성
1) 훈련 입력 패턴을 신경망의 입력층에 전달하고 신경망은 출력층에서 출력 패턴이 생성될 때까지 층에서 층으로 입력 패턴을 전파. 이 전파과정에서 활성화 함수, 가중치 등이 적용
2) 출력 패턴이 목표 패턴과 다를 경우 그 오차를 계산하고 출력층에서 입력층까지 신경망을 따라 거꾸로 전파. 이 오차의 전파과정에서 가중치가 수정
- 기울기 소실문제 : 파라미터 값의 변화가 출력값에 매우 작은 변화를 야기하여 신경망이 효과적으로 학습시킬 수 없게 되면 기울기 소실문제가 발생하며 역전파 알고리즘에서 처음 입력층으로 진행할수록 기울기가 점차적으로 작아지다가 나중에는 거의 기울기의 변화가 없어지는 문제를 말함

18. 인공신경망의 은닉층과 은닉 노드수를 정할 때 고려사항 (하이퍼파라메터 설정 문제)
- 다층신경망은 단층신경망에 비해 훈련이 어려움
- 노드가 많을 수록 복잡성을 잡아내기 쉽지만, 과적합 가능성이 높음
- 은닉층의 노드가 적으면 복잡한 의사결정 경계를 만들 수 없음
- 출력층 노드의 수가는 출력범주의 수로 입력의 수는 입력 차원의 수로 결정

19. K-NN 알고리즘 정의
- KNN은 별도의 학습절차가 없고 새로운 데이터가 들어왔을 때 기존 데이터 사이의 거리를 측정해서 이웃들을 뽑기 때문에 게으른 모델 또는 사례기반학습 이라고 함
- KNN의 단점 : 데이터의 지역 구조에 민감

20. 군집분석
- 모집단에 대한 사전 정보가 없는 경우 관측값 사이의 유사성을 이용하여 전체를 몇 개의 집단으로 그룹화하여 각 집단의 성격을 파악하는 분석
- 병합적 군집분석 : 군집을 나누는 방법 중 n개의 관측값을 각각 하나의 군집으로 간주하고 관측값의 특성이 가까운 군집끼리 순차적으로 합해가는 방법
- 계층적 군집분석 : 한번 군집이 형성되면 군집이 이동하지 않음 (비계층적 군집분석과의 차이점)

21. 인공신경망과 SOM의 차이

구분 인공신경망 SOM
알고리즘 <지도학습>

- 역전파 알고리즘을 이용
<비지도학습>

- 입력벡터들을 신경회로망에 계속적으로 제시하면서 자율적으로 연결가중치를 변경
구조 <다층구조>
- 수 개의 입력층과 수 개의 출력층
(레이어 개념)
- 입력층에서 은닉층, 은닉층에서 출력층으로 연결
- 노드의 수를 정할 수 있음
<단순구조>

- 한 개의 입력층과 한 개의 출력층
- 입력층과 출력층이 완전연결
- 출력 뉴런들은 승자 뉴런이 되기 위해 경쟁하고 오직 승자만이 학습


22. 상관분석(피어슨 상관계수 vs 스피어만 상관계수)

피어슨 상관계수 스피어만 상관계수
- 두 변수 간의 선형관계 측정
- 연속형 변수만 가능
- 두 변수 간의 비선형 관계 측정
- 연속형 외에 순서형도 가능


24. 다차원척도법(SOM과 헷갈리지 말 것)
- 여러 대상 간의 관계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화하는 방법
- 다차원척도법의 적합도를 나타내는 척도는 스트레스값으로 0 ~ 1 사이의 범위로 0에 가까울수록 좋은 모형

25. 다중공선성
- 회귀분석에서 사용된 모형의 일부 설명변수가 다른 설명변수 간에 강한 상관관계가 나타나는 문제. 이는 회귀분석의 전제 가정을 위배하는 것으로 적절한 회귀분석을 위해 해결해야 하는 문제가 됨

26. 정규화 선형회귀
- 특정변수의 과다한 기여를 제한하는 것. 그래서 상관된 다른 변수도 함께 모형에 투입이 가능
--> 회귀계수 베타에 제약 가함
- 능형회귀 : 베타계수의 합이 특정 수치 이하 (L2 Norm - 릿지)
- 라쏘회귀 : 베타계수의 절대값의 합이 특정값 이하 (L1 Norm - 라쏘)
- 다중공선성이 정규화 선형회귀(릿지 = 능형회귀)가 있을 때 사용
- 주성분분석도 다중공선성의 해결방안 중 하나

27. 시계열모형 (정상성과 정상으로 전환하는 방법)
- 평균값은 시간 t 에 관계없이 일정하다
- 분산값은 시간 t에 관계없이 일정하다
- 공분산은 시간 t에 의존하지 않고 오직 시차에만 의존
- 시계열의 평균이 일정하지 않은 경우 : 원시계열에 차분
- 계절성을 갖는 비정상시계열 : 계절차분
- 분산이 일정하지 않은 경우 : 원계열에 자연로그(변환)를 취함

28. 시계열 분석 기법 (AR, MA, ARIMA 의미)
- 시계열 모형은 정상성의 조건 유무에 따라서 다음과 같이 두가지 형태로 분류
- 정상성을 가진 시계열 모형 : 자기회귀모형(AR), 이동평균모형(MA), 자기회귀이동평균모형(ARMA)
- 비정상성을 가진 시계열 모형 : 자귀회귀누적이동평균모형(ARIMA)

29. 시계열모형 (분해시계열)
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
1) 추세요인 : 자료가 어떤 특정한 형태를 취할 때
2) 계절요인 : 계절에 따라 고정된 주기에 따라 자료가 변화할 경우
3) 순환요인 : 알려지지 않은 주기를 가지고 자료가 변화할 때
4) 불규칙요인 : 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

30. Boxplot(상자그림)
- 하한값(최소값) = Q1(1사분위수) - 1.5 * IQR(Q3 - Q1)
- 상한값(최대값) = Q3(3사분위수) + 1.5 * IQR(Q3 - Q1)
- Boxplot 으로 이상치 검색이 가능
- 사각형(IQR)이 크다면 분산이 크다는 의미
- 사각형(IQR)의 Q2(중위수) 위치에 따라 분포의 치우침 확인 가능

*마무리 - 용어정리
- melt() : 데이터를 재구성하거나 밀집화된 데이터를 유연하게 생성. 그룹 별 요약값은 cast() 로 함
- plyr 패키지 : apply 함수에 기반해 데이터와 변수를 동시에 배열로 치환(split -> apply -> combine) 기능 제공. ddply(d(데이터프레임) 입력 받아서 d(데이터프레임) 출력)
- 왜도 : 정규분포이면 왜도는 0, 0보다 크면 왼쪽으로 치우친 분포
- 첨도 : 첨도가 3보다 크면 정규분포보다 뾰족한 모양

공분산, 차분, DB Scan, 검정역, 모평균의 신뢰구간


아자아자 시험 붙자!!!

반응형

댓글

💲 추천 글