빅데이터분석기사 필기 요약정리기존에 비공개로 정리해놓고 보다가
시험이 끝나고 이제 좀 정신이 들어 공유해요
필기는 제 기준 꽤나 어려웠고,복원문제를 봐도 내가 뭘 찍었(?)는지 기억이 안나서
결과가 나오면 후기 또 쓸게요(합격후기이기를...!!)
[빅데이터분석기사 필기 요약정리] : Part 03. 빅데이터 모델링 & Part 04. 빅데이터 결과 해석
1. 연관성 측정지표 지지도/신뢰도/향상도 계산
구분 | 내용 |
지지도 | A와 B를 모두 포함하는 거래의 수 / 전체 거래의 수 |
신뢰도 | A와 B를 모두 포함하는 거래의 수 / A를 포함하는 거래의 수 |
향상도 | (A와 B를 모두 포함하는 거래의 수 * 전체 거래 수) / (A를 포함하는 거래의 수 * B를 포함하는 거래의 수) |
2. 데이터 마이닝 기반의 분석모형
- 분류분석, 추정분석, 예측분석, 연관분석, 군집분석, 기술분석
3. 머신 러닝 기반의 분석모형
- 지도학습 : 정답에 해당하는 종속변수가 포함되어 있는 데이터를 학습한다. 종속변수와 독립변수 간의 관계를 분석하여 분류, 예측 등의 문제를 해결한다. 종속변수가 연속형인 경우 수치 예측, 범주형인 경우 분류 예측을 수행한다
- 비지도학습 : 비지도 학습은 종속변수가 포함되지 않는 데이터를 학습한다. 예측문제보다는 현상 설명, 특징 도출, 패턴 도출 등의 문제를 해결한다
- 강화학습 : 현재 상태를 인식하여 선택 가능한 행동 중 보상을 최대화하는 행동을 선택하도록 알고리즘을 학습한다. 강화학습의 사례로 알파고, 자율주행 등이 있다
4. 파라미터 vs 하이퍼 파라미터
파라미터 | 하이퍼파라미터 |
- 모형 내부 요소 - 모형의 성능에 직접적인 영향을 미침 - 데이터 학습을 통해 자동으로 결정 |
- 모형 외부 요소 - 파라미터 결정을 위해 사용됨 - 사용자가 경험적으로 결정 |
5. 홀드아웃 vs k-fold vs 부스트랩 정의
구분 | 내용 |
홀드아웃 | - 랜덤 추출을 통해 데이터를 분할 - 학습/검증 데이터 60~80%, 테스트 데이터 20~40%로 분할 |
K-fold 교차검증 | - 테스트 데이터를 제외한 데이터를 무작위로 중복되지 않는 K개의 데이터로 분할 - 학습데이터 K-1개, 검증데이터 1개 |
부트스트랩 | - 데이터의 분포가 치우쳐 있거나 데이터 건수가 너무 적을 때 사용 가능한 방법 - 부트스트랩 샘플링은 복원 추출을 통해 전체데이터와 동일한 사이즈의 샘플 데이터를 추출(한번 이상 포함되거나 한번도 포함되지 않을 수 있음) - 학습 데이터는 부트스트랩 샘플 데이터, 검증/테스트 데이터는 그 외 데이터 (학습 데이터 비율 약 63.2%) |
5. 전진선택법 vs 후진제거법
전진선택법 | 후진제거법 |
상관관계가 큰 변수부터 순차적으로 모형에 추가 | 상관관계가 작은 변수부터 순차적으로 제거 (모든 독립변수 추가 후) |
6. 로지스틱 vs 선형회귀
<로지스틱 회귀분석>
- 독립변수의 선형결합을 이용해 사건의 발생 여부를 예측하며, 종속변수가 범주형일 경우에 사용하는 회귀분석
- 종속변수의 범주가 두 개일 때 이항 로지스틱 회귀분석이라 하고, 그 이상이면 다항 로지스틱 회귀분석이라 함
- 일반적인 선형 회귀분석은 x값과 y값 모두 -무한대 ~ 무한대 사이의 값을 가진다. 하지만 로지스틱 회귀분석의 경우, y값을 0~1 (확률 P) 사이의 값을 갖게 하고 두 가지로 분류하려고 하는 과정이므로 수식을 변환하는 과정이 필요
- 선형 회귀분석은 정규분포를 따르지만, 로지스틱 회귀분석은 이항분포를 따른다는 차이점이 있음
<선형회귀분석>
- 단순선형 : 회귀분석 모형 중 가장 단순한 모양이다. 독립변수와 종속변수가 한 개씩 있으며 오차항이 있는 선형관계로 이뤄진다. 독립변수와 종속변수의 관계는 직선이다
- 다중선형 : 단순선형 회귀 분석과 달리 독립변수가 k개 이다. 독립변수와 종속변수와의 관계는 1차 함수 이상인 경우이며 선형이다. 다중선형 회귀 분석 역시 최소제곱법을 사용하여 각각의 독립변수의 가중치 역할을 하는 회귀계수를 구한다
7. 의사결정나무 분리 기준
- 마디의 순수도는 증가하고 불순도는 감소하는 방향으로 분류를 진행해야 함
종속변수 | 알고리즘 | 분류기준 | 설명 |
이산형 | CHAID | 카이제곱 통계량 | 분류한 두 마디가 유의미한 차이가 있음을 증명하려면 두 마디가 동질적이라는 귀무가설을 기각해야 한다. 카이제곱 통계량의 p-value가 가장 작아지도록 한다 |
CART | 지니 지수 | 지니 지수가 작을수록 불순도가 낮아진다 | |
C4.5 | 엔트로피 지수 | 엔트로피 지수가 작을수록 불순도가 낮아진다 | |
연속형 | CHAID | ANOVA F-통계량 |
F-통계량의 p-value가 작아지는 방향으로 가지 분할을 수행한다 |
CART | 분산 감소량 | 분산의 감소량이 커지면 분산이 감소한다. 분산의 감소량이 커지는 방향으로 가지 분할을 수행한다 |
8. 의사결정나무 장/단점
<장점>
항목 | 설명 |
해석의 용이성 | - 나무 구조로 표현되어 사용자의 이해가 쉬움 - 새로운 개체 분류를 위해 뿌리 마디부터 끝마디까지 따라가면 되므로, 새로운 데이터를 모형에 적용하기 쉬움 - 어떤 변수가 목표변수를 설명하기에 용이한지 쉽게 파악 |
상호작용 효과의 해석 가능 | 두 개 이상의 변수의 영향 정도를 쉽게 파악 |
비모수적 모형 | - 선형성, 정규성, 등분산성 등의 가정을 필요로 하지 않는 비모수적인 방법 - 이상값에 민감하지 않음 |
유연성, 정확도 높음 | - 대용량 데이터에서도 빠르게 생성 - 수치형 변수와 범주형 변수 모두 사용 가능 - 모형 분류 정확도가 높음 |
<단점>
항목 | 설명 |
비연속성 | - 연속형 변수를 비연속적 값으로 취급하여 분리 경계점에서는 예측오류가 커짐 |
선형성 결여 | - 각 변수의 고유한 영향력을 해석하기 어려움 |
비안정성 | - 학습용 자료에 의존하여 과대 적합 발생 가능성이 큼 - 검증용 데이터를 활용한 교차 타당성 평가를 진행하는 과정이 필요 |
9. 활성함수의 역할
- 인공신경망은 노드에 입력된 값을 비선형 함수에 통과시켜 다음 노드로 전달하는데, 이 비선형 함수를 활성 함수라고 함
- 활성 함수는 입력된 값을 적절하게 변환하며, 변환 출력된 값을 다음 노드에서 활성화할지를 결정한다. 이 과정을 통해 데이터의 비선형성을 표현할 수 있다
10. 역전파 알고리즘
- 인공신경망을 학습시키기 위한 일반적인 알고리즘
- 출력값으로 결정된 결과값의 오차를 역으로 입력층으로 전파하면서 오차가 최소가 될 수 있도록 가중하는 과정
- 입력층에서부터 차례대로 가중치를 계산하는 것보다 빠르고 정확
11. 선형 SVM 하드마진과 소프트마진
- 하드마진 : 마진의 안쪽이나 바깥쪽에 잘못 분류된 오분류를 절대 허용하지 않고, 노이즈로 최적 결정경계를 구하지 못하는 경우가 발생함
- 소프트마진 : 잘못 분류된 오분류를 허용하고, 적용하기 어려운 하드 마진 SVM 대신 주로 이용
12. SVM 장점/단점
- 변수 속성 간의 의존성을 고려하지 않으며 모든 속성을 활용
- 훈련 시간이 느린 편이지만, 정확성이 높고 과적합 가능성이 작음
13. 향상도 개념
- 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도
14. 계층적 군집 거리 측정 방법
구분 | 내용 |
최단연결법 | 최솟값을 두 군집 사이의 거리로 측정 |
최장연결법 | 최댓값을 두 군집 사이의 거리로 측정 |
중심연결법 | 두 군집의 중심 간의 거리를 측정 두 군집이 결합할 때, 가중 평균을 통해 구함 |
평균연결법 | 모든 항목에 대한 거리 평균(불필요한 계산 증가) |
와드연결법 | 군집 내의 오차 제곱 합에 기초하여 군집으ㅡㄹ 수행 |
15. K-means 프로세스
- 단계1 : 군집의 수 k를 임의로 선택
- 단계 2 : 데이터를 가장 가까운 군집 중심에 할당
- 단계 3 : 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신
- 단계 4 : 군집 중심의 변화가 거의 없을 때(또는 최대 반복 횟수)까지 단계 2와 단계3을 반복 진행
16. 군집 수 k 결정방법
- 엘보(Elbow) 방식 : k값을 조금씩 늘려가다 특정 k이후 cost가 변하지 않는 구간이 존재할 경우 그 k를 최적의 k로 선정하는 방식
17. SOM과 인공신경망 차이점
자기조직화지도(SOM) | 인공신경망 |
입력층 – 경쟁층 | 입력층 – 은닉층 – 출력층 |
18. 정상성조건
- 평균이 시점에 의존하지 않는다 (모든 시점의 평균이 동일)
- 분산이 시점에 의존하지 않는다 (모든 시점의 분산이 동일)
- 공분산은 시차에만 의존하고 시점에는 의존하지 않는다 (시차가 같으면 공분산은 동일)
19. 이동평균법과 지수평활법 차이
이동평균법 | 지수평활법 |
모든 시점의 관측치에 동일한 가중치 부여 | 최근 관측치에 더 높은 가중치를 부여 |
20. 분해시계열 (분해법)
- 불규칙성분 : 규칙적이지 않고 예측이 불가한 랜덤 변동
- 추세성분 : 지속적으로 증가하거나 감소하는 추세를 갖는 변동
- 계절성분 : 계절 변화와 같은 주기적인 성분에 의한 변동
- 순환성분 : 주기적인 변화를 가지나 주기가 긴 변동
21. 나이브 베이즈 분류 조건 및 분류모형
- 이론적으로 쉽고 산출 속도가 빠르다
- 실시간 분류 또는 텍스트 분석에 주로 사용된다
- 종속변수를 추정하기 위해 모든 독립변수가 서로 동등하고 독립적으로 기여한다고 가정한다
- 관측치가 종속변수의 각 범주에 속할 확률을 구하고 확률이 큰 범주에 할당한다
- 학습 데이터에 없는 신규 데이터는 조건부 확률이 0이므로 분류하지 못한다 (Laplace smoothing 기법으로 보정하여 분류)
22. 배깅과 부스팅 개념 차이점
배깅 | 부스팅 |
부트스트랩 샘플링으로 추출한 여러 개의 표본에 각각 모형을 병렬적으로 학습하고 추출된 결과를 집계하는 앙상블 기법 부트스트랩 샘플링은 랜덤 복원 추출을 통해 같은 크기의 표본을 추출하는 샘플링 기법 |
예측력이 약한 모형을 순차적으로 결합하여 예측력이 강한 모형을 만드는 앙상블 방법 순차적으로 학습하며 데이터의 가중치를 재조정 AdaBoost, GBM 등이 있음 |
23. 랜덤포레스트 정의
- 의사결정나무 기반의 앙상블 알고리즘
- 기본 배깅에 변수를 랜덤으로 선택하는 특징 배깅과정을 추가한 방법
- 랜덤하게 변수를 선택하여 동일한 트리가 생성되는 것을 방지하고 변수가 많은 경우 별도의 변수 제거 없이 분석 가능
- 예측 편향을 줄이고 과적합을 방지할 수 있으며 이상치에 영향을 적게 받음
24. 회귀분석 해석
- 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계 분석 기법
- 독립변수와 종속변수는 선형적인 관계를 가지며 독립변수의 값에 의해 바뀌는 종속변수의 값을 예측하기 위해 사용
- Y = ax + b 형태의 직선으로 표현
- 올바른 기울기와 y절편을 구하는 과정
- a는 회귀계수를 의미, b는 y절편
25. 다중공선성
- 설명 변수들 사이에 선형관계가 존재하여 회귀계수의 추정에 부정적인 영향을 미치는 것을 의미
- 문제가 있는 변수를 제거하거나 주성분 회귀 모형을 적용
26. 로짓변환
- 오즈의 범위(0 ~ 무한대)를 회귀분석과 같은 범위 (-무한대 ~ 무한대)로 변환하는 가정
- 해당 식을 이용해 P값을 기준으로 수식을 정리
27. 시그모이드 함수
- Y의 값을 0~1 사이의 확률값으로 변환
- 데이터를 가장 잘 설명하는 a와 b를 찾음
28. 가지치기/정지규칙 정의
구분 | 설명 |
가지치기 | - 불필요한 가지를 제거하여 모형의 복잡도를 줄이는 과정 - 검증용 데이터를 활용해 예측 정확도를 산출하여 이를 기반으로 가지를 제거하거나, 규칙의 타당성을 검토하여 타당성이 없는 것을 제거 |
정지규칙 | - 더 이상 트리가 분리되지 않도록 하는 규칙 - 정지 규칙이 없다면 각 끝마디가 하나의 범주만을 갖는 과적합이 발생 - 트리의 깊이를 제한하거나 각 마디에 속하는 데이터의 수에 따라 결정 |
29. 비정상시계열의 정상화
- 이상치가 있는 경우 이상치를 제거하거나 대체해 정상화한다
- 평균이 일정하지 않은 경우 차분을 통해 정상화한다
- 분산이 일정하지 않은 경우 변환을 통해 정상화한다
30. AR-MA-ARMA-ARIMA & 백색잡음 정의
- AR(자기회귀 모형) : 자기회귀란 관측치에 대해서 이전 값이 이후 값에 영향을 미치는 상황을 의미한다
- MA(이동평균 모형) : 이동평균은 평균이 시간에 따라 변화하는 경향을 의미한다
- ARMA(자기회귀 이동평균 모형) : 자기회귀 이동평균 모형은 AR모형과 MA모형을 결합한 모형이다
- ARIMA(자기회귀 누적 이동평균 모형) : 비정상 시계열에 대해 d차로 차분 변환하는 과정을 포함한 ARMA 모형이다
- 백색잡음 : 회귀분석의 오차항과 비슷한 개념으로 대표적인 정상 시계열이다
31. 텍스트 마이닝
- 클렌징 : 불필요한 문자, 기호 등 노이즈를 제거
- 토큰화 : 코퍼스를 의미를 갖는 가장 작은 단위인 토큰으로 나누는 작업
- 불용어 제거 : be동사, 전치사 등 자주 쓰이나 주요하지 않은 불용어 제거
- 어간 추출 : ‘-ed’, ‘-ly’ 등 단어의 접사를 제거하고 어간을 추출
- 표제어 추출 : 다양한 형태로 활용된 단어의 원형을 추출
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기 불합격 후기] 6회 시험 (4) | 2023.04.24 |
---|---|
[빅데이터분석기사 필기 요약정리] 혼동행렬과 연관성분석 (14) | 2023.04.07 |
[빅데이터분석기사 필기 요약정리] 프로세스(절차) 정리 (8) | 2023.04.07 |
[빅데이터분석기사 필기 요약정리] : Part 02. 빅데이터 탐색 / 23년 제6회 시험 대비 (feat. 김계철 교수님) (11) | 2023.04.05 |
[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 네번째 (13) | 2023.04.03 |
댓글