(ADsP 오답노트)
[1과목]
1. DIKW의 계층적 구성요소
- 데이터 -> 정보 -> 지식 -> 지혜
2. 빅데이터란?
비즈니스 핵심에 대해 보다 직관적이고 종합적인 통찰을 줄 수 있는 데이터를 확보해야 함
3. 빅데이터 위기요인과 통제방안
- 데이터 오용의 위기요소에 대한 대응책으로 알고리즘에 대한 접근권 보장과 알고리즈미스트가 필요
- 특정인이 채용이나, 대출 등에서 예측자료에 의한 불이익을 당할 가능성을 최소화하는 장치를 마련하는 것이 필요
- 사생활침해 가능성도 함께 증가하고 있기 때문에 개인정보활용에 대한 가이드라인 제정에 대한 요구 급증
4. 데이터 관련용어 설명
- OLAP : 다차원의 데이터를 대화식으로 분석
- OLTP : 실시간 단위작업 처리
- BA : 통계적/수학적 분석 초점
- BI : 데이터기반 의사결정지원 (리포트 중심)
- Data Mining : 대용량 데이터로부터 의미 있는 관계, 규칙, 패턴 찾기
5. 딥러닝 오픈소스 (SW)
- Theano, TensorFlow, Keras, Torch, Caffe
[2과목]
1. 분석요소 중 투자비용 요소
- Volume, Variety, Velocity (+ Value는 비즈니스 효과 요소)
2. CRISP-DM의 모델링 단계
1) 업무이해 : 목적과 요구사항 이해
2) 데이터이해 : 데이터 수집 및 속성 이해
3) 데이터준비 : 분석기법에 적합한 데이터 세트 편성
4) 모델링 : 다양한 모델링 기법과 알고리즘 선택, 파라미터 최적화
5) 평가 : 모델평가
6) 전개 : 실제 적용을 위한 계획 수립, 유지보수 계획 마련
3. 분석준비도 6개영역 중 1) 분석업무파악
- 발생한 사실 여부 파악
- 예측 분석업무
- 시뮬레이션 분석업무
- 최적화 분석업무
- 분석업무 정기적 개선
4. 빅데이터 거버넌스
- 전사차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크, 저장소를 구축하는 것
- 마스터 데이터, 메타데이터, 데이터 사전은 데이터 거버넌스의 중요한 관리 대상
--> 데이터 거버넌스를 구축함으로써 데이터의 가용성, 유용성, 통합성, 보안성, 안정성을 확보
- 빅데이터의 효율적 관리, 다양한 데이터의 관리체계, 데이터 최적화, 정보보호, 데이터 생명주기관리, 데이터 카테고리 별 관리책임자지정 등을 포함
5. 데이터 거버넌스
- 데이터 거버넌스의 체계요소 중 데이터 저장소 관리는 메타데이터 및 표준데이터를 관리하기 위한 전사차원의 저장소를 구성함. 저장소는 데이터관리체계 지원을 위한 1) 워크플로우 및 관리용 응용소프트웨어를 지원하고 관리대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다. 또한 데이터 구조 변경에 따른 2) 사전영향평가 도 수행되어야 효율적인 활용이 가능하다
[3과목]
1. 회귀분석에서 변수선택
- 전진선택법 : 중요하다고 생각되는 변수를 차례로 모형에 추가하는 분석방법
- 후진제거법 : 모든 설명변수를 포함한 모형에서 출발해 종속변수의 설명에 가장 적은 영향을 주는 변수부터 제거
후진제거법에서 한번 제거된 변수는 다시 모형에 추가될 수 없음
- 전진선택법과 후진제거법의 결과는 다를 수 있음
2. 붓스트랩
- 붓스트랩에서 하나의 관측치가 선정되지 않을 확률은 36.8%
3. 주성분분석
- 공분산행렬을 사용할 때 측정단위에 매우 민감
- 분산이 커짐에 따라 주성분분산의 설명률은 높아짐
4. 시계열 데이터의 분석절차순서
1) 시계열 그래프 그리기
2) 추세와 계절요인 파악 및 제거
3) 잔차 예측
4) 잔차에 대한 모델 적합하기
5) 예측된 잔차에 추세와 계절성을 재반영하여 예측
5. 유클리드거리
- 두 점간 차를 제곱하여 모두 더한 값의 양의 제곱근
6. F1 값
- 예측치가 TRUE 이며, 실제가 TRUE 일 확률로 (2 * 예측률 * 실제율) / (예측률 + 실제율) 로 구함
7. 통계적 가설검정
- 제1종오류 : 사실인 귀무가설 기각 시 발생하는 오류
- 제2종오류 : 사실이 아닌 귀무가설 채택 시 발생하는 오류
- 유의수준 : 귀무가설이 사실일 때 이 귀무가설을 기각하므로써 발생하는 오류
- 검정력 : 귀무가설이 사실이 아닐 때 귀무가설을 기각할 확률
8. 자료의 척도
- 명목척도 : 단순히 측정대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자부여
- 서열척도 : 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적비교 불가
- 등간척도 : 순위를 부여하되 순위 사이의 간격이 동일하여 양적비교 가능
- 비율척도 : 특정 값 사이의 비율 계산이 가능한 척도로 절대영점 존재
9. 와드연결법
- 군집안의 거리에 기반하는 다른 연결법과는 달리 군집내의 오차제곱합에 기초하여 군집을 수행하는 계층적 군집분석의 거리 측정
10. PAM 군집분석
- 중앙점을 이용하여 N개의 모든 데이터를 최종 K개의 군집으로 군집화하는 방법으로 K-means 군집분석과 매우 유사
- K-means 군집분석에서 각 군집의 대표체계를 centroid로 나타내는 것과 달리 PAM 군집분석은 각 군집의 대표개체는 하나의 관찰지가 됨
--> K-means 군집분석보다 이상치에 덜 민감
11. 재현율(Recall)
- 실제값이 TRUE인 관측치 중 예측치가 적중한 정도를 나타내는자료
- 모형의 안전성을 평가
12. 통계적추론
- 점추정 : 모수를 가장 잘 대표할 수 있는 표본을 추출하고 필요한 계산을 하여 얻는 하나의 수치
- 구간추정 : 모수의 참값이 포함되리라고 기대하는 추정치를 일정한 범위로 나타내는 것
- 대부분의 비즈니스 상황에서는 모집단에 관한 정보를 알 수 없기 때문에 표본추출을 통한 표본통계량에 입각하여 모수를 추정. 이는 통계적 추정으로서 귀납적추리라고 함
13. 기댓값 공식 : E(x) = 시그마 xf(x)
14. 과대적합
- 학습데이터가 모집단의 특성을 충분히 설명하지 못할 때 발생
- 변수가 많아 모형이 복잡할 때 발생
- 과대적합은 모델이 훈련데이터에 너무 잘 맞지만 일반성이 떨어진다는 의미
- 훈련데이터에 최적화되어 있어 훈련데이터에 높은 성능을 보여주고 검증데이터에 대해 분류나 예측성능을 보여주지 못함
15. 범주형은 --> 분류
16. 연관규칙 측정지표
- 지지도, 신뢰도, 향상도
17. 중심극한정리
- 중심극한정리가 성립하기 위해서는 표본크기가 최소 30 이상이어야 함
- 모집단이 정규분포가 아닐 때 서로 다른 표본크기에 대한 표본평균의 분포들이 표본의 크기가 커짐에 따라 정규분포에 가까워지게 됨
- 표본크기가 증가할수록 표본의 평균과 표준편차가 모집단의 평균과 표준편차에 가까워짐을 의미
- 중심극한정리는 알 수 없는 모집단에서 표본이 충분히 크다면, 이 표본평균의 분포는 정규분포에 근사하다는 것을 의미
18. 향상도
- P(A와 B 교집합) / (P(A) * P(B))
19. 주성분개수의 선택
- 전체변이 공헌도 방법은 전체변이의 70~90% 정도가 되도록 주성분의 수를 결정
- Scree Plot을 이용하는 방법은 고유값의 크기가 완만하게 감소하는 지점에서 1을 뺀 개수를 주성분의 개수로 선택
- 주성분개수의 선택은 전체변이 공헌도와 평균 고유값 및 Scree Plot을 종합적으로 판단
- 고유평균값 이상 되는 주성분을 제거하는 것이 아니라 선택
20. 시계열데이터
- 계절성 : 특정한 기간마다 어떤 패턴을 가지고 반복하는지 확인할 수 있는 특성
- 시계열데이터 : 관측치가 시간적 순서를 가진 데이터로 과거의 데이터를 통해서 현재의 움직임 그리고 미래를 예측하는데 사용
- 노이즈 : 추세, 계절성 등으로 설명되지 않는 데이터
21. 최적회귀 방정식
- 모든 가능한 조합의 회귀분석은 모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 AIC, BIC 기준으로 회귀모형을 선택하는 방법
- 가능한 범위 내에서 적은 수의 독립변수를 포함
- 단계별 방법은 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 악화되면 제거
22. 최소제곱추정량
- 두 변수의 관계가 선형이면 독립변수 X와 종속변수 Y의 관계를 가장 잘 설명해줄 수 있는 표본회귀방정식을 구해야 함. 종속변수 Y의 실제관측치 yi와 표본회귀식으로부터 구한 종속변수의 예측치 차이인 잔차의 합을 최소로 하는 회귀계수추정량을 최소제곱추정량 이라고 함
23. EM 알고리즘
- 관측되지 않는 잠재변수에 의존하는 확률 모델에서 최대우도와 최대사후확률을 갖는 매개변수를 찾는 반복적인 혼합분포군집의 알고리즘
24. ROC curve
- Binary Classifier System (이진분류시스템)에 대한 성능평가기법으로 X축 (1 - specificity)이고, Y축(sencitivity)을 시각화한 그래프
25. 지지도
- (A와 B가 동시에 포함된 거래 수) / (전체거래 수)
'자격증 > ADsP' 카테고리의 다른 글
[ADsP 합격 후기] : 제35회 / 데이터분석 준전문가(ADsP) / 직장인 공부방법 / 교재 / 기간 (4) | 2022.11.23 |
---|---|
[ADsP 핵심이론 요약정리] 데이터분석준전문가(ADsP) 22년 10월 시험대비 (feat. 김계철 강사님) (0) | 2022.10.25 |
[ADsP 오답노트] 데이터분석준전문가(ADsP) 오답노트 - 15회 기출 (0) | 2022.10.25 |
[ADsP 오답노트] 데이터분석준전문가(ADsP) 오답노트 - 14회 기출 (2) | 2022.10.24 |
댓글