자격증/ADsP

[ADsP 오답노트] 데이터분석준전문가(ADsP) 오답노트 - 15회 기출

방랑청년 2022. 10. 25.
반응형

(ADsP 오답노트)

 

[1과목]

4. DIKW 피라미드 계층구조

 - Data : A마트 100원, B마트는 200원 연필을 판매함

 - Information : A마트의 연필가격이 더 저렴

 - Knowledge : 상대적으로 저렴한 A마트에서 연필을 구매

 - Wisdom : A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단

 

5. 빅데이터가 만들어 내는 본질적인 변화

 - 사전처리에서 사후처리 시대로의 변화

 - 표본조사에서 전수조사로의 변화

 - 질보다 양을 강조하는 변화

 - 인과관계에서 상관관계로의 변화

 

6. 데이터 사이언스 vs 비즈니스 컨설팅

 - 데이터사이언스 : 엔지니어링, 웨어하우징, 프로그래밍

 - 컨설팅 : 시각화, 커뮤니케이션, 스토리텔링, 프레젠테이션

 

10. 데이터 사이언티스트가 갖춰야 할 역량

 - 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력인 1) 하드스킬과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전기회를 만들어 내기 위한 능력인 2) 소프트스킬로 나누어짐

 

[2과목]

2. 하향식 접근방식의 타당성 검토

 - 경제적 타당성은 비용대비 편익 분석 관점의 접근을 의미

 - 빅데이터 프로젝트 추진 시 신뢰할 수 있는 데이터 확보와 분석 역량에 대한 주요 장애 결과라고 할 수 있음

 - 타당성 검토 결과 도출된 여러 대안 중에서 가장 우월한 대안을 선택

 - 분석 역량의 경우 실제 프로젝트 수행 시 걸림돌이 되는 경우가 많기 때문에 기술적 타당도 분석 시 역량 확보 방안을 사전에 수립해야 함

 - 경제적, 데이터, 기술적 타당도 검토 필요

 

4. 도입형 유형

 - 기업에서 활용하는 분석 업무, 기법 등은 부족하지만 적용조직 등 준비도가 높아 바로 도입할 수 있는 기업의 유형

 

8. 셀프서비스 분석

 - 셀프서비스 분석을 수행하기 위해서는 R, Python 등의 데이터 분석 툴의 지식이 필요

 - 최근 분석기반경쟁을 지원할 수 있는 셀프서비스 분석 도구가 비약적으로 발전하고 있음

 - 전체 정보시스템의 관점에서 셀프서비스 분석이 가능한 조직구조로의 전환을 필요로 함

 - 셀프서비스 분석은 실시간분석, 예측분석을 의미하며 배치타입은 실시간 처리와 관련이 없음

 

[3과목]

3. 확률분포

 - 확률변수란 표본공간의 각 원소에 하나의 실숫값을 대응시켜 주는 함수

 - 확률변수가 취할 수 있는 값이 유한하거나 또는 무한히 많더라도 하나씩 셀 수 있는 경우를 이산형 확률변수라고 함

 - 결과가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행이라고 함

 - 확률밀도함수는 연속형 확률변수의 확률분포를 의미

 

4. 추정

 - 구간추정은 일정한 구간을 두어 추정하는 것으로서 단측구간추정과 양측구간추정으로 나뉨

 - 추정치는 표본의 자료로 구한 추정량의 구체적 수치 값을 뜻함

 - 점 추정은 미지의 분포에 대하여 가장 근사한 단일 값을 구하는 것

 - 줄기잎 그림은 각 학생들이 가지고 있는 정보나 내용이 무엇인지 알 수가 없고, 자료가 많은 경우 나타내기가 힘들며, 줄기의 수를 줄이거나 늘리면 분포의 모양도 달라지는 단점이 있음

 

5. 데이터 시각화

 - 히스토그램은 어떠한 변수에 대해서 구간별 빈도수를 나타낸 그래프

 - 파레토그림은 불량, 결점, 고장 등의 발생 건수를 분류항목별로 나누어 불량개수나 손실금액 등을 크기 순서대로 나열 후 막대그래프로 나타낸 그림을 말함

 - 상관관계에서 산점도는 두 개 변수 간의 관계를 통해 선형 또는 비선형의 형태와 같은 수학적 모델을 확인해봄으로써 그 방향성과 강도를 조사할 수 있음

 - 자료가 관찰된 모집단의 분포가 실제로 정규분포가 아닌 경우에도 중심극한정리에 의하여 구간추정이 가능

 

6. 상관계수

 - 피어슨 상관계수는 두 변수간의 선형관계의 크기를 의미

 - 스피어만 상관계수는 두 변수 간의 비선형관계 측정도 가능

 - 피어슨 상관계수의 범위는 -1 ≤ r ≤ 1

 - 스피어만 상관계수는 상관계수를 계산할 두 데이터의 실제 값 대신 두 값의 순위를 사용해 상관계수를 계산하는 방식

 

7. 잔차의 등분산성은 다중회귀 분석이 아닌 별도의 잔차분석을 통해서 확인 가능

 

8. 회귀분석의 잔차분석 결과 'U'곡선 패턴을 나타낼 때에는, 회귀분석 가정에 선형성을 위배했다는 증거로 이차항을 회귀분석함수모형에 추가하여 회귀분석을 실시함으로써 해결

 

9. 회귀분석에 대한 결과해석

 - 모든 가능한 조합의 회귀분석은 가능한 독립변수의 조합에 대한 회귀모형을 분석해 가장 적합한 회귀모형을 선택

 - 전진선택법과 후진제거법의 결과는 언제나 동일한 결과를 주지는 않음

 - 전진선택법으로 변수를 추가할 때 기존의 변수들의 중요도는 영향을 받게 됨

 

10. 시계열모형 설명

 - 자기회귀모형 : 과거 자료가 현재 자료에 영향을 주는 모형

 - 이동평균모형 : 현재 자료를 과거의 백색 잡음의 결합으로 나타내는 모형

 - 계절성을 갖는 비정상 시계열은 계절차분을 이용해 정상 시계열로 변환 가능

   --> 비정상 시계열은 변환이나 차분을 통해 정상시계열로 변환 가능

 

11. 시계열 구성요소 4가지

 - 추세요인 : 자료가 어떤 특정한 형태를 취할 때 추세요인이 있다고 함

 - 계절요인 : 고정된 주기에 따라 자료가 변화할 경우 계절요인이 있다고 함

 - 순환요인 : 경제적이거나 자연적인 이유가 없이 알려지지 않는 주기를 가지고 자료가 변화할 때 순환요인이 있다고 함

 - 불규칙요인 : 추세, 계절, 순환요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인을 불규칙요인이라고 함

 

14. 용어설명

 - 부스팅 : 샘플 데이터를 뽑아내고 다수의 분류기를 생성한 후 앞 모델이 틀렸던 부분에 가중치를 부여하는 방식

 - 랜덤포레스트 : 여러 개의 Decision tree를 형성하고 새로운 데이터 포인트를 각 트리에 동시에 통과시키며, 각 트리가 분류한 결과에서 투표를 실시하여 가장 많이 득표한 결과를 최종 분류 결과로 선택

 - 자기조직화지도(SOM) : 저차원(2차원 내지 3차원) 격자에 고차원 데이터의 각 개체들이 대응하도록 인공신경망과 유사한 방식의 학습을 통해 군집을 도출해내는 기법

 - 배깅 : Boostrap aggregating의 준말로 여기서 붓스트랩 데이터란 같은 데이터가 한 표본에 여러 번 추출될 수 있고 어떤 데이터는 추출되지 않을 수도 있음을 의미하며 이 붓스트랩데이터를 모델링한 후 결합하여 최종의 예측모델을 생성하는 것

 

15. 인공신경망의 노드 문제

 - 적은 경우 : 인공신경망의 은닉층 노드가 너무 적으면 네트워크가 복잡한 의사결정 경계를 만들 수 없음

 - 많은 경우 : 네트워크의 일반화가 어려움

                      훈련용 데이터에서는 만족스러운 결과를 보이나, 실제 적용에서는 분류가 정확하지 않은 모형의 과대적합

                      현상을 일으키는 경우가 종종 있음

 

16. 로지스틱 회귀분석은 반응변수가 범주형인 경우 적용

 

17. 마할라노비스 거리

 - 군집분석에서 사용되는 거리개념으로 두 지점의 단순한 거리뿐만 아니라, 표준편차와 상관계수를 함께 고려되는 거리로 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리

 - 마할라노비스 거리는 평균과의 거리가 표준편차의 몇 배인지를 나타냄

 

19. 지지도 vs 신뢰도 vs 향상도

 - 지지도 : A와 B가 동시에 포함된 거래 수 / 전체 거래 수

 - 신뢰도 : A와 B가 동시에 포함된 거래 수 / A를 포함하는 거래 수

 - 향상도 : 신뢰도 / B를 포함하는 거래 수

 

20. 혼합분포 군집분석의 결과 해석

 - EM 알고리즘은 K-means 알고리즘과 동일하게 초기 모델을 생성한 후 반복 정제과정을 통하여 각 객체들이 혼합모델에 속할 가능성을 조정하여 최적의 모델을 생성해 감

 - K-means는 군집 간 거리를 유클리드 거리 함수를 사용, EM 알고리즘은 로그우도함수를 사용함. 혼합분포에서는 최대가능도 추정이 쉽지 않아 대신 EM 알고리즘을 이용

21. K-means 군집분석

 - 초기 군집의 중심으로 k개의 객체를 임의로 선택

 - 각 자료를 가장 가까운 군집 중심에 할당

 - 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신

 - 군집중심의 변화가 없을 때까지 반복함

 

22. 군집분석의 유사도 측도

 - 자카드 지수 : 0과 1 사이의 값을 가지며, 두 집합이 동일하면 1의 값을 가지고, 공통의 원소가 하나도 없으면 0의 값을 가짐

 - 코사인 유사도 : 내적공간의 두 벡터 간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미

 - 유클리드 거리 : 두 점을 잇는 가장 짧은 직선거리를 의미

 - 표준화 거리 : 각 변수를 해당 변수의 표준편차로 척도 변환한 후에 유클리드 거리를 계산한 거리

 

23. 역 S자 그래프

 - 로지스틱 회귀모형에서 설명변수가 하나인 경우 이 회귀계수의 부호가 음수일 때 표현되는 그래프의 형태

 

24. 신경망 분석

 - 은닉층과 은닉마디의 적절한 개수를 결정하기 어려움

 - 효과적인 결합함수와 활성함수를 선택해야 함

 - 가중치 초기값에 따라 전역해에 도달하지 못할 수 있음

 

25. 후진제거법

 - 최적 회귀방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 방법

 

26. 향상도 곡선

 - 분류분석의 모형평가 방법으로 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프

 

27. 특이도

 - 모형평가 지표 중 범주 불균형 문제를 가지고 있는 자료에 대해서 실제값이 False인 관측치 중 예측치가 적중한 정도를 의미하는 모형평가 지표

 

30. 다중회귀분석 결과 해석

 - 각 변수가 통계적으로 유의한 경우(=p-value가 0.05보다 작은경우) p-value 뒤에 *마크가 붙으며, *의 개수가 늘어날수록 통계적으로 유의할 확률이 커짐

 - **의 경우 유의수준 0.001에서 유의한 변수임을 의미

 

 

 

 

 

 

반응형

댓글

💲 추천 글