(ADsP 오답노트)
[1과목]
2. 빅데이터와 기존 데이터 분석 방법 차이
- 전통적 데이터 분석은 조직 내부의 데이터 분석을 중심으로 이루어졌다면, 빅데이터 분석은 웹상, SNS상의 외부 데이터까지 활용
- 전통적 데이터 분석은 정형 데이터 분석 중심으로 이루어졌지만, 빅데이터 분석은 사진, 동영상, 텍스트 모두 포함하여 비정형 데이터까지 활용
- 전통적 데이터 분석에 비해서 빅데이터 분석은 분석 대상 데이터의 규모에 큰 차이가 있음
3. 딥러닝
- 딥러닝의 대표적 알고리즘 CNN(합성곱신경망)이 있음. CNN은 데이터의 특징을 추출하여 특징들의 패턴을 파악하는 구조
- 그 외에도 LSTM, Autoencoder가 있음
- SVM은 지도학습 알고리즘에 해당
5. 글로벌 기업의 빅데이터 활용사례
- 구글 : 실시간 자동 번역시스템을 통한 의사소통 해소
- 월마트 : 소셜미디어를 통해 고객 소비 패턴을 분석하는 월마트랩 운영
- 자라 : 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측
- 넷플릭스 : 이용자의 콘텐츠 기호를 파악하여 새로운 영화를 추천해 주는 Cinematch 시스템 운영
8. 사물인터넷은 데이터화에 영향을 미침
9. 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여하는 것을 정보라고 함
10. 데이터웨어하우스란 의사결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스
[2과목]
1. 별도로 분석조직이 없고 해당 업무부서에서 분석을 수행하는 데이터분석 조직을 기능구조라 함
2. 시장 니즈 탐색 관점의 채널 영역
- 해당되는 경로에 존재하는 유통채널을 제공
- 기업이 제공하는 서비스에 대해 고객의 이해를 확대
- 자체운영하는 고객 채널별로 분석 기회를 확대하여 탐색
- 고객에게 A/S 제공은 고객영역에 해당 (채널영역 아님)
4. 분석과제 정의서
- 분석과제 정의서에는 소스데이터 및 데이터 입수, 분석의 난이도 등에 대한 항목이 포함되어야 함
- 분석과제 정의서를 통해 분석 별로 필요한 소스데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석수행 주기, 분석 결과에 대한 검증 오너쉽, 상세 분석 과정 등을 정의
6. 분석 준비도의 분석 데이터 진단 영역
- 외부 데이터 활용 체계 (내부 X)
- 기준데이터 관리 (MDM)
- 분석 업무를 위한 데이터 충분성, 신뢰성, 적시성
- 비구조적 데이터 관리
8. 전통적 통계분석 방법 vs 빅데이터 분석
- 분석 대상 데이터를 모든 형태 및 내/외부 데이터로 확대
- 데이터의 생산 시점에서부터 실시간에 가까운 분석이 가능
9. 문제정의 단계
- 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계이다. 앞서 수행한 문제탐색의 단계 무엇을 어떤 목적으로 수행해야 하는지에 대한 관점이었다면, 문제정의 단계에서는 이를 달성하기 위해서 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로의 변환을 수행하게 된다
10. 의사코드 (슈도코드)
- 프로그램을 작성할때 각 모듈이 작동하는 논리를 표현하기 위한 언어이다. 특정 프로그래밍 언어의 문법에 따라 쓰인 것이 아니라, 일반적인 언어로 코드를 흉내 내어 알고리즘을 써놓은 코드를 말함
- 분석 모델을 가동중인 운영시스템에 적용하기 위해서는 모델에 대한 상세한 "알고리즘 설명서" 작성이 필요하다. "시스템 구현" 단계에서 중요한 입력 자료로 활용되므로 필요시 의사코드 수준의 상세한 작성이 필요
[3과목]
1. 지수평활법
- 최근에 가까운 자료일수록 과거의 자료보다 지수적으로 더 높은 가중치를 부여되어 예측치에 반영
- 이동평균법의 약점인 가중치 선정기준의 불합리성과 대상기간 N을 정하는 비합리성을 보다 합리적으로 개선한 가중이동평균법의 하나
- 지수평활 계수는 과거로 갈수록 지수적으로 감소
- 일정 기간의 평균을 이용하는 이동 평균법과 달리 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법
- 단순 지수평활법의 단점은 추세가 있는 경우 잘 모델링하지 못한다는 점이지만 이를 보완한 이중 지수평활법이 있음
2. 표본조사
- 표본 통계량으로 모수를 추정할 때 표본오차와 비표본오차가 발생할 수 있음
- 표본오차는 모집단으로부터 표본을 추출할 때 생기는 자연 발생적인 변동을 나타냄
- 표본오차는 표본추출 그 자체에 기인하는 문제점으로 설계상 문제나 대표성 부족 등으로 발생
- 표본편의는 모수를 크게 또는 작게 추정하는 것과 같이 표본추출방법에서 기인하는 오차를 의미함. 이런 표본편의는 확률화에 의해 최소화하거나 없앨 수 있음
- 확률화란 모집단으로부터 편의되지 않는 표본을 추출하는 절차를 의미
3. Summarize() 함수
- 데이터의 요약 정보를 만드는데 사용하는 함수로 계산 결과만을 담은 새로운 데이터 프레임으로 반환함
4. inspect()
- 연관분석을 위해 apriori 함수를 활용하여 연관규칙을 생성한 후에 생성된 연관규칙을 확인하기 위해 사용
5. biplot()
- 각 개체들의 첫번째 주성분(=행), 두번째 주성분(=열)값을 나타내는 행렬도를 시각화 한 것
- 각 개체가 '행'에는 PC1 값이 표현되고 '열'에는 PC2 값이 표현된다는 것을 뜻하며 이것을 시각화하기 때문에 biplot 이라고 함
- biplot 그림에서 화살표는 원변수와 PC의 상관계수를 뜻하며, PC와 평행할수록 해당 PC에 큰 영향
- 화살표 벡터의 길이가 원변수의 분산을 표현하며, 길수록 분산이 큼
6. Scree Plot을 통한 주성분 분석
- 주성분의 고윳값 크기를 보여주는 스크리 그림
- 몇 개의 주성분을 사용하여 차원축소를 진행할지 결정하기 위해 사용
- x축에 주성분을 놓고 y축에 해당 주성분에 대응하는 고윳값을 연결한 그림으로 그래프가 완만해지는 부분 이전까지의 주성분 개수를 선택
- 총분산의 비율은 주성분 분석 결과에서 확인할 수 있으며 주성분 분석을 통한 주성분점수(score) 활용은 아래와 같음
가. 정규성 검정 : 주성분에 대한 정규성 검정을 통해서 원변수가 다변량 정규분포를 따르는지 여부 판단 가능
나. 이상치 진단 : 주성분 간 산점도를 이용하거나 주성분의 박스플롯을 이용하여 이상치 발견 가능
다. 회귀분석 : 설명변수 간 다중공선성 발생 시 해결책으로 주성분을 사용하여 회귀분석에 사용
7. 신뢰도 (A --> B의 경우)
- (A와 B가 포함된 거래 수) / (A가 포함된 거래 수)
8. 로지스틱 회귀모형
- 종속변수가 이항변수인 일반적인 선형모형으로 가정하기 보다는 0~1 사이의 값을 가지는 곡선형태의 모형으로 가정하는 것이 바람직
- 로지스틱 회귀모형은 회귀계수 베타가 양수인 경우 독립변수 x값이 작아질수록 예측값은 0에 가까워지고, x값이 증가함에 따라 예측값은 S자 형태의 모양으로 증가
- 로지스틱 모형은 적절한 변환을 통하여 곡선을 직선형태로 바꿀 수 있으며, 이러한 변환을 로짓변환이라고 함
- 로지스틱 회귀분석에서는 독립변수에 대한 어떠한 가정도 필요로 하지 않음
--> BUT, 판별 분석은 각 변수들간의 공분산 행렬이 동일하고 독립변수결합분포가 정규분포임을 가정
9. 인공신경망의 일반화 가중치
- 일반화 가중치는 각 공변량들의 효과를 나타내는 것으로 로지스틱 회귀모형에서의 회귀계수와 유사하게 해석
- 일반화 가중치는 모든 공변량에 의존하므로 각 자료점에서 지역적인(국소적인) 기여도를 나타냄
- 모든 자료에 대한 일반화 가중치의 분포는 선형적인 효과가 있음을 나타냄
- 각 자료점의 공변량이 로그 - 오즈에 미치는 기여도를 나타냄
10. 탐색적 자료분석
- 데이터 특성을 기반으로 적합한 분석기법을 선정
- 분석모형을 기반으로 높은 유의성을 보유한 변수들을 선정
- 탐색적 자료분석을 통해 데이터의 가설 적합성과 충분성을 검증
- 탐색적 자료분석 단계에서는 지나친 상세화보다는 기초자료 분석과 분석항목 요건을 식별하는 단계
12. 이상치 판정 방법
- 일반적으로 이상치는 '평균으로부터 표준편차의 3배가 넘는 범위의 데이터'라고 정의
- 데이터를 크기순으로 나열한 다음 가장 크거나 가장 작은 수치들을 이상치로 판정
- 이상치 판단 알고리즘으로는 ESD, MADM 등이 있음
- 회귀분석에서는 독립변수의 동일 수준의 다른 관측치에 비해 종속변수의 값이 상이한 점을 이상치로 판단
13. 상관계수 해석
- 상관계수만으로 각 변수 간에 상관분석의 유의성을 판단할 수 없음
- 상관계수가 0이라는 것은 두 확률변수의 선형적 관계가 없음을 의미하지 아무런 관계가 없다는 의미는 아님. 이차함수의 경우에도 상관계수의 값은 0이 나타날 수 있음
16. 배깅(Bagging)
- Boostrap aggregating의 약어로 데이터를 가방에 쓸어 담아 복원 추출하여 여러 개의 표본을 만들어 이를 기반으로 각각의 모델을 개발한 후에 결과를 하나로 합쳐 하나의 모델로 만드는 앙상블 방법
- 앙상블 모형은 여러 모형의 평균을 취함으로써 어느 쪽에도 치우치지 않는 결과를 얻을 수 있으며, 여러모형의 의견을 취합함으로써 분산을 감소시킬 수 있음
18. 지지도
- 연관규칙 측정 지표 중 전체 거래 중에서 품목 A,B가 동시에 포함되는 거래의 비율로 전체 구매 경향을 파악할 수 있는 측정지표
19. 이상값 처리
- Summary()로 이상값에 대한 일차적인 판단이 가능
- 상자그림, 히스토그램, 산점도를 통해 이상값을 확인 가능
- 이상값 판별의 한 방법으로써 평균으로부터 3 * 표준편차 이상 떨어져 있는 값을 이상값으로 판단
- 이상값 중 의도되지 않는 현상이지만 분석에 포함되어야 하는 경우가 있음
20. K-means 군집의 단점
- 볼록한 형태가 아닌 군집이 존재하면 성능이 저하
- 사전에 주어진 목적이 없으므로 결과 해석이 어려움
- 이상값에 영향을 많이 받음
- K-means 군집은 매 단계마다 군집 중심으로부터 오차제곱합을 최소화하는 방향으로 군집을 형성하여 다른 군집으로 이동 가능
21. 과대적합
- 학습데이터가 모집단의 특성을 충분히 설명하지 못할 때 발생
- 변수가 많아 모형이 복잡할 때 발생
- 과대적합은 모델이 훈련 데이터에 너무 잘 맞지만 일반성이 떨어진다는 의미
- 훈련데이터에 최적화 되어 있어 훈련데이터에 높은 성능을 보여주고 이 모델은 테스트 데이터에 대해서는 높은 성능을 보여줄 확률이 낮고 민감하게 반응하게 됨
25. 코사인유사도
- 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미하며 데이터 마이닝 분야에서 클러스터들간의 응집도를 측정하는 방법으로도 사용하는 측도
26. 시그모이드 함수
- p개의 독립변수로 사건 E가 발생할 확률을 예측하기 위한 로지스틱회귀분석모형을 의미하는 활성함수
- P(E) : 사건 E가 발생할 확률
27. 자기조직화지도(SOM)
- 대뇌피질의 시각피질을 모델화한 인공신경망의 일종으로 비지도 학습에 의한 클러스터링 방법
28. 분산의 분자는 편차 제곱의 합을 의미. 제곱과 단위가 m로 환산하게 되면 /10000 을 함
29. 주성분 분석
- 주성분 분석은 독립 변수들 간의 영향력이 있는 경우 결합하는 형태로 가상의 핵심 성분을 뽑아서 새로운 변수를 생성하는 것을 말함
- 주성분 분석의 목적은 정보손실을 최소화하면서 서로 상관관계가 있는 변수들 사이의 복잡한 구조를 이해하기 쉽게 설명하고자 하는데 있음
- 비지도 학습 방법으로 각각의 독립 변수들에 새로운 주성분을 생성. 이 주성분을 변수로 사용하여 서로 독립적인 새로운 변수가 됨
- 주석분 분석을 통해 만들어진 변수들은 서로 독립적이기 때문에 다중공선성이 발생했을 때 해결하기 위해 사용하기도 함
30. 유클리드 거리 계산에서 계층적 군집분석 사용 시 가장 먼저 군집을 이루는 것은 가장 가까운 거리에 있는 변수
'자격증 > ADsP' 카테고리의 다른 글
[ADsP 합격 후기] : 제35회 / 데이터분석 준전문가(ADsP) / 직장인 공부방법 / 교재 / 기간 (4) | 2022.11.23 |
---|---|
[ADsP 핵심이론 요약정리] 데이터분석준전문가(ADsP) 22년 10월 시험대비 (feat. 김계철 강사님) (0) | 2022.10.25 |
[ADsP 오답노트] 데이터분석준전문가(ADsP) 오답노트 - 15회 기출 (0) | 2022.10.25 |
[ADsP 오답노트] 데이터분석준전문가(ADsP) 오답노트 - 13회 기출 (0) | 2022.10.23 |
댓글