자격증/빅데이터분석기사

[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 세번째

방랑청년 2023. 4. 2.
반응형

빅데이터분석기사 필기 기출문제 오답노트

정답갯수 : 11 / 14 / 12 / 7

(퓨퓨...)


[빅데이터분석기사 필기 기출문제 오답노트] # Part 01. 빅데이터 분석 기획

● JSON

- 키-값의 쌍으로 구성된 데이터 오브젝트를 전달하기 위해 사람이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷으로 자바스크립트 언어로부터 파생된 언어 독립형 데이터 포맷이다

- 반정형 데이터 유형으로 Sensing, Streaming, Scribe, Chukwa 등의 기술을 사용한다

 

● 하둡 에코시스템의 데이터 수집 기술

- Chukwa, Sqoop, Scribe

 

● 딥러닝

- 인공지능은 빅데이터의 딥러닝이 발전함에 따라 완성도가 높아졌다. 딥러닝은 머신 러닝의 한 분야로 사람의 개입이 없는 비지도 학습법이다

 

● 데이터 통합

- 연관성이 있는 여러 데이터를 하나로 결합하는 기술로 연계가 필요한 추가 속성을 생성하는 기술이다

 

● Sqoop

- 커넥터를 활용하여 관계형 데이터베이스와 하둡의 데이터 전송 기능을 제공

- 병렬처리 방식으로 작동되며 모든 적재 과정이 자동화되어 있음

 

● 데이터의 유형 구분

- 범주형 데이터 : 명목형, 순서형

- 수치형 데이터 : 이산형, 연속형

 

● 하둡 분산 파일 시스템(HDFS)

- 메타를 관리하는 네임 노드와 파일이 저장되는 데이터 노드로 구성

- 파일을 특정 크기의 블록으로 나누어 데이터 노드에 3중으로 저장

- 저사양의 다수 서버로 구성되어 기존 파일 시스템에 비해 비용효율적

 

● NoSQL의 CAP 이론

- 분산 컴퓨팅 환경 : 일관성, 가용성, 분산성 등 3가지 특징을 가지고 있지만 이 중 두 가지만 만족할 수 있다는 이론

- 일관성 : 모든 사용자에게 동일한 시점에는 동일한 데이터가 제공되어야 하는 특성

- 가용성 : 특정 노드에 장애가 발생해도 다른 노드는 정상적으로 작동해야 하는 특성

- 분산성 : 네트워크가 물리적으로 분산된 환경에서도 시스템이 원활하게 작동해야 하는 특성

 

● 마이데이터 정의

- 개인이 자신의 정보를 통제하고 관리하고 개인의 요구에 따라 개인 정보 활용 주체가 안전한 환경에서 개인정보를 제공하도록 요구하는 운동으로 개인의 정보를 안전하고 능동적으로 활용할 수 있도록 하는 과정을 의미


[빅데이터분석기사 필기 기출문제 오답노트] # Part 02. 빅데이터 탐색

 

● 데이터 오류를 일으키는 원인

- 결측값(Missing Value)

- 이상값(Outlier)

- 노이즈(Noise)

 

● 데이터 전처리

- 데이터 전처리는 데이터 분석을 위한 필수 과정이다

- 데이터 전처리 과정은 데이터를 정제한 후 분석 변수를 처리하는 순서로 수행한다

- 데이터 전처리 과정에서 발생한 오류는 데이터 분석의 신뢰성에 부정적인 영향을 미친다

- 데이터 전처리는 분석 결과에 따라 반복적으로 수행될 수 있다

 

● 데이터 정제 기법 중 보강(Enhancement)

- 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업

 

● 완전 무작위 결측

- 다른 변수와 무관하게 발생한 결측값

- 데이터가 충분히 큰 경우, 무작위 표본 추출을 통해 모수를 대표하는 데이터를 구성할 수 있음

- 데이터를 입력할 때 고의성 없이 입력을 빠뜨린 경우에 해당

 

● 단순 대치법(Single Imputation)

- 결측값을 평균값과 같은 중심 경향성 통계량으로 대체하는 통계적 기법

- 통계적 추론에 사용된 통계량의 효율성 및 일치성 등의 문제를 부분적으로 보완

- 대체된 자료는 결측값이 없이 완전한 형태를 지님

 

● 데이터 이상값(Outlier)

- 데이터 이상값은 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값을 말함

- 데이터 이상값 발생 원인은 데이터의 입력 오류, 측정 오류, 실험 오류 등이 있음

- 데이터 이상값 검출 방법으로는 머신러닝 기법, 개별 데이터 관찰, 시각화 등이 있음

- 데이터 이상값은 반드시 제거할 필요가 없기 때문에 분석가의 주관에 따라 이상값 처리 방법에 대한 판단이 필요

 

● iForest 기법

- 관측치 사이의 거리 또는 밀도에 의존하지 않고, 데이터 마이닝 기법인 의사결정나무(Decision Tree)를 이용하여 이상값을 탐지하는 방법

- 의사결정나무 기법으로 분류 모형을 생성하여 모든 관측치를 고립시켜 나가면서 분할 횟수로 이상값을 탐색

 

● 래퍼 기법(Wrapper Method)에서 변수 선택을 위한 알고리즘 유형

- 전진 선택법. 후진 제거법, 단계적 방법

 

● 차원축소 기법

- 주성분 분석, 특이값 분해, 요인 분석, 독립 성분 분석, 다차원 척도법

 

● 주성분 분석

- 가장 적은 수의 주성분을 사용하여 분산의 최대량을 설명

- 주성분 변수는 원래 변수 정보를 축약한 변수이며, 주성분 분석은 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 분석 방법

- P개의 변수가 있는 경우 이를 통해 얻은 정보를 P보다 상당히 적은 K개의 변수로 요약하는 것

 

● 과소표집

- 다수 클래스의 데이터를 무작위로 일부만 선택하여 데이터의 비율을 맞추는 방법

- 데이터를 제거하는 방법을 통해 클래스의 비율을 맞추기 때문에 데이터의 소실이 매우 크고, 중요한 정상 데이터를 잃는다는 단점이 있음

 

● 상관 분석

- 두 개 이상의 변수 간에 존재하는 연관성의 정도(하나의 변수가 다른 변수와 어떤 연관성을 가지고 변화하는가)를 측정하여 분석하는 방법

- 데이터의 속성에 따라서 수치형, 명목형, 순서형 데이터 등을 가지는 변수 간의 상관 분석이 있음

 

● 확률 분포

- 확률 분포란 확률변수가 특정한 값을 가질 확률을 나타내는 분포로 확률변수의 종류에 따라 크게 이산 확률 분포와 연속 확률 분포로 나뉨

- 이산 확률 분포는 이산 확률 변수 X가 가지는 확률 분포로 확률변수 X가 0, 1, 2, 3, ...와 같이 하나씩 셀 수 있는 값을 취함

- 이산 확률 분포의 종류에는 포아송 분포, 베르누이 분포, 이항 분포 등이 있음

- 포아송 분포는 주어진 시간 또는 영역에서 어떤 사건의 발송 횟수를 나타내는 확률 분포이고, 베르누이 분포는 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻는 확률 분포

 

● 모수(Parameter)

- 표본 관측에 의해 구하고자 하는 모집단에 대한 정보를 의미

 

● 베타 수준

- 제2종 오류를 범할 최대 허용 확률을 의미하며, b(베타)로 표기


[빅데이터분석기사 필기 기출문제 오답노트] # Part 03. 빅데이터 모델링

 

● 데이터 분할

- 분할된 데이터는 전체 데이터에 대한 대표성을 띄어야 함

- 시계열 분석을 수행하는 경우 최신 데이터를 테스트 데이터로 분할

- 일반적으로 학습 데이터와 검증 데이터를 60~80%, 테스트 데이터를 20~40%로 분할

- 학습 데이터, 검증 데이터, 테스트 데이터는 중복이 있으면 안됨

 

● 로지스틱 회귀 분석이 가지는 선형 회귀분석과의 차이점

- 종속변수가 범주형이며, 이항 분포를 따름

 

● 의사결정나무

- 구조가 단순하여 해석이 쉬움

- 적당한 기준을 가지고 정지 규칙을 사용하여 과적합을 방지

- 끝 노드로 갈수록 불순도가 낮아짐

- 연속형 변수와 범주형 변수를 모두 사용할 수 있음

 

● 포화 상태

- 신경망 모형에서 입력값이 지나치게 크면 활성화 함수가 편향되어 과적합이 발생하는 상태

- 시그모이드(Sigmoid)와 같은 활성화 함수는 일반적으로 입력값이 크면 기울기가 작아지고 평평한 활성화 함수를 갖음

- 가중치의 학습은 활성화 함수의 기울기에 영향을 받아 학습 능력이 제한되며 이러한 현상을 포화라고 함

- 포화를 방지하기 위해 입력값을 작게 유지해야 함

 

● 오차 역전파

- 가중치 매개변수의 기울기를 직접 구하지 않고 출력층에서 입력층으로 오차를 전달하여 가중치와 편향을 계산하는 기법

 

● 자기지도 학습(SOM ; Self-Organizing Maps)

- 입력층과 경쟁층으로 구성

- 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 되며 경쟁층에는 승자 뉴런만이 나타남

 

● 서포트벡터머신(SVM ; Support Vector Machine)

- 지도 학습의 기법으로서 고차원 또는 무한 차원의 공간에서 초평면의 집합을 찾아, 이를 이용하여 분류와 회귀를 수행

 

● 이동평균 모형

- 평균이 시간에 따라 변화하는 경향을 시계열 모형으로 구성한 모형

 

● CNN 알고리즘에서 커널을 이용하여 특징을 추출하는 연산

- 합성곱 연산을 통하여 사용자가 입력한 이미지에서 필터를 이용하여 특징(Feature)을 추출한 피처맵과 서브샘플링 연산을 통해 화면의 크기를 줄여 차원을 축소

 

● 사회 연결망 분석(SNA)의 주요 속성

- 응집력, 구조적 등위성, 명성, 범위, 중개

 

● 배깅(Bagging)

- 랜덤 복원 추출을 통해 (부트스트랩 샘플링) 같은 크기의 표본을 추출한 여러 개의 표본에 각각 모형을 병렬적으로 학습하고 추출된 결과를 집계하는 앙상블 기법


[빅데이터분석기사 필기 기출문제 오답노트] # Part 04. 빅데이터 결과 해석

 

● 회귀모형평가지표 중 이상치가 있는 데이터에 사용하기 적절한 지표

- 평균절대오차(MAE ; Mean Absolute Error)

- 평균절대백분율오차(MAPE ; Mean Absolute Percentage Error)

 

● 결정계수

- 선형 회귀 모형의 성능 지표로 주요 사용

- 선형 회귀 모형이 실제 값을 얼마나 잘 나타내는지 보여줌

- 0 ~ 1의 값을 가짐

- 유의하지 않은 독립변수가 증가할 경우 패널티를 주는 방식

 

● 혼동행렬

- 재현율 = 참 긍정률 = 민감도 : 실제 값이 Positive인 데이터 중 모형이 Positive로 예측한 데이터의 비율 (TP / (TP+FN))

- 특이도 : 실제 Negative인 데이터 중 모형이 Negative로 예측한 데이터의 비율 (TN / (FP+TN))

 

● 정규성 검정

- 샤피로-윌크 검정, 콜모고로프-스미르노프 적합성 검정, Q-Q plot

 

● 일반화 오류(Generalization error)

- 분석 모형 구축 시 학습데이터의 특성을 지나치게 반영하는 경우 발생

 

● 홀드아웃(Holdout) 교차 검증

- 전체 데이터를 학습 데이터와 검증 데이터로 분할하여 사용하기 때문에 검증 데이터로 사용하는 부분은 학습에 사용할 수 없음

 

● 분산 분석(ANOVA)

- 그룹 간의 평균이 같은지 검증하는 방법

- 분산 분석은 F분포를 사용하는 검정 방법

- 3개 이상의 집단을 비교할 때도 사용할 수 있음

- t-test와 같은 목적으로 사용할 수 있음

 

● Q-Q plot

- 데이터의 정규성을 시각적으로 확인하는 방법

- 대각선 참조선을 함께 그려 데이터의 분포를 확인

- Q-Q plot의 해석은 주관적일 수 있음

- 데이터가 한쪽에 치우쳐 있으면 정규성을 따른다고 볼 수 없음 (정규성을 띈 데이터는 대각선 위에 고르게 분포)

 

● 과대적합과 과소적합

- 과대적합 : 학습 오류 작고, 검증 오류 큼

- 과소적합 : 학습 오류 큼, 검증 오류 큼

 

● 경사하강법

 

- 학습률이라는 하이퍼파라미터가 존재

- 확률적 경사하강법은 무작위로 선택한 1개의 데이터 샘플을 사용

- 배치 경사하강법은 미니 배치 경사하강법보다 시간이 오래 걸리지만 부드럽게 수렴

- 확률적 경사하강법은 속도가 빠르지만 오차율이 높고 불안정하게 수렴

- 미니 배치 경사하강법은 확률적 경사하강법보다 느리더라도 오차율이 낮은 장점이 있음

 

● 분석 모형 융합 방법

- 배깅은 병렬적인 방법이고 부스팅은 순차적인 방법

- 부스팅은 배깅에 비해 성능이 좋지만 과대적합의 위험성이 있음

- 의사결정나무 모형의 성능이 낮을 경우 부스팅을 활용해 성능을 개선시킬 수 있음

- 부스팅은 배깅에 비해 성능이 좋지만 속도가 느리고 과대적합의 위험성이 있음

 

● PDP(Partial Dependence Plot)

- 예측 모형의 한 독립변수에 대해 종속변수에 어떤 영향을 미치는지 알고 싶을 때 사용할 수 있음

- PDP는 회귀 문제에 사용할 수 있음

- PDP는 분류 문제에 사용할 수 있음

- 독립변수와 종속변수의 전체적인 관계를 파악하는 방법으로, 분석 모형을 해석하는 전역적인(global) 방법론으로 분류

 

반응형

댓글

💲 추천 글