자격증/빅데이터분석기사

[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 두번째

방랑청년 2023. 4. 2.
반응형

빅데이터분석기사 필기 기출문제 오답노트 두번째

스코어(정답갯수) : 80개 중 45개 (15 / 11 / 11 / 8)


[빅데이터분석기사 필기 기출문제 오답노트] # Part 01. 빅데이터 분석 기획

 

● 데이터 확보 계획 단계 (확보계획은 목.요.예.수)

- 표 정의 -> 구 사항 도출 -> 산안 수립 -> 계획

 

● 하둡 분산 파일 시스템(HDFS)의 특징

- 하나의 네임 노드와 여러 개의 데이터 노드로 구성되어 있다

- 다수의 저사양 서버를 이용해서 대용량의 공간을 저렴하게 구성할 수 있다

- 네임 노드는 디렉토리명, 파일명, 파일 블록 등에 대한 메타데이터를 관리하는 마스터 역할이다

- 저장하고자 하는 파일을 특정 크기의 블록 단위로 나누어 분산된 서버에 저장하고 데이터 유실을 방지하기 위해 블록을 3중으로 복제하여 저장한다

 

● 데이터의 품질 요소

- 정확성, 유효성, 완전성, 정합성, 유일성, 유용성, 적시성, 보안성, 안정성, 일관성

 

● 하향식 접근 방식의 분석 문제 정의

- 하향식 접근 방식의 분석 문제 정의는 문제 탐색, 분석 문제 정의, 해결 방안 탐색, 타당성 평가 및 과제 선정으로 진행되며 문제 탐색에서 도출된 비즈니스 문제를 데이터의 문제로 전환하는 단계는 분석 문제 정의 단계이다

 

● 빅데이터 분석 업무 수행 (빅데이터 분석 업무는 수.저.처.분.설.화)

- 데이터 집 -> 데이터 장 -> 데이터의 리 -> 탐색적 데이터 석 -> 모형 계 -> 시각 및 보고서

 

● 빅데이터 분석 방법론의 분석 기획 단계 수행 업무

- 비즈니스 이해 및 범위 설정

- 프로젝트 정의 및 계획 수립

- 프로젝트 위험 계획 수립

 

● KDD 분석 방법론의 분석 단계 (KDD 분석은 선.전.변.마.평)

- 데이터 택 -> 데이터 처리 -> 데이터 환 -> 데이터 이닝 -> 해석과

 

● 분석 업무의 우선순위 (시급성 기준)

- 난이도가 낮고 시급한 문제 -> 난이도는 낮지만 시급성은 떨어지는 문제 -> 난이도는 높고 시급성은 떨어지는 문제 -> 난이도는 높지만 시급한 문제

 

● 데이터 처리 기술

- 데이터 처리 기술에는 데이터 필터링, 데이터 변환, 데이터 정제, 데이터 통합, 데이터 축소 등이 있고 이 중 데이터 변환 기술에는 평활화, 집계, 일반화, 정규화, 속성 생성이 있다

 

● 빅데이터 저장 기술

- 구글의 구글 파일 시스템(GFS)은 마스터, 청크 서버로 구성되며 하둡 분산 파일 시스템은 네임 노드와 데이터 노드로 구성된다

- 맵리듀스(MapReduce)는 대용량 데이터를 저사양 서버로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해 개발된 프레임워크로 Map은 데이터를 분할하고 Reduce는 분할된 데이터를 재결합하는 단계이다

- 클라우드 컴퓨팅은 지역별 데이터 센터 등에서 온라인으로 데이터 저장 서비스를 제공하며 아마존의 AWS, 구글의 GCP, 마이크로소프트의 Azure 등이 대표적이다

- 아마존 AWS에서 제공하는 파일 시스템 저장소는 S3(Simple Storage Service)이다


[빅데이터분석기사 필기 기출문제 오답노트] # Part 02. 빅데이터 탐색

 

● 결측값

- 데이터가 비어 있는 경우를 확인하면 결측값 여부는 알기 쉽다

- 결측값이 있는 경우 다양한 대치(Imputation)법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있다

- 결측값이 20% 이상인 경우에는 해당 변수를 제거하고 분석하는 것이 바람직하다

- 관측치가 기록된 값을 결측값으로 처리하여 분석에 활용하는 것은 옳지 않다. 기본(default)값이 기록된 경우라도 그 값의 의미를 가지고 있기 때문에 결측값으로 처리하면 분석에 큰 오류로 작용할 수 있다

 

● 이상값

- 데이터를 측정 또는 입력하는 과정에서 잘못 기입된 이상값은 삭제 또는 대체, 변환한 후 분석한다

- 설명변수의 관측치에 비해 종속변수의 값이 상이한 값을 이상값이라고 한다

- 평균으로부터 표준 편차의 3배가 되는 점을 기준으로 이상값을 정의할 수 있다

- 군집 분석을 활용한 이상값 검출은, 주어진 데이터를 군집으로 묶고 군집으로 정의되지 않는 영역을 이상값으로 판단한다. 군집 분석은 단순히 거리상 멀리 떨어진 데이터를 이상값으로 판단하지 않는다

*거리상 멀리 떨어진 데이터를 이상값으로 판단하는 기법은 마할라노비스 거리(Mahalanobis Distance)를 활용한 이상값 판단 기법의 설명에 가깝다

 

● 변수 선택 기법

- 필터 기법(Filter Method)

- 래퍼 기법(Wrapper Method)

- 임베디드 기법(Embedded Method)

 

● 주성분 분석

- 차원 감소폭의 결정은 전체 변이의 공헌도, 평균 고윳값, scree plot 등을 이용하는 방법이 있다

- P개의 변수들을 중요한 M개의 주성분으로 표현하여 전체 변동을 설명하는 것으로, M개의 주성분은 원래 변수들의 선형 결합으로 표현된다

- 주성분 분석을 이용하는 주된 동기로 언급되는 것 중 차원의 저주가 있다. 데이터의 차원이 증가할 때, 데이터의 구조를 변환하여 불필요한 정보도 최대한 축적하는 차원 감소 방법이 필요하다

- 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약 및 축소하는 기법이며, 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어렵다

 

● 탐색적 데이터 분석(EDA)

- 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석

- 다양한 차원과 값을 조합해 가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해 나가는 과정

 

● 히스토그램

- 표로 되어 있는 도수분포표를 그래프로 나타낸 것

- 히스토그램에서는 가로축이 계급, 세로축이 도수를 나타낸다. 계급은 보통 변수의 구간이며, 서로 겹치지 않는다

- 봉우리가 여러 개 있는 데이터는 일반적으로 2개 이상의 조건에서 데이터가 수집되는 경우 발생한다

- 그래프의 모양이 한쪽에 치우쳐 있거나 봉우리가 여러 개 있는 그래프는 비정규 데이터일 수 있다

- 표본의 크기가 작으면 각 막대의 높이가 데이터 분포의 형상을 잘 표현해 내지 못한다

 

● 확률 및 확률 분포

- 모든 사건의 확률값은 0과 1 사이에 있다

- 서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합과 같다

- 두 사건 A, B가 독립이라면 사건 B의 확률은 A가 일어난다는 가정하에서의 B의 조건부 확률과 동일하다

- 연속형 확률변수는 가능한 값이 실수의 특정 구간 전체에 해당하는 확률변수이며 연속형 확률 밀도 함수를 가진다

 

● 측정 척도

- 명목 척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용

- 순서 척도 : 측정 대상의 특성이 가지는 서열 관계를 관측하는 척도

- 비율 척도 : 간격에 대한 비율이 의미를 가지는 자료로서 절대적인 기준 0이 존재하고 사칙연산이 가능

- 구간 척도 : 측정 대상이 갖는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료

 

● 표본조사

- 표본편의(sampling bias)는 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본 추출 방법에서 기인하는 오차를 의미

- 표본 편의는 확률화(randomization)에 의해 최소화하거나 없앨 수 있다. 확률화란 모집단으로부터 편의되지 않은 표본을 추출하는 절차를 의미하며 확률화 절차에 의해 추출된 표본을 확률 표본(random sample)이라 한다

- 표본 오차(sampling error)는 모집단을 대표할 수 있는 표본 단위들이 조사 대상으로 추출되지 못함으로서 발생하는 오차를 말한다

- 비표본 오차(non-sampling error)는 표본 오차를 제외한 모든 오차로서 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사 대상이 증가하면 오차가 커진다

 

● p-value

- 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제 확률


[빅데이터분석기사 필기 기출문제 오답노트] # Part 03. 빅데이터 모델링

 

● 데이터 마트 설계 및 구축

- 다양한 원천 시스템으로부터 분석 대상 데이터를 수집한다

- 데이터 전처리를 통해 변수들을 식별한다

- 전처리 결과 데이터를 적재한 데이터 마트를 구축한다

*분석 모형 학습 및 하이퍼파라미터 최적화는 모델링 단계에서 수행

 

● 다중 회귀 분석에서 독립변수가 지나치게 많을 경우

- 회귀식의 적합도나 타당도가 낮아진다

- 추정치의 표준 오차가 커진다

- 설명력이 작아진다

*독립변수의 수는 변수에 대한 영향력 비교와 무관하다

 

● 의사결정나무

- 부모마디 : 자식마디의 상위 마디

- 가지 : 하나의 마디로부터 끝마디까지 연결된 마디

- 깊이 : 가지를 이루는 마디의 개수

- 자식마디 : 하나의 마디로부터 분리된 2개 이상의 마디

 

● 정지규칙

- 의사결정나무에서 분리가 가능하지만, 분리를 멈추고 현재의 마디를 끝마디가 되도록 하는 규칙

 

● 계층적 군집 분석

- N개의 군집으로 시작하여 군집 간 거리를 기준으로 가장 가까운 군집끼리 병합한다

- 덴드로그램(Dendrogram)으로 표현할 수 있다

- 군집 수를 사전에 설정하지 않아도 된다

*k 평균 군집 분석은 비계층적 군집 분석의 한 방식

 

● MANOVA

- 각 집단의 공분산이 같아야 한다

- 2개 이상의 종속변수에 대한 분산 분석 방법이다

- 가정을 위배한 경우에는 Pilai's trace 통계량이 가장 유의한 결과를 출력한다

- 종속변수 간에 서로 상관관계가 있는 경우 결합된 차이를 확인할 수 있다

 

● 시계열 자료의 정상성(Stationary)

- 모든 시점에 대해 일정한 분산을 가진다

- 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다

- 시간에 따라 분산이 일정하지 않은 경우에는 변환을 통해서 정상 시계열로 바꿀 수 있다

- 평균이 일정하지 않은 경우 차분을 통해 정상화한다

 

● 합성곱신경망(CNN)

- 시각적 이미지를 분석하는 데 사용되는 심층신경망으로 대표적인 딥러닝 모형

 

● 부스팅

- 예측력이 약한 모형들을 결합하여 최종 예측 모형을 생성하는 앙상블 모형

- 오분류된 개체들에 가중치를 적용하고 새로운 모형을 학습하는 과정을 반복 수행


[빅데이터분석기사 필기 기출문제 오답노트] # Part 04. 빅데이터 결과 해석

 

● 수정된 결정 계수(adjusted R2)

- 수정된 결정 계수의 값은 항상 결정 계수보다 작다

- 유의한 독립변수를 추가하면 수정된 결정 계수의 값은 증가한다

- 독립변수 개수가 서로 다른 모형을 비교할 때 사용할 수 있다

- 유의한 독립변수를 모형에서 제거하면 수정된 결정 계수 값은 감소한다

 

● 혼동행렬 계산

- 정밀도 : 모형이 Positive로 예측한 데이터 중 실제 Positive인 데이터의 비율

- 정확도 : 전체 데이터 중 예측을 정확하게 한 데이터의 비율

- 재현율 : 실제값이 Positive인 데이터 중 모형이 Positive로 예측한 데이터의 비율

 

● 선형 회귀 모형의 가정과 진단 방법

- 독립성 : 더빈-왓슨 검정

- 등분산성 : 잔차 산점도를 봤을 때 잔차가 고르게 분포되어야 함

- 정규성 : 샤피로-윌크 검정, 콜모고로프-스미르노프 적합성 검정

- 선형성 : 잔차 산점도에서 선형성을 확인함

 

● k-fold 교차 검증

- 분석 모형 학습 시 과대적합을 피하기 위한 방법이다

- 분류 문제에서는 k-fold 교차 검증보다 층화(Stratified) k-fold 교차 검증이 더 선호된다

- 일반적으로 k 값은 5나 10을 사용한다

- 홀드아웃이 k-fold 교차 검증에 비해 학습 데이터 분할에 더 민감한 방법이다

*홀드아웃은 데이터를 학습 데이터와 검증 데이터로 어떻게 나누느냐에 따라 성능 값의 차이가 발생하는 반면, k-fold는 데이터를 여러 번 분할하여 성능을 계산한 후 평균값을 구하므로, 데이터 분할에 따른 성능 차이가 상쇄됨

 

● 카이제곱 검정

- 카이제곱 검정은 카이제곱 분포를 사용하는 검정 방법이다

- 관측치의 비율값이 기대되는 비율값과 같은지 검정하는 방법이다

- 범주형 데이터에 사용할 수 있는 검정 방법이다

- 두 개 이상의 변수가 독립인지 검정할 때도 사용할 수 있다

- 적합도 검정과 동질성 검정을 위해 사용할 수 있다

 

● 과대적합과 과소적합

- 분석 모형이 과대적합일 경우 일반화 성능이 좋지 않다

- 분석 모형이 과대적합일 경우 모형의 복잡도는 상대적으로 높다

- 분석 모형이 과소적합일 경우 학습 데이터에서는 성능이 낮게 나타난다

- 분석 모형이 과소적합일 경우 분석 모형이 필요한 패턴을 충분히 학습하지 못하였으므로, 학습 데이터와 검증 데이터 모두에서 낮은 성능을 보인다

 

● 배깅(Bagging)

- 먼저 학습 데이터에서 일정한 크기의 부트스트랩 샘플을 무작위로 복원 추출한다. 부트스트랩 샘플을 이용해서 분석 모형을 각각 학습한 후, 학습 결과를 종합하여 최종 분석 모형을 구한다. 일반적으로 회귀 모형의 경우에는 각 예측값을 평균하고, 분류 모형의 경우에는 예측 결과를 다수결로 종합한다

 

● 순열 변수 중요도(Permutation feature importance)

- 변수의 값을 무작위로 섞어서 해당 변수를 노이즈처럼 만드는 방법으로 변수 중요도를 평가한다

- 순열 변수 중요도는 다른 변수들과의 교호 작용도 포함한다

- 순열 변수 중요도를 구할 때마다 결과가 달라질 수 있다

- 변수 제거와 분석 모형 학습을 반복하는 일을 하지 않아도 된다는 장점이 있다

 

● 분석 모형 전개

- 자원이 충분하고, 준실시간으로 분석 결과를 적용해야 하는 업무에서는 분석 모형을 모듈화한 다음 인터페이스(interface)를 통해 모듈을 구동하고 직접 분석 결과를 불러오는 방안을 택할 수 있다

- 일배치로 분석 결과를 생성하는 경우에는 생성된 예측 결과 값을 RDB에 저장하거나 파일 형태로 저장한 후, 이를 불러오는 방안을 사용할 수 있다

- 데이터를 분석한 결과를 확장 적용하기 위한 단계로 분석 모형 평가가 완료되고 최종 모형이 선정된 후 분석 모형을 운영 시스템에 전개하게 된다. 전개 방법은 운영 시스템이 어떻게 구성되어 있는지, 분석 모형이 어떤 툴 혹은 언어로 개발되어 있는지, 운영 요건은 어떠한지 등에 따라 다르게 적용될 수 있다

 

● 분석 결과 활용 시나리오 개발

- 분석 결과에 적합한 차트 및 시각화 도구를 선택한다

- 분석 결과의 인사이트 확보를 위한 주요 요소는 목적에 맞는 차트를 선택하는 것이다

- 업무 담당자에게 제공될 분석 결과를 위한 시각화 방법을 선택한다

- 분석 주제를 정의할 때 계획한 분석 결과 활용 방안 외에 비즈니스 관점을 통한 인사이트를 발굴한다

- 도출된 인사이트를 확대 적용할 수 있는 업무 영역과 방안을 검토한다

반응형

댓글

💲 추천 글