빅데이터분석기사 필기 기출문제 오답노트 두번째
스코어(정답갯수) : 80개 중 45개 (15 / 11 / 11 / 8)
[빅데이터분석기사 필기 기출문제 오답노트] # Part 01. 빅데이터 분석 기획
● 데이터 확보 계획 단계 (확보계획은 목.요.예.수)
- 목표 정의 -> 요구 사항 도출 -> 예산안 수립 -> 계획 수립
● 하둡 분산 파일 시스템(HDFS)의 특징
- 하나의 네임 노드와 여러 개의 데이터 노드로 구성되어 있다
- 다수의 저사양 서버를 이용해서 대용량의 공간을 저렴하게 구성할 수 있다
- 네임 노드는 디렉토리명, 파일명, 파일 블록 등에 대한 메타데이터를 관리하는 마스터 역할이다
- 저장하고자 하는 파일을 특정 크기의 블록 단위로 나누어 분산된 서버에 저장하고 데이터 유실을 방지하기 위해 블록을 3중으로 복제하여 저장한다
● 데이터의 품질 요소
- 정확성, 유효성, 완전성, 정합성, 유일성, 유용성, 적시성, 보안성, 안정성, 일관성
● 하향식 접근 방식의 분석 문제 정의
- 하향식 접근 방식의 분석 문제 정의는 문제 탐색, 분석 문제 정의, 해결 방안 탐색, 타당성 평가 및 과제 선정으로 진행되며 문제 탐색에서 도출된 비즈니스 문제를 데이터의 문제로 전환하는 단계는 분석 문제 정의 단계이다
● 빅데이터 분석 업무 수행 (빅데이터 분석 업무는 수.저.처.분.설.화)
- 데이터 수집 -> 데이터 저장 -> 데이터의 처리 -> 탐색적 데이터 분석 -> 모형 설계 -> 시각화 및 보고서
● 빅데이터 분석 방법론의 분석 기획 단계 수행 업무
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험 계획 수립
● KDD 분석 방법론의 분석 단계 (KDD 분석은 선.전.변.마.평)
- 데이터 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 해석과 평가
● 분석 업무의 우선순위 (시급성 기준)
- 난이도가 낮고 시급한 문제 -> 난이도는 낮지만 시급성은 떨어지는 문제 -> 난이도는 높고 시급성은 떨어지는 문제 -> 난이도는 높지만 시급한 문제
● 데이터 처리 기술
- 데이터 처리 기술에는 데이터 필터링, 데이터 변환, 데이터 정제, 데이터 통합, 데이터 축소 등이 있고 이 중 데이터 변환 기술에는 평활화, 집계, 일반화, 정규화, 속성 생성이 있다
● 빅데이터 저장 기술
- 구글의 구글 파일 시스템(GFS)은 마스터, 청크 서버로 구성되며 하둡 분산 파일 시스템은 네임 노드와 데이터 노드로 구성된다
- 맵리듀스(MapReduce)는 대용량 데이터를 저사양 서버로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해 개발된 프레임워크로 Map은 데이터를 분할하고 Reduce는 분할된 데이터를 재결합하는 단계이다
- 클라우드 컴퓨팅은 지역별 데이터 센터 등에서 온라인으로 데이터 저장 서비스를 제공하며 아마존의 AWS, 구글의 GCP, 마이크로소프트의 Azure 등이 대표적이다
- 아마존 AWS에서 제공하는 파일 시스템 저장소는 S3(Simple Storage Service)이다
[빅데이터분석기사 필기 기출문제 오답노트] # Part 02. 빅데이터 탐색
● 결측값
- 데이터가 비어 있는 경우를 확인하면 결측값 여부는 알기 쉽다
- 결측값이 있는 경우 다양한 대치(Imputation)법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있다
- 결측값이 20% 이상인 경우에는 해당 변수를 제거하고 분석하는 것이 바람직하다
- 관측치가 기록된 값을 결측값으로 처리하여 분석에 활용하는 것은 옳지 않다. 기본(default)값이 기록된 경우라도 그 값의 의미를 가지고 있기 때문에 결측값으로 처리하면 분석에 큰 오류로 작용할 수 있다
● 이상값
- 데이터를 측정 또는 입력하는 과정에서 잘못 기입된 이상값은 삭제 또는 대체, 변환한 후 분석한다
- 설명변수의 관측치에 비해 종속변수의 값이 상이한 값을 이상값이라고 한다
- 평균으로부터 표준 편차의 3배가 되는 점을 기준으로 이상값을 정의할 수 있다
- 군집 분석을 활용한 이상값 검출은, 주어진 데이터를 군집으로 묶고 군집으로 정의되지 않는 영역을 이상값으로 판단한다. 군집 분석은 단순히 거리상 멀리 떨어진 데이터를 이상값으로 판단하지 않는다
*거리상 멀리 떨어진 데이터를 이상값으로 판단하는 기법은 마할라노비스 거리(Mahalanobis Distance)를 활용한 이상값 판단 기법의 설명에 가깝다
● 변수 선택 기법
- 필터 기법(Filter Method)
- 래퍼 기법(Wrapper Method)
- 임베디드 기법(Embedded Method)
● 주성분 분석
- 차원 감소폭의 결정은 전체 변이의 공헌도, 평균 고윳값, scree plot 등을 이용하는 방법이 있다
- P개의 변수들을 중요한 M개의 주성분으로 표현하여 전체 변동을 설명하는 것으로, M개의 주성분은 원래 변수들의 선형 결합으로 표현된다
- 주성분 분석을 이용하는 주된 동기로 언급되는 것 중 차원의 저주가 있다. 데이터의 차원이 증가할 때, 데이터의 구조를 변환하여 불필요한 정보도 최대한 축적하는 차원 감소 방법이 필요하다
- 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약 및 축소하는 기법이며, 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어렵다
● 탐색적 데이터 분석(EDA)
- 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석
- 다양한 차원과 값을 조합해 가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해 나가는 과정
● 히스토그램
- 표로 되어 있는 도수분포표를 그래프로 나타낸 것
- 히스토그램에서는 가로축이 계급, 세로축이 도수를 나타낸다. 계급은 보통 변수의 구간이며, 서로 겹치지 않는다
- 봉우리가 여러 개 있는 데이터는 일반적으로 2개 이상의 조건에서 데이터가 수집되는 경우 발생한다
- 그래프의 모양이 한쪽에 치우쳐 있거나 봉우리가 여러 개 있는 그래프는 비정규 데이터일 수 있다
- 표본의 크기가 작으면 각 막대의 높이가 데이터 분포의 형상을 잘 표현해 내지 못한다
● 확률 및 확률 분포
- 모든 사건의 확률값은 0과 1 사이에 있다
- 서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합과 같다
- 두 사건 A, B가 독립이라면 사건 B의 확률은 A가 일어난다는 가정하에서의 B의 조건부 확률과 동일하다
- 연속형 확률변수는 가능한 값이 실수의 특정 구간 전체에 해당하는 확률변수이며 연속형 확률 밀도 함수를 가진다
● 측정 척도
- 명목 척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용
- 순서 척도 : 측정 대상의 특성이 가지는 서열 관계를 관측하는 척도
- 비율 척도 : 간격에 대한 비율이 의미를 가지는 자료로서 절대적인 기준 0이 존재하고 사칙연산이 가능
- 구간 척도 : 측정 대상이 갖는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료
● 표본조사
- 표본편의(sampling bias)는 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본 추출 방법에서 기인하는 오차를 의미
- 표본 편의는 확률화(randomization)에 의해 최소화하거나 없앨 수 있다. 확률화란 모집단으로부터 편의되지 않은 표본을 추출하는 절차를 의미하며 확률화 절차에 의해 추출된 표본을 확률 표본(random sample)이라 한다
- 표본 오차(sampling error)는 모집단을 대표할 수 있는 표본 단위들이 조사 대상으로 추출되지 못함으로서 발생하는 오차를 말한다
- 비표본 오차(non-sampling error)는 표본 오차를 제외한 모든 오차로서 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사 대상이 증가하면 오차가 커진다
● p-value
- 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제 확률
[빅데이터분석기사 필기 기출문제 오답노트] # Part 03. 빅데이터 모델링
● 데이터 마트 설계 및 구축
- 다양한 원천 시스템으로부터 분석 대상 데이터를 수집한다
- 데이터 전처리를 통해 변수들을 식별한다
- 전처리 결과 데이터를 적재한 데이터 마트를 구축한다
*분석 모형 학습 및 하이퍼파라미터 최적화는 모델링 단계에서 수행
● 다중 회귀 분석에서 독립변수가 지나치게 많을 경우
- 회귀식의 적합도나 타당도가 낮아진다
- 추정치의 표준 오차가 커진다
- 설명력이 작아진다
*독립변수의 수는 변수에 대한 영향력 비교와 무관하다
● 의사결정나무
- 부모마디 : 자식마디의 상위 마디
- 가지 : 하나의 마디로부터 끝마디까지 연결된 마디
- 깊이 : 가지를 이루는 마디의 개수
- 자식마디 : 하나의 마디로부터 분리된 2개 이상의 마디
● 정지규칙
- 의사결정나무에서 분리가 가능하지만, 분리를 멈추고 현재의 마디를 끝마디가 되도록 하는 규칙
● 계층적 군집 분석
- N개의 군집으로 시작하여 군집 간 거리를 기준으로 가장 가까운 군집끼리 병합한다
- 덴드로그램(Dendrogram)으로 표현할 수 있다
- 군집 수를 사전에 설정하지 않아도 된다
*k 평균 군집 분석은 비계층적 군집 분석의 한 방식
● MANOVA
- 각 집단의 공분산이 같아야 한다
- 2개 이상의 종속변수에 대한 분산 분석 방법이다
- 가정을 위배한 경우에는 Pilai's trace 통계량이 가장 유의한 결과를 출력한다
- 종속변수 간에 서로 상관관계가 있는 경우 결합된 차이를 확인할 수 있다
● 시계열 자료의 정상성(Stationary)
- 모든 시점에 대해 일정한 분산을 가진다
- 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다
- 시간에 따라 분산이 일정하지 않은 경우에는 변환을 통해서 정상 시계열로 바꿀 수 있다
- 평균이 일정하지 않은 경우 차분을 통해 정상화한다
● 합성곱신경망(CNN)
- 시각적 이미지를 분석하는 데 사용되는 심층신경망으로 대표적인 딥러닝 모형
● 부스팅
- 예측력이 약한 모형들을 결합하여 최종 예측 모형을 생성하는 앙상블 모형
- 오분류된 개체들에 가중치를 적용하고 새로운 모형을 학습하는 과정을 반복 수행
[빅데이터분석기사 필기 기출문제 오답노트] # Part 04. 빅데이터 결과 해석
● 수정된 결정 계수(adjusted R2)
- 수정된 결정 계수의 값은 항상 결정 계수보다 작다
- 유의한 독립변수를 추가하면 수정된 결정 계수의 값은 증가한다
- 독립변수 개수가 서로 다른 모형을 비교할 때 사용할 수 있다
- 유의한 독립변수를 모형에서 제거하면 수정된 결정 계수 값은 감소한다
● 혼동행렬 계산
- 정밀도 : 모형이 Positive로 예측한 데이터 중 실제 Positive인 데이터의 비율
- 정확도 : 전체 데이터 중 예측을 정확하게 한 데이터의 비율
- 재현율 : 실제값이 Positive인 데이터 중 모형이 Positive로 예측한 데이터의 비율
● 선형 회귀 모형의 가정과 진단 방법
- 독립성 : 더빈-왓슨 검정
- 등분산성 : 잔차 산점도를 봤을 때 잔차가 고르게 분포되어야 함
- 정규성 : 샤피로-윌크 검정, 콜모고로프-스미르노프 적합성 검정
- 선형성 : 잔차 산점도에서 선형성을 확인함
● k-fold 교차 검증
- 분석 모형 학습 시 과대적합을 피하기 위한 방법이다
- 분류 문제에서는 k-fold 교차 검증보다 층화(Stratified) k-fold 교차 검증이 더 선호된다
- 일반적으로 k 값은 5나 10을 사용한다
- 홀드아웃이 k-fold 교차 검증에 비해 학습 데이터 분할에 더 민감한 방법이다
*홀드아웃은 데이터를 학습 데이터와 검증 데이터로 어떻게 나누느냐에 따라 성능 값의 차이가 발생하는 반면, k-fold는 데이터를 여러 번 분할하여 성능을 계산한 후 평균값을 구하므로, 데이터 분할에 따른 성능 차이가 상쇄됨
● 카이제곱 검정
- 카이제곱 검정은 카이제곱 분포를 사용하는 검정 방법이다
- 관측치의 비율값이 기대되는 비율값과 같은지 검정하는 방법이다
- 범주형 데이터에 사용할 수 있는 검정 방법이다
- 두 개 이상의 변수가 독립인지 검정할 때도 사용할 수 있다
- 적합도 검정과 동질성 검정을 위해 사용할 수 있다
● 과대적합과 과소적합
- 분석 모형이 과대적합일 경우 일반화 성능이 좋지 않다
- 분석 모형이 과대적합일 경우 모형의 복잡도는 상대적으로 높다
- 분석 모형이 과소적합일 경우 학습 데이터에서는 성능이 낮게 나타난다
- 분석 모형이 과소적합일 경우 분석 모형이 필요한 패턴을 충분히 학습하지 못하였으므로, 학습 데이터와 검증 데이터 모두에서 낮은 성능을 보인다
● 배깅(Bagging)
- 먼저 학습 데이터에서 일정한 크기의 부트스트랩 샘플을 무작위로 복원 추출한다. 부트스트랩 샘플을 이용해서 분석 모형을 각각 학습한 후, 학습 결과를 종합하여 최종 분석 모형을 구한다. 일반적으로 회귀 모형의 경우에는 각 예측값을 평균하고, 분류 모형의 경우에는 예측 결과를 다수결로 종합한다
● 순열 변수 중요도(Permutation feature importance)
- 변수의 값을 무작위로 섞어서 해당 변수를 노이즈처럼 만드는 방법으로 변수 중요도를 평가한다
- 순열 변수 중요도는 다른 변수들과의 교호 작용도 포함한다
- 순열 변수 중요도를 구할 때마다 결과가 달라질 수 있다
- 변수 제거와 분석 모형 학습을 반복하는 일을 하지 않아도 된다는 장점이 있다
● 분석 모형 전개
- 자원이 충분하고, 준실시간으로 분석 결과를 적용해야 하는 업무에서는 분석 모형을 모듈화한 다음 인터페이스(interface)를 통해 모듈을 구동하고 직접 분석 결과를 불러오는 방안을 택할 수 있다
- 일배치로 분석 결과를 생성하는 경우에는 생성된 예측 결과 값을 RDB에 저장하거나 파일 형태로 저장한 후, 이를 불러오는 방안을 사용할 수 있다
- 데이터를 분석한 결과를 확장 적용하기 위한 단계로 분석 모형 평가가 완료되고 최종 모형이 선정된 후 분석 모형을 운영 시스템에 전개하게 된다. 전개 방법은 운영 시스템이 어떻게 구성되어 있는지, 분석 모형이 어떤 툴 혹은 언어로 개발되어 있는지, 운영 요건은 어떠한지 등에 따라 다르게 적용될 수 있다
● 분석 결과 활용 시나리오 개발
- 분석 결과에 적합한 차트 및 시각화 도구를 선택한다
- 분석 결과의 인사이트 확보를 위한 주요 요소는 목적에 맞는 차트를 선택하는 것이다
- 업무 담당자에게 제공될 분석 결과를 위한 시각화 방법을 선택한다
- 분석 주제를 정의할 때 계획한 분석 결과 활용 방안 외에 비즈니스 관점을 통한 인사이트를 발굴한다
- 도출된 인사이트를 확대 적용할 수 있는 업무 영역과 방안을 검토한다
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 네번째 (13) | 2023.04.03 |
---|---|
[빅데이터분석기사 필기 요약정리] : Part 01. 빅데이터 분석 기획 / 23년 제6회 시험 대비 (feat. 김계철 교수님) (9) | 2023.04.03 |
[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 세번째 (9) | 2023.04.02 |
[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 첫번째 (14) | 2023.03.30 |
[자격증] 2023년도 빅데이터분석기사 자격시험 일정 (5) | 2022.11.27 |
댓글