빅데이터분석기사 필기 기출문제 오답노트 첫번째
스코어(정답갯수) : 평균 50.5점 (10 / 9 / 9 / 12)
(각성하자)
[빅데이터분석기사 필기 기출문제 오답노트] # Part 01. 빅데이터 분석 기획
● 데이터 변환 기법
- 평활화 : 데이터의 노이즈를 구간화, 군집화 등으로 다듬는 것
- 일반화 : 다양한 차원으로 요약하는 집계, 특정 구간으로 값을 스케일링
- 정규화 : 정해진 구간으로 전환
● 조직 성과 평가 절차 (설.모.조.평.결)
- 목표 설정 -> 모니터링 -> 목표 조정 -> 평가 실시 -> 결과의 피드백
● DIKW
- D(데이터) : 객관적 사실로서 가공하기 전의 순수한 수치나 기호
- I(정보) : 데이터 간의 연관 관계와 함께 의미가 도출된 데이터
- K(지식) : 다양한 정보를 구조화하여 유의미한 정보로 분류하고 일반화시킨 결과물
- W(지혜) : 지식의 축적으로 도출되는 창의적 아이디어
● 개인정보제도
- 개인정보보호법 : 개인정보 처리 과정상의 정보 주체와 개인정보 처리자의 권리, 의무 등을 규정
- 정보통신망법 : 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정
- 개인정보보호 가이드라인 : 공개된 개인정보 또는 이용내역정보의 수집, 저장, 분석 등에 있어 이용자의 프라이버시를 보호하고 안전한 이용환경을 조성하기 위한 가이드라인
- 신용정보법 : 개인 신용정보의 취급 단계별 보호조치 및 의무사항에 관한 규정
● 데이터 분석가의 스킬
- 소프트스킬 : 분석의 통찰력, 여러 분야의 협력 능력, 설득력 있는 전달력
- 하드스킬 : 빅데이터 관련 이론적 지식, 분석기술의 숙련도
● 데이터 수집 프로세스 (도.목.기.분.선.작.정.수)
- 수집 데이터 도출 -> 수집 데이터 목록화 -> 데이터 소유 기관 확인 및 협의 -> 데이터 유형 확인 및 분류 -> 데이터 수집 기술 선정 -> 수집 계획서 작성 -> 수집 주기 정의 -> 데이터 수집
● 하둡 에코시스템
- 비정형 데이터 수집 : Apache, Chukwa, Apache Flume, Scribe
- 정형 데이터 수집 : Apache Sqoop
- 분산 데이터 저장 기술 : HDFS
- 분산 데이터베이스 : Apache HBase
*ETL(Extraction Transformation Loading)은 데이터 웨어하우스에서 주로 사용하는 데이터 전송 기술
**BigQuery는 Google Cloud의 서버리스 데이터 웨어하우스 서비스
● NoSQL
- 데이터 저장에 스키마가 필요하지 않고 조인(Join) 연산을 사용할 수 없지만 수평적으로 확장이 가능한 DB이다
- NoSQL의 종류에는 MongoDB, Cassandra, DynamoDB, HBase 등이 있다
- NoSQL의 유형에는 데이터 저장 모형에 따라 Key Value Database, Document Database, Wide Column Database, Graph Database로 구분된다
- NoSQL은 고정된 스키마 없이 자유롭게 데이터베이스에 필드를 추가할 수 있다
● 빅데이터 요구 사항 분석 절차 (수.분.명.검)
- 요구 사항 수집 -> 요구 사항 분석 -> 요구 사항 명세 -> 요구 사항 검증
● 분석 문제 해결 방안
- 최적화 : 분석 대상과 분석 방법을 알 경우 개선을 통한 최적화
- 솔루션 : 분석 대상은 알지만 분석 방법을 모를 경우 분석 주제에 대한 솔루션 탐색
- 통찰 : 분석 대상이 무엇인지 명확히 모르지만 기존에 알고 있는 분석 방법을 활용하여 새로운 통찰을 도출
- 발견 : 분석의 대상과 방법을 모두 모를 경우 분석의 대상을 탐색하여 발견
● 분석문제 정의를 통한 과제 발굴
- 하향식 접근 방식 : 문제가 정의되어 주어지고 이에 대한 해결 방법을 찾기 위해 단계적으로 업무를 수행하는 방식으로, 기업 내외부 환경을 포괄하는 비즈니스 모델의 업무 단위로 문제를 발굴하거나 외부 사례를 벤치마킹하여 분석 기회를 발굴하는 방법
- 상향식 접근 방식 : 문제를 정의할 수 없는 경우 데이터를 기반으로 문제를 정의하고 해결 방안을 탐색하는 방식으로, 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정으로 객관적인 데이터를 통해 비즈니스를 이해하려는 방식
[빅데이터분석기사 필기 기출문제 오답노트] # Part 02. 빅데이터 탐색
● 데이터 결측값의 종류
- 완전 무작위 결측(MCAR : Missing Completely At Random)
- 무작위 결측(MAR : Missing At Random)
- 비 무작위 결측 (NMAR : Not Missing At Random)
● 결측값 대체
- 핫덱(Hot-Deck) 대체 : 무응답에 대한 결측값을 현재 진행 중인 설문 조사에서 비슷한 성향을 가진 다른 응답자 데이터로 대체하는 방법
- 콜드덱(Cold-Deck) 대체 : 대체할 데이터를 현재 진행 중인 설문 조사에서 얻는 것이 아니라, 외부 출처나 다른 설문 조사의 데이터로 대체하는 방법
● 상자 그림(Box-plot)을 활용한 이상값 판단
- 하한값 : Q1 - 1.5IQR
- 상한값 : Q3 + 1.5IQR
● 마할라노비스 거리
- 데이터의 분포를 고려한 거리 측도로서, 데이터 관측치가 평균으로부터 벗어난 정도를 측정하여 이상값을 검출하는 통계 기법
● 래퍼 기법(Wrapper Method)
- 변수 일부만을 모델링에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수를 선택해 나가는 기법
● 임베디드 기법(Embedded Method)
- 라쏘(LASSO) : 가중치의 절댓값의 합을 최소화하는 것을 추가적인 제약 조건으로 하는 방법
- 릿지(Ridge) : L2 - norm을 통해 제약을 주는 방법
- 엘라스틱 넷(Elastic Net) : 라쏘(LASSO)와 릿지(Ridge) 두 개를 선형 결합한 방법
- SelectFromModel : 의사결정나무 기반 알고리즘에서 피처를 추출하는 방법
● 차원축소 기법
- 주성분 분석(PCA : Principal Component Analysis)
- 특이값 분해(SVD : Singular Value Decomposition)
- 요인분석/독립 성분 분석(ICA : Independent Component Analysis)
- 다차원 척도법(MDS : Multi - Dimensional Scaling)
● 변수 변환 방법
- 단순 기능 변환
- 비닝
- 정규화
- 표준화
● 불균형 데이터 처리 방법
- 과소표집(Under-Sampling)
- 과대표집(Over-Sampling)
- SMOTE(Synthetic Minority Oversampling Technique)
● 탐색적 데이터 분석의 4가지 특성
- 저항성(Resistance)
- 잔차(Residual) 해석
- 자료의 재표현(Re-expression)
- 현시성(Representation)
● 기초통계량 관련
- 평균은 이상값에 의한 값의 변동이 중위수보다 심하다
- 범위는 데이터의 최댓값과 최솟값의 차이로 구할 수 있다
- 중위수는 변수의 개수가 홀수일 때 (n+1)/2 번째 값이다
- 사분위수 범위는 제3사분위수(Q3)에서 제1사분위수(Q1)를 뺀 값으로 데이터 중심에서 흩어진 정도를 파악할 수 있다
● 데이터 분포에 따른 크기
- 왼쪽 꼬리 분포 : 평균 < 중위수 < 최빈값
- 오른쪽 꼬리 분포 : 최빈값 < 중위수 < 평균
*편포에 상관없이 중위수는 항상 가운데에 위치
● 층화 추출(Stratified Random Sampling)
- 모집단을 어떤 특성에 따라 서로 겹치지 않는 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식
● 확률 분포의 종류
- 이산확률분포 : 이항분포, 포아송분포
- 연속확률분포 : 정규분포, 표준정규분포(Z-분포), t-분포, 카이제곱분포, F-분포
● p-값(p-value)
- 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률값으로 산출된 p-값이 작을수록 표본이 모수에 대하여 귀무가설을 기각할 증거를 충분히 제공한다는 의미로도 해석할 수 있다
[빅데이터분석기사 필기 기출문제 오답노트] # Part 03. 빅데이터 모델링
● 자기조직화지도(SOM)
- 군집화와 차원 축소를 동시에 수행할 수 있는 분석 모형
● F-통계량
- 다중 회귀 모형에 개별 회귀 계수를 검정하는 것과 별개로, 전체 회귀 계수가 의미 있는지에 대해 모형의 유의성 검정이 필요한 경우 활용
● 로지스틱 회귀 분석
- 로지스틱 회귀 분석은 종속변수가 범주형 데이터일 때 사용
● CHAID
- 분리 기준으로는 카이제곱 통계량을 사용하고, 분리 방법은 다지분리를 사용하는 의사결정나무 알고리즘
● 단층 퍼셉트론을 통해 연산 가능한 문제
- OR 연산
- AND 연산
- NAND 연산
*단층 퍼셉트론은 XOR 연산을 해결하지 못해 등장한 것이 은닉층을 포함하는 다층 퍼셉트론이다
● 서포트벡터머신을 구성하는 요소
- 서포트벡터
- 결정 경계
- 초평면
*지니 지수는 의사결정나무의 불순도 지표이다
● 연관 분석
- 연관분석은 기업의 데이터베이스에서 상품의 구매, 서비스 등의 거래 또는 사건 간의 규칙을 발견하기 위해 적용하며, 장바구니 분석, 서열 분석이라고도 불린다. 연관 분석은 연관규칙 분석, 연관성 분석, 연관규칙 학습 등 다양한 용어로 활용된다
● k-평균 군집 알고리즘
- 군집화 결과는 덴드로그램(dendrogram) 형태로 표현할 수 없다
- 알고리즘이 단순하고 학습이 빨라 대용량 데이터를 학습하기에 계층적 군집보다 적합하다
- 초기값을 지정해주어야 한다
- 군집 형성 과정에서 군집에 속한 개체는 어느 군집에 속하더라도 이후에 다른 군집으로 바뀔 수 있다
● 시계열 데이터의 정상성
- 시점에 상관없이 시계열 특성이 일정한 것을 의미
- 평균이 일정
- 분산이 시점에 의존하지 않음
- 공분산은 시차에만 의존하고 시점에는 의존하지 않음
● LSTM 모형
- 순환신경망(RNN)의 경사소멸 문제와 장기의존성 문제를 보완
● 매개중심성
- 다른 노드들 사이의 위치하는 정도를 나타내는 지표다. 지나는 경로가 많을수록 매개중심성이 높다
● 배깅(Bagging)
- 배깅은 부스팅에 비하여 병렬처리가 쉽다
- 데이터의 사이즈가 작거나 결측값이 있는 경우 유리한 방법이다
- 랜덤포레스트는 배깅을 사용한 대표적인 앙상블 모형이다
*잘못 분류한 데이터에 높은 가중치를 부여하는 앙상블 기법은 부스팅(Boosting) 임
● 비모수 통계 검정
- 윌콕슨 순위 합 검정은 두 집단 간의 중위수를 비교하는 비모수적 통계 방법이다
- 크루스칼-왈리스 검정은 순위 기반 일원분산분석(one-way ANOVA on ranks)이라고도 한다
- 런 검정에서 런(Run)은 표본의 부호가 바뀔 때까지의 묶음을 의미한다
- 부호검정은 부호(Sign)만을 기준으로 모집단의 중위수를 검정하는 비모수적 통계 방법이다
[빅데이터분석기사 필기 기출문제 오답노트] # Part 04. 빅데이터 결과 해석
● 재현율(Recall)
- 실제값이 Positive인 데이터 중 모형이 Positive로 예측한 데이터의 비율
- TP / (TP + FN)
● 거짓 긍정률(FPR, False Positive Rate)
- 실제 Negative 인 데이터 중 Positive로 잘못 예측한 데이터의 비율 (1-특이도)
● 민감도(Sensitivity)
- 실제 Positive인 데이터 중 모형이 Positive로 예측한 데이터의 비율
● 선형회귀 모형의 가정
- 등분산성 : 오차항의 분산은 등분산이어야 한다
- 선형성 : 종속변수는 독립변수의 선형 함수여야 한다는 가정이다
- 정규성 : 오차항의 평균은 0이다
- 독립성 : 독립변수 사이에는 상관관계가 없어야 한다
● z-검정
- z-검정은 정규 분포를 가정한다
- z-검정의 귀무가설은 표본 평균이 모집단의 평균과 같다는 것이다
- 표본이 서로 독립적이어야 한다
- 모집단의 분산을 알아야 한다
● 카이제곱검정
- 범주형 데이터에 사용되며 데이터가 예상되는 분포에 얼마나 잘 맞는지를 검정한다. 이때 귀무가설은 '데이터가 특정 확률을 따른다'이며, 반대로 대립가설은 '데이터가 특정확률을 따르지 않는다'가 된다
● 유연성이 큰 분석 모형
- 유연성이 큰 분석 모형은 상대적으로 복잡한 모형이다. 복잡한 모형은 편향은 작고 분산은 크게 나타난다
● 학습률(Learning rate)
- 학습률은 다음 지점으로 이동할 때 얼마나 이동할지를 결정하는 초매개변수이다. 학습률이 너무 작으면 최적의 가중치를 찾는 데 시간이 오래 걸리거나 지역적 최솟값에서 학습이 멈출 수 있다. 반면 학습률이 너무 크면 최솟값을 벗어나 큰 값으로 발산하는 문제가 생길 수 있다
● 모멘텀(Momentum)
- 확률적 경사하강법의 매개변수 변경 방향에 가속도를 부여해 주는 방식
● 보팅(Voting)
- 여러 개의 분석 모형 결과를 종합하는 방법이다. 많이 선택된 클래스를 최종 결과로 예측하는 방법을 직접 투표(Hard voting)방식이라고 한다. 각 모형의 클래스 확률값을 평균 내어 확률이 가장 높은 클래스를 최종 결과로 예측하는 방법을 간접 투표(Soft voting)방식이라고 한다
● 부스팅(Boosting)
- 약한 분석 모형을 여러 개 연결하여 강한 분석 모형을 만든다
- Adaboost, lightGBM 등의 알고리즘이 해당한다
- 매 학습마다 데이터에 가중치를 업데이트하는 과정이 필요하다
- 잘못 분류된 데이터에 가중치를 부여하여 분석 모형이 더 잘 분류할 수 있도록 하는 방식이다
● 정보 구조화
- 데이터를 수집하고 정제하면서 시각화의 목표가 될 만한 것을 발견하거나 설정하는 단계다. 데이터를 유사한 것 끼리 묶거나 재배열을 함으로써 데이터의 패턴을 찾아낸다. 데이터 분석 프로젝트에서는 데이터 멍잉(munging) 과정(원 데이터를 정리 및 변환하여 패턴을 식별하거나 특정 정보를 추출하는 과정)이 이 단계에 해당한다고 볼 수 있다
● 분석 모형 리모델링 단계
- 기존 분석 모형 분석
- 데이터 수집 및 전처리
- 분석 모형 학습 및 검증
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 네번째 (13) | 2023.04.03 |
---|---|
[빅데이터분석기사 필기 요약정리] : Part 01. 빅데이터 분석 기획 / 23년 제6회 시험 대비 (feat. 김계철 교수님) (9) | 2023.04.03 |
[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 세번째 (9) | 2023.04.02 |
[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 두번째 (14) | 2023.04.02 |
[자격증] 2023년도 빅데이터분석기사 자격시험 일정 (5) | 2022.11.27 |
댓글