자격증/빅데이터분석기사

[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 네번째

방랑청년 2023. 4. 3.
반응형

빅데이터분석기사 필기 기출문제 오답노트 네번째

스코어 : 15 / 9 / 11 / 12 (80개 중 47개 - 59%)

5일 남았다. 화이팅 하자

 


● CRISP-DM 방법론 프로세스 (크리스피 이이준모평전)

- 업무(사업, 비즈니스) 이해 > 데이터 이해 > 데이터 준비 > 모델링 > 평가 > 전개

 

● 개인정보보호법

- 빅데이터 처리 사실 및 목적 등의 공개를 통해 투명성을 확보해야 한다

- 개인정보가 재식별될 경우 즉시 파기하거나 비식별화 조치를 추가로 취해야 한다

- 데이터 3법은 개인정보 보호법, 정보통신망법, 신용정보법의 개정안을 일컫는다

- 데이터 3법의 개정으로 가명정보의 개념을 도입하고, 가명정보 주체의 동의 없이 데이터를 활용하는 것이 가능해졌다

 

● FGI(Focus Group Interview)

- 관찰자의 역할을 가진 연구자가 6~12명 정도의 동질의 소수 집단을 대상으로 특정한 주제에 대한 자유로운 토론을 이끌어내 자료를 수집하는 방법

- 전문가 설문조사 후 온/오프라인 면담을 수행

 

● 데이터 수집 기술

- 스쿱(Sqoop) : 커넥터를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집

- API(Application Programming Interface) : 시스템 간 연동을 통해 실시간으로 데이터 수신할 수 있는 인터페이스 기술

- 크롤링(Crawling) : 다양한 웹 사이트에서 SNS, 뉴스 등의 웹 문서 및 콘텐츠를 수집

- FTP(File Transfer Protocol) : 원격지 시스템 간에 파일을 공유하기 위한 서버-클라이언트 모델로 TCP/IP 기반으로 파일을 송/수신하는 응용계층 통신 프로토콜

 

● 전이학습(Transfer Learning)

- 특정 분야에서 학습된 신경망을 유사하거나 다른 분야의 신경망 학습에 활용하는 방법

 

● 빅데이터 플랫폼 구조

- 빅데이터 플랫폼 구조는 소프트웨어 계층, 플랫폼 계층, 인프라스트럭처 계층으로 나뉨

- 소프트웨어 계층 : 데이터 수집, 처리, 분석 업무의 응용 S/W가 처리되는 영역

- 플랫폼 계층 : 작업 관리, 데이터 및 자원 할당/관리 등의 업무가 수행되는 영역

- 인프라스트럭처 계층 : 네트워크, 스토리지 등의 자원을 제공하고 관리하는 영역

 

● 병렬 DBMS의 특성

- 다수의 마이크로프로세서를 동시에 사용

- 데이터 처리가 빠르다는 장점이 있음

- 시스템 용량 확장이 쉬움

- 데이터를 일정 크기로 나누어 대규모 데이터 처리를 위해 병렬로 트랜잭션 처리를 하는 시스템

 

● 가설검정

- 가설검정에서 실험 전, 후의 집단이 동일할 경우 대응표본을 사용

- 체중의 변화가 아닌 줄어들었는지를 검정하는 것은 단측검정

 

● 공분산

- 두 확률변수의 공분산 Cov(X, Y) > 0이면 X 값이 상승할 때 Y 값도 상승하는 경향을 보임

- 두 확률변수 X, Y가 독립이면 공분산 Cov(X, Y)가 0임

- 공분산 값은 측정 단위에 따라 달라짐

- 두 확률변수 X, Y가 독립이면 공분산 Cov(X, Y) = 0 이지만, Cov(X, Y) = 0인 경우 X, Y가 항상 독립인 것은 아님

 

● 클래스 불균형 데이터 처리

- 임계값 조정, 언더샘플링, 오버샘플링 등을 통해 해결

*정규화는 데이터의 범위를 0과 1사이로 변환하여 데이터의 범위를 조정하는 데이터 스케일링 기법임

 

● 피어슨 상관계수 기반 변수를 제거하는 경우

- 상관계수가 큰 변수들이 존재할 경우 모델의 성능이 떨어지거나 불안정해질 수 있다. 피어슨 상관계수가 음 또는 양의 높은 상관관계를 가지는 경우 해당 변수를 제거해야 한다

 

● 막대 그래프의 데이터 수가 차이나는 경우

- 막대 그래프에서 각 클래스에 속한 데이터 수가 크게 차이나는 경우 클래스 불균형을 조정하는 전처리 기법을 수행

 

● 표본 분포

- 표본 크기가 커질수록 표본 평균의 분산이 0에 가까워진다

- 중심 극한 정리는 모집단의 분포와 상관없이 적용된다

- 모분산이 알려져 있지 않은 경우 정규분포 대신 t-분포를 사용할 수 있다

- 중심 극한 정리는 표본의 개수가 커지면 모집단의 분포와 상관없이 표본 분포가 정규 분포에 근사한다는 것이다

 

● 인코딩 기법

- 원 핫 인코딩을 적용하면 sparse한 데이터가 된다

- 레이블 인코딩은 각 범주를 숫자에 대치시킨다

- 원 핫 인코딩을 적용할 때보다 바이너리 인코딩을 적용할 때 모델 학습 속도가 더 빠르다

- 타깃 인코딩에서는 각 범주의 레이블 값이 학습 데이터에 존재하는 종속변수의 평균값으로 정해진다

 

● 데이터 변환 기술

- 집계(Aggregation) : 데이터를 요약한다

- 일반화(Generalization) : 데이터의 스케일을 변화시킨다

- 정규화(Normalization) : 데이터의 여러 통곗값을 사용한다

- 평활화(Smoothing) : 데이터에서 잡음을 제거한다

- 속성 생성(Attribute Construction) : 특정 속성을 추가한다

 

● 데이터 탐색

- 왜도가 0보다 크면 평균이 중위수보다 크다

- 산점도로 변수 간 상관관계를 확인할 수 있다

- 박스플롯 제1사분위는 25분률 데이터를 의미한다

- 박스플롯으로 이상치 존재를 파악할 수 있다

 

● 데이터 변수 척도

- 회귀분석을 위해 명목형 척도를 더미변수화한다

- 크기 구분(소형, 중형, 대형)은 순서형 척도다

- 데이터 값이 정수인 경우 수치형 척도에 해당한다

- 연속형 척도의 경우 평균, 표준편차와 같은 기술 통계량을 구할 수 있으며, 범주형 척도는 빈도수와 같은 기술 통계량을 구할 수 있다

 

● 확률분포

- 이산확률분포에는 이항분포, 포아송분포, 초기하분포가 있다

- 연속확률분포에는 지수분포가 있다

- 확률질량함수이산확률변수의 확률분포를 나타내는 함수이다

- 확률밀도함수면적이 그 구간에 해당하는 확률값이다

 

● 분석 모형 선정

- 데이터 특성에 따라 적용 가능한 분석 모형이 다르다

- 비지도 학습을 통해 데이터 패턴 도출이 가능하다

- 소셜 네트워크 분석으로 사회적 관계를 시각화할 수 있다

- 비용민감함수(비용민감학습)는 소수 클래스에 더 큰 가중치를 주는 방법으로 주로 불균형 데이터에 사용된다

 

● 데이터 증강(Data Augmentation)

- 데이터 증강은 기존의 데이터를 조금씩 변형, 추가하여 데이터 수를 늘림으로써 모델의 과적합을 방지할 수 있어 드롭아웃과 동일한 효과를 가져온다

 

● k-fold 교차 검증

- stratified k-fold 교차 검증은 분류 데이터셋에서 사용된다

- 평가 데이터를 제외한 나머지 데이터는 검증에 최소 한 번 사용된다

- 모델의 일반화 성능을 향상시킬 수 있다

- 평가 데이터셋을 제외한 나머지 데이터를 k 등분하고 (k-1)개 데이터는 훈련 데이터, 나머지 한 개는 검증 데이터로 사용하고, 검증 데이터를 바꾸어가며 이 과정을 k번 수행하는 방법이다

 

● 인공신경망 모형의 과적합 방지 방안

- 학습 데이터 수를 늘린다

- 가중치 규제를 적용한다

- 학습 시 early stopping을 적용한다

 

● Text To Vector 변환 기법

- One-hot encoding

- TF-IDF

- Word Embedding

 

● 로지스틱 회귀 분석

- 로지스틱 회귀는 종속변수의 범주가 세 개 이상일 때도 적용할 수 있으며, 이 때는 '다항 로지스틱 회귀'라고 지칭한다

- Odds는 어떤 사건이 발생할 확률을 발생하지 않은 확률로 나눈 비율로 0~무한대의 범위를 갖는다

- 로지스틱 회귀는 종속변수가 이항분포를 따른다고 가정한다

- y값이 0~1 사이 값을 가지고 이진 분류한다

 

● ARIMA 모형

- 정상성을 보이는 시계열은 추세나 계절성이 없다

- AR모델은 변수의 과거 값을 이용한다

- MA모델은 과거 예측 오차를 이용한다

- 백색 잡음 과정은 대표적인 정상 시계열로 서로 독립적이고 동일한 분포를 따른다

 

● 주성분 분석

- 고차원 데이터를 저차원으로 변환한다

- 주성분끼리는 서로 직교한다

- 주성분은 기존 변수들의 선형결합으로 이루어져 있다

- 변수의 수, 표본의 수는 주성분 분석 가능 여부와 관계없다

 

● 비모수 검정

- 윌콕슨 순위합 검정은 중위수의 차이를 비교한다

- 크루스칼-왈리스 검정은 분산 분석에서 정규성 가정이 만족되지 않을 때 사용한다

- 일반적으로 모수 검정보다 검정력이 떨어진다

- 만-휘트니 검정은 윌콕슨 순위합 검정과 동일한 방법으로 두 집단의 중위수 차이를 검정할 때 사용한다

 

● 신뢰도 **좀 외우자

- 신뢰도는 A 상품을 샀을 때 B 상품을 살 조건부 확률에 대한 척도이다. A와 B를 모두 포함하는 거래 수를 A를 포함한 거래 수로 나누어 계산한다

 

● 요인 분석

- 고차원의 데이터를 저차원으로 축소한다

- 변수들의 상관관계를 기반으로 공통의 요인을 찾는다

- 요인 회전 방법에는 VariMax, QuartMax, EquaMax, Oblimin, ProMax 등이 있다

- 요인 분석 결과로 만들어진 새로운 변수들은 서로 대등하다

 

● 독립변수와 종속변수 척도에 따른 통계분석 방법

- T-검정은 수치형 종속변수와 2개 범주의 독립변수를 사용하여 분석하는 방법이다

- 로짓모형은 범주형 종속변수와 범주형 및 수치형 독립변수를 사용하여 분석하는 방법이다

- 카이제곱검정은 범주형 종속변수와 범주형 독립변수를 사용하여 분석하는 방법이다

- 공분산 분석독립변수 이외의 잡음인자를 통계적으로 제어(공변량)하고 범주형 독립변수와 연속형 종속변수의 상관관계를 분석하는 방법

 

● 회귀모형

- 다중회귀모형에서 통계적 유의성을 확인하는 방법은 F-통계량이다

- 다중공선성 문제는 설명 변수들 사이에 선형 관계가 존재하면 발생한다

- 회귀모형의 변수선택법에는 전진선택법, 후진제거법, 단계적선택법 등이 있다

- 독립변수가 2개 이상이고 회귀계수가 2차 이상이면 다항회귀 모형이다

 

● 의사결정나무 분석 결과에서 뿌리노드만 남는 이유

- 의사결정나무에서 마디의 순수도는 증가하고 불순도는 감소하는 방향으로 노드가 분리된다. 변별력 있는 변수가 없으면 노드분리가 안 되어 뿌리노드만 남게 된다

 

● 데이터 분석 결과 산출물

- 분석 계획서, 변수 정의서, EDA 보고서, 분석 결과 보고서, 분석 모델 등이 존재

 

● ROC Curve

- 구성지표 : 민감도, 특이도

- ROC 곡선은 임곗값(Threshold)을 0에서 1까지 변화시켜 가면서 x축에는 거짓 긍정률(FPR)을, y축에는 참 긍정률(TPR)을 표시해서 그린 곡선이다. 거짓 긍정률은 (1-특이도)와 같은 값을, 참 긍정률은 민감도와 동일한 값을 갖는다

 

● 분류모형 평가

- 혼동행렬에서 모델이 참으로 예측한 수는 TP+FP로 구할 수 있다

- F1-score는 정밀도와 재현율의 조화평균 값이다

- AUC 값이 1에 가까울수록 분류 모델의 성능이 좋다

- 혼동행렬은 모델 예측 값과 실제 값의 조합을 교차 표 형태로 나타낸 것이다

 

● 일반화 선형 모형(GLM)

- 반응변수가 이항분포이면 연결함수로 logit 함수를 사용한다

- 종속변수의 정규성이 성립하지 않아도 사용할 수 있다

- 로지스틱 회귀가 대표적인 일반화 선형 모형이다

 

● 재현율

- TP/(TP+FN)

 

● 분석 모형 해석

- 예측 분석은 현재 분석 결과를 통해 미래를 예측한다

- 의사결정나무는 설명력이 좋은 모델이다

- 지지도, 향상도 등은 연관성 분석의 성능을 평가하는 지표이다

- 연관성분석이 아닌 상관분석을 통해 두 변수 간의 선형관계를 알 수 있다

 

● 벌점화 회귀

- 벌점화 회귀는 회귀계수에 벌점을 적용하여 모형의 복잡도를 낮추는 회귀분석 방법이다. ridge 회귀, lasso 회귀 등이 있다

 

 

반응형

댓글

💲 추천 글