빅데이터분석기사 필기 요약정리 입니다
원래는 정리해서 출퇴근길에 보는 목적인데
시험도 며칠 안남았고, 하필 요즘 일이 바빠서
다른걸 생각할 겨를이 없네요...
그래도 며칠 안남았으니, 포기하지 말고
우리 모두 화이팅 하자구요!
[빅데이터분석기사 필기 요약정리] : Part 02. 빅데이터 탐색 # [중요도 - ★★★]
1. 변수선택(Feature Selection)과 변수추출(Feature Extraction) 개념 (차원축소 유형)
구분 | 내용 |
변수선택 | - 변수선택은 관련이 없거나 중복되는 변수들을 필터링하고 간결한 하위집합(subset)을 생성하는 방법 - 많은 수의 변수를 가진 데이터에서 변수선택은 차원감소에 효과적이며 머신러닝 알고리즘의 성능을 향상시킴 |
변수추출 | - 변수추출은 기존 변수들의 조합으로 유용한 변수들을 새롭게 생성하는 과정 - 고차원의 원본 변수 공간을 저차원의 새로운 변수 공간으로 투영 - 변수선택은 목적 속성에 가장 영향을 미치는 일부 속성을 선택해 차원을 줄이는 방법으로 변수추출은 속성의 특성을 모두 고려해 원하는 수만큼 줄임 |
2. 차원축소 기법(PCA, SVD, LDA, FA)
구분 | 내용 |
주성분분석 (PCA) |
- 여러 차원의 변수를 대표하는 차원의 주성분을 생성하여 전체 변동의 대부분을 설명하고자 하는 알고리즘 - 변수 간의 상관관계가 있는 고차원 데이터를 저차원 데이터로 변환하여 데이터 복잡성을 줄이고 데이터 분석의 성능 효율성과 효과성을 높임 - 여러 차원 변수의 분산이 가장 높은 축을 첫 번째 주성분으로 도출 - 상호 직교하는 성격을 가짐 |
선형판별분석 (LDA) |
- 주성분 분석과 달리 데이터를 최적으로 분류하여 차원을 축소하는 방법(주성분 분석은 데이터를 최적으로 표현) - 정량적 자료로 측정된 독립변수들을 이용하여 명목형 자료로 된 종속변수의 집단 구분을 예측하는 데 활용 |
특이값분해 (SVD) |
- 주성분 분석과 유사한 행렬 분해 기법 사용. 다만, 주성분 분석과 달리 행과 열의 크기가 다른 M*N 차원의 행렬 데이터를 적용하여 특이값을 추출하고 이를 통해 주어진 데이터를 효과적으료 축약 |
요인분석 (FA) |
- 데이터 안에 관찰할 수 없는 잠재적인 변수가 존재할 때, 모형을 세운 뒤 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법 - 변수들의 상관관계를 고려하여 서로 유사한 변수들끼리 묶어 주는 방법 |
독립성분분석 (ICA) |
- 다변량의 신호를 통계적으로 독립적인 하부성분으로 분리하여 차원을 축소하는 기법 - 독립 성분의 분포는 비정규 분포를 따르게 되는 차원 축소 기법 - 데이터의 상관관계뿐만 아니라 더 높은 차수의 상관관계까지도 없앨 수 있으며, 결국 차원들 간의 관계를 독립적으로 변환시키는 방법 |
다차원척도법 (MDS) |
- 군집 분석과 마찬가지로 데이터에 내재된 구조를 찾아내어 자료를 함축적으로 표현하는 분석 기법 - 개체들 사이의 유사성과 비유사성을 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현함으로써 개체들 사이의 집단화를 시각적으로 표현 |
3. 정규변환 방법
방법 | 설명 |
로그 변환 |
- 데이터 분석을 하기 위해 Log를 취하는 이유는 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함 - 데이터 간 편차를 줄여 왜도와 첨도를 줄일 수 있기 때문에 정규성이 높아짐 - 큰 값 쪽으로 치우침을 갖고 있는 분포를 로그 변환하게 되면 중앙을 중심으로 대칭적 패턴을 보임 - 로그변환은 큰 수를 작게 만들 경우와 복잡한 계산을 간편하게 만들 경우에 사용 |
제곱근 변환 |
- 제곱변환의 역변화이기 때문에 오른쪽 긴 꼬리를 갖는 분포 대칭화에 유용 - 정규분포모양에 제곱근변환을 하게 되면 반대로 왼쪽 긴 꼬리를 갖게 됨 |
지수 변환 |
- 지수함수는 작은 숫자의 크기를 크게 넓혀주는 역할을 함 - 오른쪽 부분이 넓어지고 왼쪽부분은 좁혀지는 분포로 변환됨 |
BoxCox 변환 |
- 주된 용도는 데이터를 정규분포에 가깝게 만들거나 데이터의 분산을 안정화 하는 것으로, 정규성을 가정하는 분석법이나 정상성을 요구하는 분석법을 사용하기에 앞서 데이터의 전처리에 유용하게 쓸 수 있음 - Yeo-Jonhson 변환과 비교하여 0 혹은 음수인 경우에 적용에 한계가 있음 |
4. 데이터 스케일링 방법
- 인공지능 학습을 위해 데이터를 입력할 때 데이터 별로 그 데이터 값들의 범위가 다르다면 컴퓨터가 이해하기 어렵게 됨
- 각 변수들의 범위 혹은 분포를 같게 만드는 작업
- 주의할 점은 입력변수만 스케일링을 하고 결과 변수는 스케일링을 하지 말아야 함
5. 검정의 오류
- 제1종 오류 : 제1종 오류란 귀무가설 H0가 실제로는 사실이어서 채택해야 함에도 불구하고 표본오차 때문에 이를 거부하는 오류를 말함
- 제2종 오류 : 제2종 오류란 귀무가설 H0가 실제로는 허위라서 거부해야 함에도 불구하고 표본오차 때문에 이를 채택하는 오류를 말함
[빅데이터분석기사 필기 요약정리] : Part 02. 빅데이터 탐색 # [중요도 - ★★]
1. 결측값의 유형
종류 | 특징과 예시 |
완전 무작위 결측(MCAR) | - 다른 변수와 무관하게 발생한 결측값 - 데이터가 충분히 큰 경우, 무작위 표본 추출을 통해 모수를 대표하는 데이터를 구성할 수 있음 예) 데이터를 입력할 때 고의성 없이 입력을 빠뜨린 경우 |
무작위 결측 (MAR) | - 결측값이 다른 변수와 연관이 있음 - 결측값이 결과 분포에 영향을 미치지 않는 경우 예) 체중에 대한 설문조사 실시 결과 남성보다 여성의 결측값이 높게 나온 경우, 결측값에 따라 체중 분포 분석 결과에 영향은 없음 |
비무작위결측 (NMAR) |
- 결측값이 다른 변수와 연관이 있음 - 결측값이 결과 분포에 영향을 미치는 경우 예) 임금 분포에 대한 설문조사 실시 결과 임금이 낮은 사람의 응답 확률이 낮아 결측이 발생한 경우, 결측값에 따라 임금 분포 분석 결과에 영향을 미침 |
2. 이상값의 측정 방법
- ESD(Extreme Studentized Deviation) : 평균으로부터 표준편차*3 만큼 떨어진 값을 이상값으로 판단
- 기하평균활용 : 기하평균으로부터 표준편차*2.5만큼 떨어진 값을 이상값으로 판단
- 사분위수활용 : 제1사분위, 제3사분위를 기준으로 사분위 간 범위(Q3 – Q1)의 1.5배 이상 떨어진 값을 이상값으로 판단
- 데이터 시각화 : 히스토그램, 시계열 차트, 밀도차트, 상자그림 등
- 분석 기법 활용 : 비지도 학습, 마할라노비스 거리 활용, LOF, iFOREST
3. 래퍼 기법의 변수 선택방법
- 전진 선택법 : 모든 독립변수 중, 종속변수에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하여 모형을 선택. 비어 있는 상태에서 시작하여 변수 추가 시 모형 적합도(AIC)가 향상되지 않으면 변수 추가를 중단함
- 후진 제거법 : 모든 독립변수가 포함된 상태에서, 종속변수에 가장 적은 영향을 줄 것으로 판단되는 변수부터 하나씩 제거하여 모형을 선택. 모두 포함되어 있는 상태에서 시작하여 변수 제거 시 모형 적합도(AIC)가 향상되지 않으면 변수 제거를 중단함
- 단계적 방법 : 전진 선택법과 후진 제거법을 함께 사용하는 방법. 전진 선택법으로 유의미한 변수를 추가하고, 기존 변수와 추가된 변수에 후진 선택법을 적용하여 유의성이 낮은 변수를 제거함
4. 임베디드 메소드(Embedded Method)의 릿지, 라쏘 개념 구분
구분 | 내용 |
Ridge (능형회귀) |
- 회귀계수들의 제곱합이 특정값 이하로 제약 - 회귀 모수에 대해 축소추정과 함께 모든 예측변수를 모형에 참여시키며 변수선택의 기능은 없음 - L2 – norm 이라 함 |
Lasso 회귀 | - 회귀계수들의 절댓값의 합이 특정값 이하로 제약 - 축소추정과 변수 선택의 기능을 동시에 가짐 - L1 - norm |
5. 차원축소의 문제점과 차원의 저주
<문제점(변수가 많을 때) – 차원의 저주>
- 자원이 많이 필요 : 차원이 커질수록 컴퓨터가 계산하는 시간이 증가하게 되고, 불필요한 값들을 저장해야 하는 공간이 필요하게 되어, 더 적은 자원으로 동일한 목적을 달성할 수 있는 모델이 효율적이라 할 수 있음
- 오버피팅 발생 : 차원이 커질수록 모델은 정교해지지만 복잡해져, 모델이 복잡해지면 새로운 데이터에 대한 오차가 커지는 문제점이 발생
- 설명력 저하 : 차원이 큰 모델들은 복잡해서 모델의 내부 구조를 이해하기 어려움, 즉 모델이 내놓은 결과를 사람이 이해할 수 있도록 표현하는 것이 어려워지게 됨
6. 언더샘플링(Under-Sampling) 정의 및 종류
- 소스 클래스의 샘플 수에 맞도록 다수 클래스의 샘플들을 제거하는 방식
- 데이터를 제거하기 때문에 정보의 손실을 초래하게 된다는 문제점이 있음
- Random Under Sampling, Tomek Link, CNN
7. 오버샘플링(Over-Sampling) 정의 및 종류
- 언더샘플링과는 반대로 다수 클래스 샘플개수에 맞춰 소수 클래스를 위한 샘플을 생성하는 방식으로 정보 손실을 피할 수 있으나 과적합을 초래할 수 있음
- Random Over Sampling, ADASYN(Adaptive Symthetic Sampling), SMOTE
8. 비대칭도에 따른 최빈수, 중앙값, 평균의 크기
- 오른쪽꼬리분포 : 왜도 > 0, 최빈값 < 중위수 < 평균
- 왼쪽꼬리분포 : 왜도 < 0, 평균 < 중위수 < 최빈값
9. 박스플롯 정의 및 시각화 해석
- 산포도의 통계량인 최댓값, 최솟값, 중위수, 제3사분위수(Q3), 제1사분위수(Q1)를 활용하여 도식화한 그래프
- 데이터의 범위를 직관적으로 확인할 수 있으며, 통계적으로 이상값을 빠르게 파악하는 데 용이한 시각화 기법
<구성요소>
- 하위경계 : 제1사분위수(Q1)에서 1.5*IQR을 뺀 아래 지점
- 최솟값 : 하위 경계 내 자료의 최솟값
- 제1사분위수(Q1) : 자료들의 하위 일분위(25%)의 위치를 의미
- 중위수 : 자료들의 50%의 위치를 의미하며, 중앙값이라고도 표현함. 다른 의미로서 평균값으로 대체하여 표현할 수 있음
- 제3사분위수(Q3) : 자료들의 상위 삼분위(75%)의 위치를 의미
- 최댓값 : 상위 경계 내 자료의 최댓값
- 상위 경계 : 제3사분위수(Q3)에서 1.5*IQR을 더한 위쪽 지점
- 수염 : 하위 경계~상위 경계 내에 있는 범위에서 최솟값~최댓값까지 이어진 선
- 아웃라이어 : 수염보다 바깥쪽에 존재한 데이터들은 이상값으로 분류
10. 다차원척도법과 주성분 분석 시각화 해석
구분 | 내용 |
다차원척도법 (MDS) |
- 객체 사이의 유사성 수준을 2차원 또는 3차원 공간에 점으로 시각화하는 분석기법 - 거리를 계산하기 위해 유클리드 거리를 주로 활용 - 크게 데이터 간의 실제 거리를 근접도로 이용하는 계량형 다차원 척도법과 순서 정보를 근접도로 이용하는 비계량형 다차원 척도법으로 구분할 수 있음 |
주성분 분석 (PCA) |
- 데이터의 분포를 잘 설명함과 동시에 정보의 손실은 최소화하도록 고차원의 데이터를 저차원의 데이터로 변환하는 차원 축소 분석 기법 - 주성분은 데이터의 방향성이 가장 큰 벡터를 의미 - 주성분 분석 겨로가를 통해 유지해야 할 주성분의 수와 누적기여율 등을 확인할 수 있음 |
11. 텍스트 분석의 전처리
- 토크나이징(Tokenizing) : 주어진 문장에서 토큰 단위로 정보를 나누는 작업을 의미
- Part-of Speech(POS) Tagging : 문장의 각 단어들을 명사, 대명사, 동사, 형용사, 부사 등 문법적인 분류로 나누어 문장을 이해하는 작업
- 대소문자 변환과 문장부호 삭제
- 불용어(Stop word) 제거 : 문장을 구성하는 필수 요소지만 문맥적으로 큰 의미가 없는 단어 제거
- 어간 추출(Stemming) : 동일한 뜻을 가진 형태가 다른 단어들을 같은 형태로 바꾸어 주는 작업
- 표제어 추출(Lemmatization) : 단어가 다른 형태를 가져도 뿌리 단어를 찾아가 단어의 개수를 줄일 수 있는지 판단
12. 확률적 표본추출 방법
<단순 무작위 추출>
- 통계 조사의 기본으로 모집단에서 정해진 규칙 없이 표본을 추출하는 방식
- 동일한 크기의 표본들이 균등한 확률로 선택될 수 있도록 표본을 추출하는 방법
- 모집단에 대한 사전 지식이 많지 않을 때 적용할 수 있는 간편한 방법
예) 100장의 번호표에서 무작위 10명
<계통 추출>
- 모집단 관측치로부터 시간, 순서 및 공간의 동일한 구간을 정해서 무작위로 추출
- 이렇게 정해진 구간을 표본 구간이라고 표현
예) 100장의 번호표에서 끝자리가 7번으로 끝나는 10명
<층화 추출>
- 모집단을 어떤 특성에 따라 서로 겹치지 않는 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식
- 계층은 내부적으로 동질적이고, 외부적으로 이질적이어야 함
- 단순 무작위 추출법보다 추정의 정확도가 높음
예) 지역을 도별로 나누고 각 도에서 무작위 10명
13. 척도의 종류
- 명목척도 : 단순히 집단의 분류를 목적으로 사용되는 척도로 대상이 어느 집단에 속하는지 분류할 때 사용 (등호연산)
- 순서척도 : 측정 대상 사이의 대소 관계를 나타내기 위한 척도로 측정 대상의 서열 관계를 관측할 때 사용 (비교)
- 구간척도 : 등간 척도라고도 하며 측정 대상이 갖고 있는 속성의 양을 측정하고 구간이나 구간 사이의 간격이 의미가 있는 자료 (가감연산 – 덧셈, 뺄셈)
- 비율척도 : 구간 척도의 성질을 가지면서 간격에 대한 비율이 의미가 있는 척도로 절대적인 기준인 0이 존재하고 사칙연산이 가능한 자료 (승제연산 – 곱셈, 나눗셈)
14. 베이즈 정리 개념 및 계산 문제
- 추가적인 표본정보에 입각하여 사전확률을 경신하여 사후확률로 만드는데 베이즈 정리가 이용
- 사전확률 : 어떤 사상의 조건 확률을 구할 때 다른 사상의 발생에 관한 새로운 정보를 고려하여 확률을 계산. 어떤 사상의 발생확률을 구할 때 실증적 정보는 고려하지 않음. 이런 확률을 사전확률이라고 함
- 사후확률 : 어떤 사상에 관하여 실험과 같은 실증적 활동을 통하여 얻는 새로운 표본 정보에 입각하여 그의 사전확률을 수정 또는 경신하는 것
15. 이항분포와 포아송분포, 초기화 분포의 차이점
종류 | 특징 |
이항분포 | - 베르누이 실험 또는 시행에 기초 - 확률실험에서 나타날 수 있는 기본결과가 두 가지만 존재 |
포아송분포 | - 이항분포가 주어진 횟수의 시행 중에서 사건횟수에 적용되는 분포임에 반하여, 포아송분포는 단위 시간당 또는 단위 공간당 사건발생 횟수에 적용되는 분포 - x를 단위시간당 발생건수라고 하면 포아송 분포는 평균 사건 발생수 람다에 의해 유도됨 |
초기하분포 | - 성공할 확률이 매회 일정한 경우(서로 독립사건)는 이항분포를 이용하고, 일정하지 않을 경우(서로 종속사건)에는 초기하분포를 이용 - 같은 실험에서 복원추출인 경우나 모집단의 크기가 무한한 경우는 이항분포로, 비복원추출인 경우나 모집단의 크기가 작은 경우는 초기하분포로 확률을 구함 |
16. 중심극한정리
- 표본의 개수가 커지면 모집단의 분포와 상관없이 표본 분포는 정규 분포에 근사 (n > 30)
17. 바람직한 통계적 추정량의 결정기준 (불편성, 효율, 일치, 충족)
- 불편성 추정량 : 모든 가능한 추정치의 평균이 모수의 참값과 같아야 하는 것
- 효율 추정량 : 불편추정량 중에서 그의 분산이 작은 추정량
- 일치 추정량 : 표본크기가 증가할수록 추정량이 모수에 더욱 근접하는 추정량
- 충족 추정량 : 모수를 추정하기 위하여 추출하는 동일한 크기의 표본으로부터 가장 많은 정보를 제공하는 추정량
18. 가설검정과 관련된 기본용어(귀무가설, 대립가설, 유의수준, 유의확률)
- 귀무가설 : 현재까지 주장되어 온 것이거나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설
- 대립가설 : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설
- 유의수준 :
[빅데이터분석기사 필기 요약정리] : Part 02. 빅데이터 탐색 # [중요도 - ★]
1. 데이터 전처리
- 정제 : 결측 데이터, 이상치 파악 및 제거하고 정합성이 맞도록 교정하는 작업
- 통합 : 여러 개의 데이터베이스, 데이터 집합 또는 파일을 통합하는 작업
- 축소 : 샘플링, 차원축소, 변수선택 및 추출을 통해 차원을 줄이는 방법
- 변환 : 데이터를 정규화, 이산화, 파생변수 등으로 변환하는 작업
2. 파생변수와 요약변수 개념
구분 | 설명 |
파생변수 | - 기존 변수에 특정 조건 혹은 함수 등을 사용하여 새롭게 재정의한 변수를 의미 - 상황에 따라 특정 상황에만 유의미하지 않게 논리적 타당성과 대표성을 나타나게 할 필요가 있음 - 일반적으로 1차 분석 마트의 개별 변수에 대한 이해 및 탐색을 통해 각 특성을 고려하여 파생변수를 생성 |
요약변수 | - 구매금액, 구매횟수, 구매여부 등 - 단순 데이터들을 종합한 변수라고 생각할 수 있으나 데이터 웨어하우스에서 받아온 데이터를 특정 분석목적에 적합하게 종합한 변수 - 재활용성이 높고, 다른 많은 모델을 공통으로 사용할 수 있는 장점이 있음 |
3. 탐색적 데이터 분석(EDA)과 확증적 데이터 분석(CDA)
구분 | 설명 |
EDA | - 데이터의 특징과 내재하는 구조적관계를 알아내기 위한 기법들을 총칭 - 데이터 분석을 위해서는 데이터의 품질에 대한 조사가 필요하기 때문에 EDA는 데이터 분석에서 중요한 부분을 차지 - 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정 - EDA는 규칙을 가진 형식적인 과정이 아니며, 데이터에 대해 사고하는 과정으로 정의 가능 |
CDA | - 가설을 설정한 후, 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석방법 - 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등의 통계적 추론을 하는 분석방법으로 설문조사나 논문에 관한 내용을 입증하는 데 사용 |
4. 공분산과 상관계수의 차이점
공분산 | 상관계수 |
두 변수 사이의 상관성을 나타내는 지표로 기본적으로 두 변수 간의 공분산 | 변수 간의 관련성 분석 |
동시에 2개의 변수값들을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느정도 산포 되어 있는가를 나타내는 지표 | 두 변수 사이의 공분산을 표준화한 값 |
피어슨(연속형), 스피어만(이산형, 순서형) |
5. 피어슨 상관계수와 스피어만 상관계수의 차이점
- 피어슨 상관계수 : 대상변수들의 측정에 사용된 척도가 등간/비율 척도일 때 하나의 변수와 다른 변수간의 관련성을 분석하는데 이용된다. 연속형 데이터에 적합
- 스피어만 상관계수 : 두 연속형 변수의 분포가 심각하게 중규분포를 벗어난 경우 또는 두 변수가 순위 척도 자료일 때 사용. 상관계수를 계산할 때 두 데이터의 실제 값 대신 두 값의 순위(Rank)를 사용해 상관계수를 계산하는 방식. 이산형, 순서형 데이터에 적합
6. 산포를 나타내는 개념 정의
- 자료의 분산을 측정하는 가장 간단한 방법
- 자료의 관측치 가운데 가장 큰 최댓값과 최솟값의 차이를 말함
- 사분위수 범위(IQR) : Q3 – Q1
- 평균 절대편차 : 관측치들의 평균값으로부터 떨어져 있는 거리
- 사분편차 : 제3사분위수에서 제1사분위수를 뺀 값의 ½
- 분산과 표준편차 : 분산은 편차의 제곱의 합을 자료의 수로 나눈 값
- 변이계수(변동계수, CV) : 표준편차를 산술평균으로 나눈 값, 평균의 차이가 크거나 단위가 다른 두 집단의 산포를 비교할 때 사용하고 변이계수 값이 큰 분포보다 작은 분포가 상대적으로 평균에 더 밀집되어 있음을 의미
7. 줄기 잎 그림과 히스토그램 시각화 해석
<줄기 잎 그림>
- 줄기 잎 그림을 사용하여 표본 데이터의 형상 및 분포를 파악할 수 있다
- 줄기 잎 그림은 막대를 표시하는 대신 실제 데이터 값의 자릿수를 표시하여 각 잎(행)의 빈도를 나타낸다
- 줄기 잎 그림은 표본 크기가 약 50보다 작을 때 가장 효과적이다
- 줄기 잎 그림은 히스토그램과 달리 자료의 정보 손실이 없어 히스토그램에 비해 더 많은 정보를 제공한다
- 봉우리(최빈값) 개수 : 집단의 개수
- 분포의 좌우대칭 여부, 자료의 범위 및 분산, 이상치 존재 여부 및 위치
<히스토그램>
- 길이, 무게, 시간, 경도 등을 측정하는 데이터(계량치 데이터)가 어떠한 분포를 하고 있는가를 알아보기 쉽게 나타낸 그림
- 왼쪽으로 치우친 모양이라면 데이터가 전체 범위에서 수치가 낮은 쪽에 몰려 있고, 오른쪽에 치우쳐 있다면 높은 쪽에 몰려 있음을 의미
- 왜도에서의 최빈값, 중앙값, 최빈값의 위치와 같은 개념
- 표본 크기가 20이상일 때 가장 잘 작동한다. 표본 크기가 너무 작으면 히스토그램의 각 막대에서 데이터 분포를 정확하게 표시하기에 충분한 데이터 점이 포함되지 않을 수 있다
- 데이터가 치우쳐 있으면 대부분의 데이터가 그래프의 높은 쪽이나 낮은 쪽에 위치한다. 왜도는 데이터가 정규분포를 따르지 않을 수도 있음을 의미한다
- 히스토그램에서는 양쪽 긑의 고립된 막대가 특이치를 나타낸다
- 다봉 데이터는 일반적으로 두 개 이상의 공정이나 조건(두 개 이상의 온도)에서 데이터가 수집되는 경우 발생한다
- 그룹의 산포 간 차이를 확인
8. 조건부 플롯(Conditioning Plot)과 평행좌표 플롯(Parallel Coodinates Plot)
- 조건부 플롯 : 다변량 자료 분석에서 3개 변수(X, Y, Z)의 관계를 탐색하는 과정에서 변수 X와 Y의 관계를 Z에 조건화하여 볼 필요가 있다
- 평행좌표 플롯 : 산점도를 다변량의 경우로 확장하는 것이 어려워 이에 대한 대안으로 제시된 것이 평행좌표 플롯이다. 다변량 자료를 이차원 평면에 나타내고, 그 해석을 직관적으로 할 수 있다. 각 변수를 평행으로 늘어 놓고 다변량 개별 자료를 선으로 이어 놓은 것이 평행좌표이다
9. 선형 판별분석과 주성분분석의 차이
선형판별분석 | 주성분분석 |
- 데이터가 어떤 그룹에 속할지를 판별하는 분석 기법 - 클래스 분리를 최적으로 수행할 수 있게 데이터를 축소 |
- 고차원의 데이터를 저차원의 데이터로 변환하는 차원 축소 분석 기법 |
10. 사회연결망 분석의 중심성
- 연결정도 중심성 : 한 노드의 중심성을 측정하는 방법이다. 연결된 노드의 수가 많을수록 연결정도 중심성이 높아진다
- 매개 중심성 : 네트워크 내에서 한 노드가 담당하는 매개자 혹은 중재자 역할의 정도로 중심성을 측정하는 방법이다. 예를들어 브로커는 매개 중심성이 높다고 할 수 있다
- 근접 중심성 : 각 노드 간의 거리를 근거로 중심성을 측정하는 방법으로, 연결정도 중심성과는 달리 간접적으로 연결된 모든 노드 간의 거리를 합산해 중심을 측정한다
- 위세 중심성 : 연결된 노드의 중요성에 가중치를 둬 노드의 중심성을 측정하는 방법이다. 여기서는 위세가 높은 사람들과 관계가 많을수록 자신의 위세 또한 높아진다
11. 모수 통계분석과 비모수 통계분석 차이점
- 모수통계 : 현상이 등간척도 혹은 비율척도로 측정되어 모집단의 특성(분포, 표본오차 등)에 대한 정보가 충분하기 때문에 표본 통계량으로 모수 추정이 가능한 통계분석기법
- 비모수 통계 : 현상이 명목척도나 서열척도로 측정되어 모집단의 분포형태나 모수의 특징을 추론해 내기 어려운 경우에 사용하는 분석기법
12. 카이제곱분포와 F분포의 검정 용도
- 카이제곱분포 : 모분산이 특정한 값을 갖는지 여부를 검정하는데 사용되는 분포이며, 두 범주간 변수간의 독립성 검정과 적합도 검정을 하는데 주로 사용
- F분포 : 두 집단의 분산의 동일성 검정에 사용
13. 점추정 정의
- 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법으로 표본의 평균, 중위수, 최빈값 등을 사용
- 불편성, 효율성, 일치성, 충족성을 충족해야 함
- 점 추정에 사용되는 통계는 표본평균, 표본분산, 중위수, 최빈값이 있음
14. 신뢰수준 95% 의미
- 동일한 추정방법을 사용하여 신뢰구간을 100회 반복하여 추정한다면, 95회 정도는 동일한 결과가 나오는 것
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기 요약정리] 혼동행렬과 연관성분석 (14) | 2023.04.07 |
---|---|
[빅데이터분석기사 필기 요약정리] 프로세스(절차) 정리 (8) | 2023.04.07 |
[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 네번째 (13) | 2023.04.03 |
[빅데이터분석기사 필기 요약정리] : Part 01. 빅데이터 분석 기획 / 23년 제6회 시험 대비 (feat. 김계철 교수님) (9) | 2023.04.03 |
[빅데이터분석기사 필기 기출문제 오답노트] : 23년 제6회 시험 대비 세번째 (9) | 2023.04.02 |
댓글