살콤아내 자기계발/파이썬

POSTECH 데이터사이언스를 위한 통계학입문 2(1-4주차 요약)

살콤아내 2021. 4. 8. 16:41
728x90
반응형

신뢰구간 허용오차에 영향을 주는 요소: 표본크기, 표준편차, 유의수준

 

통계적검정 (t-test)

- 가설의 진위여부를 판단, 증명, 검정하는 통계적 추론 방식 (귀무가설, 대립가설)

- 가설설정>유의수준설정(a=0.05)>검정통계량 산출>가설 기각/채택

- 단측검정, 양측검정

- 데이터 표본이 30이하일 때 t분포를 사용한다

- 유의수준<P-value일 때 H0을 기각한다.

 

 

두 집단간 t검정

- 검정통계량이 기각역 안에 있으면 귀무가설을 기각한다

 

p-value의 의미

해당변수의 통계적 유의도를 나타내줌 (유의확률). p-value가 작을수록 검정이 매우 유의하다. 

유의수준 a=0.05에서 만일 검정통계량Z>1.96 이면 귀무가설을 기각한다.

p-value<a 이면 H0를 기각한다. (p-value가 a보다 작으면 통계량이 유의하다)

 

Type1 error: H0가 참인데 기각

Type 2 error: H0가 거짓인데 채택

 

 

현업데이터수집

- 양질의 데이터수집: 대표성, 랜덤

- 스마트공정: 분석용데이터, 현장용데이터는 차이가 있음, 측정의 재현성(반복측정의 편차)

- 전수조사 vs 표본조사

 

데이터 추출법

- 랜덤의 의미: 같은 확률로 무작위 추출(편의가 배제)

- 군집표본추출(cluster smpling) vs 층화표본추출(stratified sampling)

- 복원추출 vs 비복원추출

 

 

예측모형에서 training과 test et

- 좋은 예측모형이란 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형

- 주어진 데이터>>훈련데이터 training set (예측모형을 만들기 위해 사용)/ 검증데이터 test set(만들어진 모형의 성능을 평가하기 위해 사용)

- 교차타당성 k-fold cross-validation (k=3, 5, 10): 3-fold cross-validation에서는 주어진 데이터 150중 2/3은 훈련데이터로 쓰고, 1/3은 검증데이터로 씀. 

 

과적합 (overfitting)

- 예측모형의 과적합: 주어진 데이터에 과하게 적합하여 새로운 데이터가 들어오면 정확도를 보장할 수 없는 경우로. (타겟값이 연속형인 경우)

- 분류모형의 과적합(타겟값이 범주인 경우): 분류모형에서 오분류가 0인 함수식을 이용한다면 실제 데이터가 들어왔을 때 오분류율이 매우 높아지게 된다.

- 최종예측모형은 잠재변수들을 이용해서 적정한 수준으로 예측모형을 구현/평가해야한다. (훈련데이터와 검증데이터의 오차(오분류율)의 차이가 적은 모형이면서 절대오차가 작은 모형을 선택한다.)

 

 

over/under-sampling

- 데이터불균형 문제: 전체정확도 기준이외 소수집단의 오분류율에 위험부담을 주고 최적모형이 바람직.

-over-sampling: 소수범주에서 다수범주의 수만큼 복원추출 (정보의 손실이 없지만 소수의 데이터가 단순 복사되어 과적합의 가능성이 있음)

-under-sampling: 다수범주에서 소수범주의 수만큼 복원추출 (데이터 저장용량이 감소하고 실행속도가 향상되지만 중요한 정보가 누락될 가능성이 있음)

 

 

데이터탐색과 정제

Basic information (분포, 평균, 최대값, 최소값, 분산 등)

Variation (변동성, 시계열)

Outlier (모든 데이터가 상식적인 범위안에 존재하는가?)

Correlation (변수간 상관성, 변수간 상호작용이 있는가?)

 

빅데이터의 차원축소

현업데이터는 타겟변수의 특성에 영향을 끼치는 요인이 매우 많다. 차원축소법은 변수들간 다중공선성(높은 상관관계, 상호작용), 과적합의 위험증가, 타겟값의 정보가 어떤 구조로 들어있는지 파악이 안될 때 필요하다.

- 주성분분석 (Principal Component Analysis): 가장 대표적인 차원축소 방법으로 데이터공간에서 분산이 최대인 축을 찾는다. (첫 번째 변수가 전체 분산을 가장 많이 설명하도록, 다음 변수가 나머지 분산을 가장 많이 설명하는 변수를 생성한다>>직교한다.) 새로 구성된 변수는 독립적이다.

- 주성분의 weight 산정방법: 공분산행렬(서로다른 확률변수의 상관관계를 나타내는 행렬, 변수가 k개일 때 공분산행렬(KtX)

- 최적 주성분은 몇개일까? (변수가 k일 때 몇개의 축을 선정하는 것이 타당한가?): 전체변동에 대한 기여도, Scree plot 활용

 

 

 

데이터변환에 의한 저차원 시각화

- 고차원 데이터의 차원축소: 변수선택(feature selection)과 특징추출(feature extraction)

- 변수선택기법: 차원을 감소시키는 데에 사용된다. 변수의 수는 차원의 수와 동일하며, 변수 하나는 데이터의 한 열과 같다. 다중공선성이 존재하는 변수들은 그 중 하나의 변수만 선택하게 될 것이다.

- 특징추출기법: 고차원 데이터의 정보를 보존하면서 불필요한 정보(노이즈)를 제거하는 방식으로 특징을 추출, 변수를 선형적으로 조합하여 새로운 변수를 만들 수 있다. 주성분 분석은 선형 특징 추출기법이다.

- 고차원 데이터의 저차원 시각화: 주성분분석, 인접보전기법

 

 

728x90
반응형