살콤아내 자기계발/파이썬

POSTECH 데이터사이언스를 위한 통계학입문 1(1-4주차 요약)

살콤아내 2021. 4. 7. 22:54
728x90
반응형

데이터사이언스

- 데이터

- 데이터분석(anaylsis): 빅데이터다루기(data curation), 데이터추출/변환(SQL, R, Python), 데이터시각화(data visualzation, ggplot), 통계모형, 인공지능(t-검정, 회귀분석, 머신러닝)

- 인사이트 창출 (analytics>>discovery>>insight)

 

공유데이터

- 이용성 및 접근성, 재사용 및 재배포포가 자유롭고 보편적으로 참여할 수 있는 데이터

- Machine learning Repository in UC Irvine (머신러닝기법분석에 활용가능한 데이터 저장소)

- 우리나라 공공데이터: 통계청, 공공데이터포털, 서울열린데이터광장, 네이버데이터랩

- 오픈소스 프로그램: R, Python, Hadoop, Spark, TensorFlow, Google Deepmind

- 오픈소스: 단순 데이터가 아닌 지적 창작물

- Git: 프로그램 등의 소스 코드 관리를 위한 분산 관리 툴 (프로그램 소스를 공유하고 협업하여 개발할 수 있는 버전관리시스템)

- GitHub: Git에 프로젝트 관리리지원기능을 확장한 웹 호스팅서비스, 

- GitHub의 오픈소스 프로젝트: VS코드(마이크로소프트), React-native(페이스북), TensorFlow(구글)

 

 

빅데이터란?

Volume(양), Velocity(속도), Variety(다양성)

>>데이터를 분류해서 분석하거나 웹마이닝을 통해 트렌드를 분석 할 수있다.

 

데이터시각화

- 데이터 분석 결과를 한 눈에 보여주는 것. 데이이터를 누구나 직관적으로 이해하고 효율적으로 인사이트를 도출하여 기업의 의사결정의 근거자료로 활용

- Data gathering>>Data processing>>Data visualization>>Data analysis

- Inforgraphic, Histogram, Box plot(상자그림), Scatter plot(산점도)

 

히스토그램: 데이터의 분포범위, 이상치(outlier) 파악 가능

 

상자그림

중앙값, 일사분위수, 삼사분위수, 최대값, 최소값을 통해 데이터 분포의 대칭성, 치우침, 이상치를 파악할 수 있음

중앙값을 찾는다>>일사분위수, 삼사분위수를 찾는다>>일사분위, 삼사분위수 범위(사분위범위)를 상자로 그린다>> 최대값, 최소값을 그린다>> 이상치(일사분위와 삼사분위로부터 각각 -/+1.5사분위를 넘는 관측치를 표시한다)

 

 

산점도

두변수(독립변수, 종속변수) 사이의 관계의 트렌드(liner, curved, clusters, no pattern), 방향(poitive, negative, no direction), 강도(correlation)를 알 수 있음.

 

 

 

통계(Statistics): 데이터를 수집, 처리, 분석, 활용하는 지식 (실제 얻어진 데이터를 바탕으로 정보를 도출)

확률(Probabilities): 어떤 특정한 사건이 일어날 가능성을 0과 1사이의 값으로 나타낸 것 (관측하기 이전 가능성을 논한 것)

 

 

조건부확률: 어떤 사건이 발생한다는 조건 하에서 다른 사건이 발생하게 될 확률

베이즈정리: 사후확률을 사전확률률과 가능도를 이용하여 계산할 수 있게 해주는 변환식이다.

머신러닝기법 중 '나이브베이즈 분류' 기법에서 베이즈정리가 활용된다.

 

 

베이즈정리 읽을자료: dongascience.donga.com/news.php?idx=1039

 

올해 250주년 맞은 베이즈 정리, 과학을 정복하다

“기하학에 피타고라스 정리가 있다면 확률론에는 베이즈 정리가 있다.” - 해럴드 제프리스 경 에스라인 몸매를 자랑하던 S씨는 10여 년 전 어느 날 샤워를 하다 문득 가슴에서 작은 덩어리가

dongascience.donga.com

 

확률분포

- 이산형(discrete): 이항분포(베르누이시행에서 '성공'이 나오는 횟수에 대한 확률분포), 포아송분포(단위시간안에 어떤 사건이 몇번 발생하는가에 대한 확률분포)

- 연속형(continuous): 정규분포, 표준정규분포, 카이제곱분포, F분포

 

 

빅데이터분석에서 확률과 분포

데이터의 분포를 아는 경우 목적에 따라 데이터를 분석하기 쉽다. 하지만 세상에는 설명할 수 없는 분포도 많다. 이를 한 종류의 분포로 근사하여 설명한다면 얼마나 좋을까? >> 중심극한정리(central limit theorem)

- 중심극한정리: 표본이 증가하면서 정규규분포에 근접해진다. 모집단의 분포를 몰라도 이를 이용해 표본평균의 통계적 검정과 추정이 가능해진다.

728x90
반응형