데이터사이언스
- 데이터
- 데이터분석(anaylsis): 빅데이터다루기(data curation), 데이터추출/변환(SQL, R, Python), 데이터시각화(data visualzation, ggplot), 통계모형, 인공지능(t-검정, 회귀분석, 머신러닝)
- 인사이트 창출 (analytics>>discovery>>insight)
공유데이터
- 이용성 및 접근성, 재사용 및 재배포포가 자유롭고 보편적으로 참여할 수 있는 데이터
- Machine learning Repository in UC Irvine (머신러닝기법분석에 활용가능한 데이터 저장소)
- 우리나라 공공데이터: 통계청, 공공데이터포털, 서울열린데이터광장, 네이버데이터랩
- 오픈소스 프로그램: R, Python, Hadoop, Spark, TensorFlow, Google Deepmind
- 오픈소스: 단순 데이터가 아닌 지적 창작물
- Git: 프로그램 등의 소스 코드 관리를 위한 분산 관리 툴 (프로그램 소스를 공유하고 협업하여 개발할 수 있는 버전관리시스템)
- GitHub: Git에 프로젝트 관리리지원기능을 확장한 웹 호스팅서비스,
- GitHub의 오픈소스 프로젝트: VS코드(마이크로소프트), React-native(페이스북), TensorFlow(구글)
빅데이터란?
Volume(양), Velocity(속도), Variety(다양성)
>>데이터를 분류해서 분석하거나 웹마이닝을 통해 트렌드를 분석 할 수있다.
데이터시각화
- 데이터 분석 결과를 한 눈에 보여주는 것. 데이이터를 누구나 직관적으로 이해하고 효율적으로 인사이트를 도출하여 기업의 의사결정의 근거자료로 활용
- Data gathering>>Data processing>>Data visualization>>Data analysis
- Inforgraphic, Histogram, Box plot(상자그림), Scatter plot(산점도)
히스토그램: 데이터의 분포범위, 이상치(outlier) 파악 가능
상자그림
중앙값, 일사분위수, 삼사분위수, 최대값, 최소값을 통해 데이터 분포의 대칭성, 치우침, 이상치를 파악할 수 있음
중앙값을 찾는다>>일사분위수, 삼사분위수를 찾는다>>일사분위, 삼사분위수 범위(사분위범위)를 상자로 그린다>> 최대값, 최소값을 그린다>> 이상치(일사분위와 삼사분위로부터 각각 -/+1.5사분위를 넘는 관측치를 표시한다)
산점도
두변수(독립변수, 종속변수) 사이의 관계의 트렌드(liner, curved, clusters, no pattern), 방향(poitive, negative, no direction), 강도(correlation)를 알 수 있음.
통계(Statistics): 데이터를 수집, 처리, 분석, 활용하는 지식 (실제 얻어진 데이터를 바탕으로 정보를 도출)
확률(Probabilities): 어떤 특정한 사건이 일어날 가능성을 0과 1사이의 값으로 나타낸 것 (관측하기 이전 가능성을 논한 것)
조건부확률: 어떤 사건이 발생한다는 조건 하에서 다른 사건이 발생하게 될 확률
베이즈정리: 사후확률을 사전확률률과 가능도를 이용하여 계산할 수 있게 해주는 변환식이다.
머신러닝기법 중 '나이브베이즈 분류' 기법에서 베이즈정리가 활용된다.
베이즈정리 읽을자료: dongascience.donga.com/news.php?idx=1039
확률분포
- 이산형(discrete): 이항분포(베르누이시행에서 '성공'이 나오는 횟수에 대한 확률분포), 포아송분포(단위시간안에 어떤 사건이 몇번 발생하는가에 대한 확률분포)
- 연속형(continuous): 정규분포, 표준정규분포, 카이제곱분포, F분포
빅데이터분석에서 확률과 분포
데이터의 분포를 아는 경우 목적에 따라 데이터를 분석하기 쉽다. 하지만 세상에는 설명할 수 없는 분포도 많다. 이를 한 종류의 분포로 근사하여 설명한다면 얼마나 좋을까? >> 중심극한정리(central limit theorem)
- 중심극한정리: 표본이 증가하면서 정규규분포에 근접해진다. 모집단의 분포를 몰라도 이를 이용해 표본평균의 통계적 검정과 추정이 가능해진다.
'살콤아내 자기계발 > 파이썬' 카테고리의 다른 글
POSTECH 데이터사이언스를 위한 통계학입문 2(1-4주차 요약) (0) | 2021.04.08 |
---|---|
점프투파이썬 1주차 실습 (0) | 2021.04.08 |
POSTECH 컴퓨터 공학 입문 2 (1-4주차 요약) (0) | 2021.04.07 |
점프투파이썬 1주차 112pg. 연습문제풀이 (0) | 2021.04.07 |
POSTECH 컴퓨터공학 입문 1 (1-4주차 요약) (0) | 2021.04.06 |