728x90
반응형

살콤아내 자기계발/파이썬 58

파이썬 머신러닝 완벽가이드 2주차 정리 (데이터 전처리 118pg~, )

118pg. 데이터 전처리 (Data Preprocessing) - Null, NaN값(결손값)은 허용되지 않으므로 고정된 다른 값(평균값 등)으로 변환한다. Null값이 대부분이라면 해당 feature는 drop한다. - 사이킷런 ML알고리즘은 문자열을 입력값으로 허용하지 않으므로 숫자형으로 변환하거나 불필요한 경우 삭제한다. (feature vectorization) 데이터 인코딩 - Label encoding: 카테고리 feature를 코드형 숫자값으로 변환 (1, 2, 3...) - One Hot encoding: 고유 값에 해당하는 Column에만 1을 표시, 나머지는 0 Label Encoding encoder는 클래스 LabelEncoder( )의 인스턴스다. items안의 string 값의..

파이썬 머신러닝 완벽가이드 2주차 정리 (사이킷런 87pg~, )

ML방법에는 두 가지가 있다. - 지도학습(Supervised Learning): 정답값(결정값, target value, label value)을 가지고 있는 ML training 방법 - 비지도학습(Unsupervised Learning): 정답값이 없는 ML training 방법 - 사이킷런에서는 datasets 라는 연습용 예제데이터를 제공한다. 89pg. 지도학습 datasets 연습 결과값 iris.data와 iris.target을 호출하면 데이터는 다음과 같다. (하나의 줄 (row)가 하나의 붓꽃데이터를 말한다.) iris_label은 iris.data의 정답값(결정값)을 말한다. (붓꽃의 품종을 말함) column name을 한번 test해보자 iris_df = pd.DataFrame(d..

파이썬 머신러닝 완벽가이드 2주차 정리 (타이타닉실습 2_isnan, groupby)

타이타닉 연습문제1 : SibSp가 같은 나이의 평균으로 빈 Age값을 채우시오. Step 1) 타이타닉 데이터를 데이터 프레임 평태로 업로드 Step 2) null 값이 얼마나 있는지 확인 Step 3) Column별 데이터 분포 확인 Step 4) Pclass value_count 확인 Step 5) Age null값을 채우되 SiBsp가 같은 나이의 평균으로 채운다 (if, lambda 활용) 36줄~ if조건문: x[SibSp]의 각 값을 만족하는 조건에 대해 result=titanic_df [titanic_df ['SibSp'] == 0] ['Age'].mean( ) 결과값은 titanic_df(데이터프레임)에서 / titanic_df의 'SibSp'값이 0에 해당되는 불린값의 /'Age' Co..

파이썬 머신러닝 완벽가이드 1주차 정리 (판다스 60pg~, 타이타닉 실습)

61pg. 데이터 셀렉션 및 필터링 (.ix, .loc, iloc) DataFrame['칼럼명']과 같이 리스트 객체를 이용해서 원하는 데이터를 추출한다. Ex) titanic_df['Pcclss'].head(3) head(3)은 헤더정보를 3줄까지 추출한다는 의미 추가) titanic_df[0:2]과 같이 인덱스 슬라이싱을 이용해서 원하는 데이터를 추출할 수 있다. 추가) titanic_df[ titanic_df['Pclass']=3].head(3)과 같이 불린 인덱싱 표현으로 추출할 수 있다. 66pg. 명칭 기반(label) 인덱싱과 위치 기반(position) 인덱싱 참고) .ix는 더 이상 파이썬에서 제공되지 않는다 - 명칭기반 인덱싱: 칼럼의 명칭을 기반으로 위치지정 >> DataFrame의 ..

파이썬 머신러닝 완벽가이드 1주차 정리 (판다스 39pg~), 타이타닉 실습

39pg 판다스(Pandas) - 넘파이 기반으로 작성되었고 넘파이보다 고수준 API를 제공한다. 칼럼을 분리한 파일, CSV파일 등을 DataFrame타입으로 변경해 사용가능하다. * API: application programming interface - 판다스는 주로 행과 열로 이루어진 2차원 데이터 DataFrame을 핵심개체로 한다. (Series 데이터타입도 제공함) - Series와 DataFrame은 모두 Index를 key값으로 가지고 있다. - Series는 칼럼이 하나인 데이터구조이지만 (1차원데이터) DataFrame은 칼럼이 여러개로 이루어진다. (즉 DataFrame은 여러개의 Series로 이루어졌다고 말할 수 있다.=2차원 데이터) 1. Titanic 실습 아래 홈페이지에서 ..

파이썬 머신러닝 완벽가이드 1주차 정리 (넘파이 15pg~38pg)

15pg 넘파이 기반 데이터타입 ndarray의 특징: - 다차원(multi-dimension) 배열을 생성, 연산 수행 가능 - ndarray 배열의 shape변수는 ndarry의 크기(행, 열의 수)를 튜플 형태로 가지고있음. 결과값 - ndarray 데이터타입에서 각각의 데이터 요소는 공백으로 구분한다. (list 데이터 타입에서 데이터를 구분하는 쉼표와 다름) ndarray 데이터타입에 있는 1, 2, 3데이터는 int32는 32비트의 공간하나에 들어있는 1 2 3 이라는 것으로 바뀐다. 일반 int값에 비해 데이터 크기가 줄어들고 좀 더 데이터가 심플해진다. 아래 파이썬에서 각각의 int 변수는 하나의 객체로 위의 ndarray 데이터타입의 int와는 다르다. 다음 데이터 타입을 보자. 리스트 ..

점프투파이썬 3주차 실습_서로 유사한 모양(인구분포)의 그래프를 가진 동을 찾아라

문제1 : 신중동의 인구그래프와 가상 유사한 모양(인구분포)의 그래프를 가진 동을 찾아라 절차 1) 실제로는 정규화 작업을 통해 비교한다. 이번 문제에서는 다음과 같이 비율로 풀어본다. A동의 0세~100세 인구/A동의 총인구를 B동의 0세~100세 인구/B동의 총인구를 뺀 값의 절대값의 합을 구한다. |A동의 0세인구/A동의 총인구-B동의 0세인구/B동의 총인구| + |A동의 1세인구/A동의 총인구-B동의 1세인구/B동의 총인구| + |A동의 2세인구/A동의 총인구-B동의 2세인구/B동의 총인구| + ...... 2) 신중동의 비율 데이터 구조를 리스트로 만든다 3) 신중동을 제외한 나머지동과 신중동의 인구분포 절대값 비교하는 리스트를 만든다. (1)에서 했던 데이터 리스트. 4) 해당 동의 자료를 i..

점프투파이썬 3주차 실습_시간별 승하차인원

1. 각각의 시간대에 가장 승차인원이 가장 많은 역, 하차인원이 가장 많은 역을 구하시오 Ex) [ [4시, 역이름, 승차인원, 역이름, 하차인원] [5시, 역이름, 승차인원, 역이름, 하차인원] ...................................... ] 절차 1) 서로다른 엘리먼트(요소)의 동일 인덱스를 비교해야 함 for idx, row in enumerate temp[2:] : for idx2, row2 in enumerate row[4:52] : 2) 그러기 위해서는 총 48개의 데이터가 필요함 pol=[0, 0, 0, 0, 0, 0, 0, ....] mx=[0]*48 을 만들면 mx에 48개의 0 리스트가 뜬다. 그런데 if문을 활용해서 최대값을 구해보자. for문에서 mx[idx..

점프투파이썬 3주차 정리

모듈 함수나 변수 또는 클래스를 모아 놓은 파일로, 모듈이 모여 하나의 패키지를 만든다. 208pg 질문: import mod1를 할 때, 동일한 mod1 이름이 있다면 (각기 다른 폴더에) 어떻게 모듈이 실행될까? if__name__=="__main__""의 의미 대화형 222pg 예외처리 try...except/ try...finally문 활용 216pg 패키지 모듈을 파일트리를 이용해 계층적(디렉터리구조)으로 편리하게 관리할 수 있도록 함. 1. 폴더와 py파일을 만든다. 2. echo.py, render,py 파일은 아래와 같이 만든다. 3. Anaconda Prompt에 다음과 같이 명령어를 작성하면 다음과 같이 echo라는 결과값을 받을 수 있다. - 처음에 set PYTHONPATH는 대문자..

Kaggle_ 예측모델 및 분석 대회 플랫폼

Kaggle은 Google이 모회사인 예측모델 및 분석 대회 플랫폼입니다. Google아이디로 간단히 register하시면 됩니다. 메인 페이지는 다음과 같습니다. Competition에 참가해서 우승하면 상금이 있습니다. 각각의 대회를 눌러보면 몇팀이 참여했는지, 시간이 얼마나 남아있는지 보실 수 있습니다. - padas패키지는 데이터프레임 데이터 타입을 기반으로 (행,열로 구성된) 2차원 데이터를 전처리하여 분석하는 데 유용하다. www.kaggle.com/ Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and res..

728x90
반응형