728x90
반응형

살콤아내 자기계발/파이썬 58

파이썬 머신러닝완벽가이드 7주차_차원축소 (382 pg, PCA, LDA, SVD)

차원축소를 하는 이유 1. 데이터 분석 시간의 축소 2. 다중공산성(회귀 분석에서 사용된 모형의 일부 예측 변수가 다른 예측 변수와 상관 정도가 높아, 데이터 분석 시 부정적인 영향을 미치는 현상)을 방지하기 위해서 382pg. PCA 붓꽃데이터 차원축소 예제 - 40줄: enumerate iris데이터프레임 target값이 0인 경우, 'sepal_length column을 반환 iris데이터프레임 target값이 0인 경우, 'sepal_with column을 반환 target의 i는 0~2이기 때문에 for문은 3번 돌아간다. sepal_lenth와 sepal_with의 2개의 feature를 가지고 서로다른 marker를 가지고 scatter를 한다. - 56줄: StandardScarler적용 ..

파이썬 머신러닝완벽가이드 7주차_차원축소, 선형변환, 공분산, PCA (377pg)

377pg. 차원축소 (Dimension Reduction) - 차원축소를 이해하기 위해서는 선형대수학 기초를 알 필요가 있다. - 벡터: 크기와 방향이 있다는 점에서 스칼라값과 구분된다. - 행렬: 2x2와 2x1 행렬의 곱이 2x1이 된다. - 선형변환 (컴퓨터 그래픽에서 사용됨) 어떤 벡터에 어떤 정방행렬(nxn)을 곱한다는 것은 (기하학적으로) 벡터의 선형변환을 일으키는 것을 의미한다. 선형변환은 어떤 벡터의 사이즈와 방향이 어떤 행렬에 의해 변화되는 것이다. - 선형변환 산식 주어진 행렬A에 x라는 벡터를 곱했을 때 (선형변환을 했을 때) 그 결과, 방향은 같은데 크기만 바뀌게 하는 어떤 벡터 값을 만드는 고유벡터와 고유 람다값이 있다. - 역행렬 I: ad-bc=0 이면 역행렬이 존재하지 않는..

파이썬머신러닝완벽가이드 6주차 (353pg. 캐글 주택 가격_추가코드)

추가코드) 사이킷럿 skew - 16줄: X=np.random.normal(0, 5, sample_size) 은 표준편차 0와 평균값 5의 정규분포에서 샘플링함 참고) np.rand(m, n)와 np.randn(m, n)의 차이는 균일확률분포/가우시안 표준정규분포(평균0, 표준편차1)의 m, n형태의 샘플링이다. - 20줄: X.min( )의 절대값에 X를 더한 히스토그램을 그린다. - 27줄: 1.0의 기울기를 가진 X에 r이라는 노이즈를 섞어준 뒤 abs(r.min( ))를 더한다. r.min( )에 절대값을 씌워서 음수가 나오지 않게 한다. (X는 정규분포를 따르기 때문에 scatter 그래프는 중간에 몰려있다.) - 32줄: jointplot은 scatter한 뒤 histogram을 함께보는 그래..

파이썬머신러닝완벽가이드 6주차 (353pg. 캐글 주택 가격: 고급회귀 기법)

캐글에서 train.csv 파일을 내려받은 후 house_price.csv로 저장한다. https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data House Prices - Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com - 94줄: house_info( )로 정보를 확인. 몇몇 비어있는 값들(null)을 볼 수 있다. 참고) Pandas.DataFrame형태에서 하나의 Column에는 동일한 datatype을 가져야 한다. test= house_df.d..

파이썬머신러닝완벽가이드 6주차 (342pg. 자전거대여수요예측)

344pg. Kaggle에서 Bike Sharing Demand train.csv 파일을 다운받으시오. https://www.kaggle.com/c/bike-sharing-demand/data?select=train.csv Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com - apply(pd.to_datetime)은 string타입의 datetime을 날짜를 나타내는 고유한 데이터타입인 datetime으로 변화함. (object>>datetime64[ns]) - 66줄~69줄: lambda함수를 이용해서 datetime의 column값으로부터 x.year, x.month, x.day, x.hour를 순차적으로 bike_d..

파이썬 머신러닝 완벽가이드 6주차 정리 (319pg, 규제선형모델-릿지, 라쏘, 엘라스틱넷, 로지스틱회귀)

319pg. 규제선형모델 가중치w값은 회귀모델의 기울기와 관련된다. 회기모형의 차수가 증가함에 따라 MSE를 낮추기위해 가중치w값은 필연적으로 커지게 된다. (기울기가 급격하게 변하는 방향으로 학습이 될 수 밖에 없다) - 규제(Regularization): 비용함수에 alpha값으로 패널티를 부여해 회귀계수 값의 크기를 감소시켜 과적합을 개선하는 방식 - 비용함수목표= Min(RSS(W)+alpha* llWll^2) - alpha값을 작게하면 비용함수 RSS(W)가 최소화 / alpha값을 크게하면 회귀계수 w가 감소한다. *alpha값은 데이터 적합정도와 회귀계수 값의 크기 제어를 수행하는 튜닝파라미터를 말한다. *llWll는 벡터값의 절대값을 말한다. *RSS: 294pg 비용함수참고 321pg. ..

파이썬 머신러닝 완벽가이드 6주차 정리 (303pg, 보스턴 주택 가격 예측, 다항회귀)

304pg. 다중공선성(multi-collinearity)문제: 서로 상관관계가 높은 피처가 많은 경우 (피처끼리 상관관계가 있는 경우) 독립적인 중요한 피처만 남기고 제거하너가 규제를 적용한다. PCA를 통한 차원축소도 고려할 수 있다. *feature데이터와 label데이터는 상관관계가 있으면 좋다. (feature데이터를 이용해 label모델을 만드는 것이 회귀모델링의 목적이기 때문) 회귀평가지표 - 회귀평가지표는 실제값과 예측값의 차이에 절대값 평균/제곱/제곱의 루트를 사용한다.(MAE, MSE, RMSE, R^2) - R^2=예측분산/실제분산 = 회귀선과 평균선과의 차이의 합/실제데이터와 평균선과의 차이의 합(SSE) 이는 설명력이라고 하며 회귀모델이 실제 데이터를 얼마만큼 잘 설명하느냐에 대한..

파이썬 머신러닝 완벽가이드 6주차 정리 (290pg, 회귀 아달린)

290pg 회귀 지도학습은 분류 Classification은 이산값 category값을 가지며, 회귀 Regression은 숫자값(연속값)을 가진다. 회귀란 여러개의 독립변수(feature)와 한 개의 종속변수(target 결정값) 간의 상관관계를 모델링하는 기법을 통칭한다. - 회귀계수(Regression coefficients)는 독립변수의 값에 영향을 미치며, 머신러닝에서는 최적의 회귀계수를 찾는 것이 핵심이다. 이는 전체 데이터의 잔차(오류값)합이 최소가 되는 것이다. - 종류: 선형/비선형회귀(회귀계수가 선형이냐아니냐), 단일회귀/다중회귀(독립변수/종속변수의 개수에 따라) - 선형회귀는 실제값-예측값(오류의 제곱값)을 최소화하는 직선형 회귀선을 최적화하는 방식이다. - 단순선형회귀: 독립변수1,..

파이썬 온라인 교육 플랫폼_코드스테이츠, 정보통신진흥원NIPA, POSTECH MOOC

1. 코드스테이츠 (코딩부트캠프) https://www.codestates.com/ 코딩부트캠프 | 코드스테이츠 - 비전공생도 개발자가 될 수 있습니다 코딩부트캠프를 찾는다면? 개발자로 커리어 전환을 위한 책임있는 코딩 교육 기관! 서비스 기획자, 그로스 마케터, 데이터 사이언티스트 등 다양한 전문 커리어에 도전하세요. 취업 성공의 후기 www.codestates.com 코딩부트캠프는 트렌디한 인공지능 훈련프로그램을 제공하며 (온라인 원격수업) 높은 취업률을 자랑하고 있습니다. 광고에는 비전공생들도 기초부터 차근차근 데이터분석을 배울 수 있다고 하지만, 대부분 후기를 들어보면 어느정도 베이스가 있어야 수업을 따라잡을 수 있다는 평이 많았습니다. 한마디로 수업난이도가 높아서 기초가 없으면 돈을 날릴 수 있..

728x90
반응형