728x90
반응형

살콤아내 자기계발/파이썬 58

파이썬으로 배우는 웹 크롤러 7주차_selenium/판다스DF 실습 (K-stat)

Selenium 실습 (K-stat 홈페이지) STEP 1. 국내통계>>품목수출입>>100개씩보기 STEP 2. bs로 parsing한 뒤 1페이지부터 53페이지까지 페이지 넘기기 코드 수행 STEP 3. shutil, os, sys 패키지 import 후 다운로드 받은 파일을 특정 폴더에 넣고 xls파일 이름을 순차적으로 정리하기 STEP 4. 파일이 받아지지 않아서 없는 파일이거나 파일이 잘못 받아져서 내용이 빈 경우 예외처리 (선생님 답 참고) STEP 5. 전체 53개의 파일을 하나의 데이터프레임으로 만들기 (concat 및 pandas 데이터전처리) + 특정조건에 맞는 데이터 추출 STEP 5 부가설명 다음을 이용해서 STEP 5를 수행하시오. test1 = pd.concat([total[1],..

파이썬으로 배우는 웹 크롤러 5주차_My SQL 설치 및 기본 사용 방법

1. My SQL 설치 및 접속 - 아래 오라클 홈페이지에서 MySQL을 다운로드한다. https://dev.mysql.com/downloads/windows/installer/ MySQL :: Download MySQL Installer Select Operating System: Select Operating System… Microsoft Windows Select OS Version: All Windows (x86, 32-bit) Windows (x86, 32-bit), MSI Installer 8.0.25 2.4M (mysql-installer-web-community-8.0.25.0.msi) MD5: 7f64b7ca2c526c359919d9db1bc8d669 | Signatu dev.mysql..

Scrapy 패키지 다운로드 및 사용법

1. Anaconda Prompt 에 pip install scrapy 입력 참고) 아래는 이미 scrapy를 설치한 뒤라서 Requirement already satisfied라는 메시지가 뜸) 2. Scrapy 설치 후 scrapy startproject wikiSpider 입력 3. 생성된 wikiSpider 폴더 확인 후 하위 wikiSpider 폴더에 article 파이썬 파일 생성 4. Spider에 article.py를 불러온 뒤 python-scraping-master의 쥬피터노트북 article 코드를 복사>붙여넣기 후 저장 (저장하지 않으면 scrapy runspider article.py 를 실행할 때 No spider found in file 오류가 생김) 5. Anaconda Pr..

파이썬으로 배우는 웹 크롤러 4주차_크롤링 실습 (특정 정보추출, 이미지 다운로드)

실습1: 뉴스기사 홈페이지에서 특정 뉴스의 정보를 추출하시오 실습2: 특정 홈페이지에 있는 img 소스를 다운받으시오 참고) User-agent header 값 설정하기 (파이썬에서 웹크롤링을 하다보면 막히는 사이트가 있음) 아래 사진을 참고해서 User-agent header 값을 찾아, 복사/붙여넣기 한 뒤 파이썬에서 http://www.pythonscraping.com할 수 있다.

파이썬으로 배우는 웹 크롤러 3주차_Selenium

Selenium 설치 Step 1: Chrome >> 더보기 >> 도움말 >> Chrome 정보에서 버전확인 후 ChromeDriver 설치 Step 2: Anaconda Prompt >> pip install selenium 입력 후 selenium 설치 Step 3: Anaconda Spyder에서 ChromeDriver.exe 경로설정 후 실행하면 3줄에 입력된 url 창이 뜬다 https://chromedriver.chromium.org/downloads ChromeDriver - WebDriver for Chrome - Downloads Current Releases If you are using Chrome version 92, please download ChromeDriver 92.0.45..

파이썬으로 배우는 웹 크롤러 2주차_BeatifulSoup

BeatifulSoup: parsing을 쉽게 하는 프로그램이다. parsing이란 어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 가공하는 것을 말한다. 이러한 파서(parser) 역할을 하는 컴퓨터가 구문 트리(parse tree)로 재구성하는 구문 분석 과정이다. 웹크롤링 팁 - F12를 누른 뒤 크롤링하려는 부분의 html소스코드 패턴을 살펴본다. - Filter를 통해 크롤링 하려는 부분이 단일값이 아닌 경우라면, 상위코드 전체를 크롤링 할 때 사용할 수 있다 웹크롤링 정규식 확인하는 사이트 https://regexr.com/ RegExr: Learn, Build, & Test RegEx RegExr is an online tool to learn, bui..

파이썬 머신러닝완벽가이드 7주차_고객 세그먼테이션 실습(452pg)

- 452pg. 군집화 실습- 고객 세그먼테이션 http://archive.ics.uci.edu/ml/datasets/online+retail UCI Machine Learning Repository: Online Retail Data Set Online Retail Data Set Download: Data Folder, Data Set Description Abstract: This is a transnational data set which contains all the transactions occurring between 01/12/2010 and 09/12/2011 for a UK-based and registered non-store online retail. Data Set Ch archi..

파이썬 머신러닝완벽가이드 7주차_군집화 평균이동, GMM, DBSCAN (427pg)

- 427pg. 평균이동 (Mean Shift) - 군집화의 한 방법으로 데이터가 모여있는 밀도가 가장높은곳 (KDE값이 높은 곳, 피크)으로 중심이동. 데이터의 분포도를 이용해 군집 중심점을 찾음. - 확률밀도함수 PDF (감마분포, t분포), Kernal Densitiy Estimation 함수 KDE(가우시안 분포함수) 이용 >> 반환값을 현재 위치에서 업데이트하면서 이동 >> 군집의 개수를 정하지 않으며, 오직 대역폭 h의 크기에 따라 군집화를 수행함 >> estimate_bandwidth( )함수: Kernal함수의 경사도를 조절한다. 대역폭 크기를 높아질수록 커널함수그래프가 완만(smoothing)해지며 여러개의 데이터들이 한 곳의 피크값으로 몰리게 된다. 이는 군집의 개수를 줄이는 요인이 된..

파이썬 머신러닝완벽가이드 7주차_군집화, 군집평가 (409pg)

군집화의 쓰임: 영상처리, 이미지 처리 409pg. K평균 알고리즘 N개의 군집 중심점 설정 >> 각 데이터는 가장 가까운 중심점에 소속 >> 중심점에 할당된 데이터들의 평균 중심으로 중심점 이동 >> 각 데이터는 이동된 중심점 기준으로 가장 가까운 중심점에 소속 >> 다시 중심점에 할당된 데이터들의 평균 중심으로 중심점 이동 - K평균 알고리즘 장점: 쉽고 간결한 알고리즘으로 가장 많이 활용된다. - K평균 알고리즘 단점: 거리기반 알고리즘으로 속성의 개수가 많으면 정확도가 떨어짐, 수행속도가 느리고 몇 개의 군집을 선택해야할지 가이드하기 어려움 사이킷런 KMeans 클래스 파라미터설정은 다음과 같다 - n_clusters: 군집화개수, 군집중심점의 개수 - init: 초기 군집 중심점의 좌표설정방식 ..

728x90
반응형