Selenium 실습 (K-stat 홈페이지)
STEP 1. 국내통계>>품목수출입>>100개씩보기
STEP 2. bs로 parsing한 뒤 1페이지부터 53페이지까지 페이지 넘기기 코드 수행
STEP 3. shutil, os, sys 패키지 import 후 다운로드 받은 파일을 특정 폴더에 넣고 xls파일 이름을 순차적으로 정리하기
STEP 4. 파일이 받아지지 않아서 없는 파일이거나 파일이 잘못 받아져서 내용이 빈 경우 예외처리 (선생님 답 참고)
STEP 5. 전체 53개의 파일을 하나의 데이터프레임으로 만들기 (concat 및 pandas 데이터전처리) + 특정조건에 맞는 데이터 추출
STEP 5 부가설명
다음을 이용해서 STEP 5를 수행하시오.
test1 = pd.concat([total[1], total[2]])
total[1]과 total[2]를 세로로 pd.conct 했다. 연결부분 중간에 column 헤더정보가 들어갔음을 볼 수 있다. >>전처리 필요
test2와 test3 비교
test2와 3은 total의 index 2 row의 전처리 전후 과정을 나타낸다. (test3은 2~끝 colulmn의 데이터값)
test2 = total[1]
test3 = test2.iloc[:,1:]
test4는 전처리된 test3의 column명을 코드로 바꾼 것이다.
test4 = test3.rename(columns = {'Unnamed: 1': '코드'})
'살콤아내 자기계발 > 파이썬' 카테고리의 다른 글
파이썬으로 배우는 웹 크롤러 6주차_Storing Data (pymysql 활용) (0) | 2021.07.06 |
---|---|
파이썬으로 배우는 웹 크롤러 5주차_My SQL 설치 및 기본 사용 방법 (0) | 2021.07.02 |
Scrapy 패키지 다운로드 및 사용법 (0) | 2021.07.01 |
파이썬으로 배우는 웹 크롤러 4주차_크롤링 실습 (특정 정보추출, 이미지 다운로드) (0) | 2021.06.30 |
파이썬으로 배우는 웹 크롤러 3주차_Selenium (0) | 2021.06.23 |