살콤아내 자기계발/파이썬

파이썬으로 배우는 웹 크롤러 7주차_selenium/판다스DF 실습 (K-stat)

살콤아내 2021. 7. 9. 11:58
728x90
반응형

 

 

Selenium 실습 (K-stat 홈페이지)

 

 

python-scraping-master_7_selenium 실습.py
0.01MB
python-scraping-master_7_selenium (실습_선생님답_원본).py
0.01MB
python-scraping-master_7_selenium (실습_선생님답).py
0.01MB
python-scraping-master_7_판다스 데이터프레임 실습.py
0.00MB

 

 

STEP 1. 국내통계>>품목수출입>>100개씩보기

STEP 2. bs로 parsing한 뒤 1페이지부터 53페이지까지 페이지 넘기기 코드 수행

STEP 3. shutil, os, sys 패키지 import 후 다운로드 받은 파일을 특정 폴더에 넣고 xls파일 이름을 순차적으로 정리하기

STEP 4. 파일이 받아지지 않아서 없는 파일이거나 파일이 잘못 받아져서 내용이 빈 경우 예외처리 (선생님 답 참고)

STEP 5. 전체 53개의 파일을 하나의 데이터프레임으로 만들기 (concat 및 pandas 데이터전처리) + 특정조건에 맞는 데이터 추출

 

 

 

 

STEP 5 부가설명

다음을 이용해서 STEP 5를 수행하시오.

test1 = pd.concat([total[1], total[2]])

total[1]과 total[2]를 세로로 pd.conct 했다. 연결부분 중간에 column 헤더정보가 들어갔음을 볼 수 있다. >>전처리 필요

 

test2와 test3 비교

test2와 3은 total의 index 2 row의 전처리 전후 과정을 나타낸다. (test3은 2~끝 colulmn의 데이터값)

test2 = total[1]
test3 = test2.iloc[:,1:]

test4는 전처리된 test3의 column명을 코드로 바꾼 것이다.
test4 = test3.rename(columns = {'Unnamed: 1': '코드'})

728x90
반응형