728x90
반응형
BeatifulSoup: parsing을 쉽게 하는 프로그램이다. parsing이란 어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 가공하는 것을 말한다. 이러한 파서(parser) 역할을 하는 컴퓨터가 구문 트리(parse tree)로 재구성하는 구문 분석 과정이다.
python-scraping-master_1.py
0.00MB
python-scraping-master_2.py
0.00MB
python-scraping-master_3.py
0.02MB
웹크롤링 팁
- F12를 누른 뒤 크롤링하려는 부분의 html소스코드 패턴을 살펴본다.
- Filter를 통해 크롤링 하려는 부분이 단일값이 아닌 경우라면, 상위코드 전체를 크롤링 할 때 사용할 수 있다
웹크롤링 정규식 확인하는 사이트
RegExr: Learn, Build, & Test RegEx
RegExr is an online tool to learn, build, & test Regular Expressions (RegEx / RegExp).
regexr.com
728x90
반응형
'살콤아내 자기계발 > 파이썬' 카테고리의 다른 글
파이썬으로 배우는 웹 크롤러 4주차_크롤링 실습 (특정 정보추출, 이미지 다운로드) (0) | 2021.06.30 |
---|---|
파이썬으로 배우는 웹 크롤러 3주차_Selenium (0) | 2021.06.23 |
파이썬 머신러닝완벽가이드 7주차_고객 세그먼테이션 실습(452pg) (0) | 2021.06.16 |
파이썬 머신러닝완벽가이드 7주차_군집화 평균이동, GMM, DBSCAN (427pg) (0) | 2021.06.14 |
파이썬 머신러닝완벽가이드 7주차_군집화, 군집평가 (409pg) (0) | 2021.06.11 |