살콤아내 자기계발/파이썬

파이썬으로 배우는 웹 크롤러 2주차_BeatifulSoup

살콤아내 2021. 6. 18. 12:49
728x90
반응형

BeatifulSoup: parsing을 쉽게 하는 프로그램이다. parsing이란 어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 가공하는 것을 말한다. 이러한 파서(parser) 역할을 하는 컴퓨터가 구문 트리(parse tree)로 재구성하는 구문 분석 과정이다.

 

 

python-scraping-master_1.py
0.00MB
python-scraping-master_2.py
0.00MB
python-scraping-master_3.py
0.02MB

 

웹크롤링 팁

- F12를 누른 뒤 크롤링하려는 부분의 html소스코드 패턴을 살펴본다.

- Filter를 통해 크롤링 하려는 부분이 단일값이 아닌 경우라면, 상위코드 전체를 크롤링 할 때 사용할 수 있다

  

 

 

웹크롤링 정규식 확인하는 사이트

https://regexr.com/

 

RegExr: Learn, Build, & Test RegEx

RegExr is an online tool to learn, build, & test Regular Expressions (RegEx / RegExp).

regexr.com

 

728x90
반응형