HTML과 XML 파싱에 사용되는 python 패키지로 BeautifulSoup이 있다. 현재 버전은 4.4.0이다.
BeautifulSoup의 문서는 다음 한 페이지에 모두 설명되어 있다. 한 페이지의 양이 좀 길기는 하다. 한글문서가 있었던 것 같은데 지금은 링크가 깨져있다.
문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
코드:
from bs4 import BeautifulSoup html_string = ''' <html> <head> <title>나루의 HTML parsing</title> </head> <body> </body> </html> ''' soup = BeautifulSoup(html_string, 'lxml') title = soup.select("title")[0].get_text() print(title)
결과:
나루의 HTML parsing
HTML 태그 중 title 태그의 값을 가져오는 코드를 간단히 구현하였다.
select method는 결과를 list type으로 가져온다. 그리고 get_text method는 태그 사이에 있는 텍스트 값을 문자열로 가져온다.
다음에는 실제로 웹 페이지의 정보를 가져오는 코드를 작성해 보자.