BeautifulSoup 예제1 네이버 실시간 검색어 긁어오기

2018. 1. 24. 18:34Python/Programming



HTML문서를 긁어오려면 HTML문서의 구성을 먼저 파악하고 긁어오고자 하는 태그들을 찾아서 어떻게 해당 태그를 지정할 수 있을 지 결정해야합니다

네이버 홈페이지의 소스코드를 살펴보겠습니다



실시간 급상승 검색어에는 클래스가 지정되어 있어서 해당 클래스를 검색함으로써 해당 태그를 선택할 수 있었다


[ 파이썬 코드 ] 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import urllib.request
from bs4 import BeautifulSoup
 
url = "https://www.naver.com/"
req = urllib.request.Request(url)
sourcecode = urllib.request.urlopen(url).read()
soup = BeautifulSoup(sourcecode, "html.parser")
 
rank = soup.find("ul",class_="ah_l") # html문서에서 "ul"태그 중 class명이 ah_l 인 태그 검색
for list in rank.find_all("li"):
              print(list.get_text("위: ", strip=True))
# 문자열 출력시각 태그들을 구분하고 앞 뒤 공백 제거
 

cs


[ 코드 실행 결과 ]