BeautifulSoup 예제1 네이버 실시간 검색어 긁어오기
2018. 1. 24. 18:34ㆍPython/Programming
HTML문서를 긁어오려면 HTML문서의 구성을 먼저 파악하고 긁어오고자 하는 태그들을 찾아서 어떻게 해당 태그를 지정할 수 있을 지 결정해야합니다
네이버 홈페이지의 소스코드를 살펴보겠습니다
실시간 급상승 검색어에는 클래스가 지정되어 있어서 해당 클래스를 검색함으로써 해당 태그를 선택할 수 있었다
[ 파이썬 코드 ]
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | import urllib.request from bs4 import BeautifulSoup url = "https://www.naver.com/" req = urllib.request.Request(url) sourcecode = urllib.request.urlopen(url).read() soup = BeautifulSoup(sourcecode, "html.parser") rank = soup.find("ul",class_="ah_l") # html문서에서 "ul"태그 중 class명이 ah_l 인 태그 검색 for list in rank.find_all("li"): print(list.get_text("위: ", strip=True)) # 문자열 출력시각 태그들을 구분하고 앞 뒤 공백 제거 |
[ 코드 실행 결과 ]
'Python > Programming' 카테고리의 다른 글
BeautifulSoup 예제2 음원사이트 Genie 차트 순위 긁어오기 (0) | 2018.01.24 |
---|---|
Python을 이용한 이미지 다운로드 ( urlretrieve ) (1) | 2018.01.24 |
BeautifulSoup (2) 검색 메서드 (0) | 2018.01.18 |
BeatifulSoup (1) 기본 메서드 (0) | 2018.01.16 |
Python HTTP Request & Response 실습( urllib module ) (0) | 2018.01.16 |