[왕초보 웹크롤링 따라하기] 데이터 시각화, 파이썬 도표 만들기, 판다스(pandas), 데이터프레임(Dataframe), 쥬피터노트북, 쥬피터
#10 쥬피터노트북 dataframe 만들기
이번에는 지금껏 사용하던 파이참이 아닌 쥬피터노트를 사용한다. 쥬피터노트는 파이참보다 가벼운 프로그램으로 보다 데이터 시각화에 특화되어 있다. 코드 전체가 한 번에 실행되는 파이참과 달리 코드 한개한개 개별로 실행할 수 있기 때문에 바로바로 코드의 결과와 정상작동 유무를 확인할 수 있다. 처리해야할 데이터가 다양할 경우 중간중간 데이터프레임과 결과를 봐야할 필요가 생긴다. 파이참의 경우 전체 코드를 실행시켜야 결과값을 볼 수있기 매우 불편하다. 반면, 쥬피터노트는 코드 하나하나 실행해 볼 수 있기 때문에 실시간으로 표를 확인하면서 재구성하기에 매우 편리하다. 그럼 먼저 쥬피터노트를 설치해 보자.
쥬피터노트 설치하기
쥬피터노트북을 사용하기 위해서는 먼저 아나콘다를 설치해줘야 한다. 아나콘다 홈페이지에서 설치파일을 다운로드 받고, 설치 시 체크박스를 모두 체크해주자. 설치를 완료하고 프로그램을 실행시키면 다양한 프로그램 중 쥬피터 노트를 확인 할 수 있다.
아나콘다 다운로드 : https://www.anaconda.com/products/individual
쥬피터노트북 Launch 버튼을 클릭하면 웹브라우저에서 실행된다. New 버튼을 눌러 바로 코딩을 시작해도 문제는 없지만 우선 정리용 폴더를 만들어 주자. 생성한 폴더나 파일은 컴퓨터 내 생성되며 파일이 날아가는 것을 걱정하지 않아도 된다.
데이터프레임(df) 만들기
이제 파이참에서 짜둔 코드를 그대로 복붙해보자. 단, 쥬피터노트북에서는 데이터프레임을 출력하는데 print()함수를 쓸 필요가 없다. 데이터프레임으로 지정된 변수만 적어주면 된다. 파이참에서 표를 출력하기 위해 적었던 print(df)는 지워준다.
import requests
from bs4 import BeautifulSoup
import pandas as pd
response = requests.get("https://search.naver.com/search.naver?where=nexearch&sm=tab_etc&mra=blUw&qvt=0&query=05월31일주%20예능%20시청률")
html_data = BeautifulSoup(response.text, 'html.parser')
program_names = html_data.select('td>p>a')
program_name = program_names[::2]
#빈 리스트 만들기
rows = []
ranking = 0
for tag in program_name:
ranking = ranking + 1
name = tag.get_text()
row = [ranking, name]
rows.append(row)
df = pd.DataFrame(rows, columns = ['순위', '프로그램명'])
Shift + Enter를 눌러주면 셀이 실행되며 아래에 빈 셀이 생성된다. 여기에 데이터프레임으로 지정된 변수 df를 적고 Shift + Enter로 실행시켜 주자. 앞서 말했듯, 쥬피터뉴트북에서는 print()가 필요 없이 df만 적어도 표가 출력된다. 오히려 print()를 사용하면 데이터 그대로를 출력하기 때문에 예쁘게 나오지 않는다.
▼다음편 이어보기▼
'데이터 스킬업 > 웹크롤링' 카테고리의 다른 글
[파이썬:웹크롤링] #12 동적 웹페이지 크롤링 with Selenium (0) | 2022.06.12 |
---|---|
[파이썬:웹크롤링] #11 쇼핑몰 제품정보/평점/리뷰수 리스트업 (0) | 2022.06.12 |
[파이썬: 웹크롤링] #09 리스트로 데이터프레임(DataFrame) 만들기 with Pandas (0) | 2022.06.12 |
[파이썬: 웹크롤링] #08 데이터의 시각화, 엑셀 만들기! with openpyxl (0) | 2022.06.12 |
[파이썬: 웹크롤링] #07 원하는 데이터 추출하기 with 리스트 슬라이싱/for문/if 조건문 (0) | 2022.03.26 |
댓글