본문 바로가기
TOP
데이터 스킬업/웹크롤링

[파이썬:웹크롤링] #10 쥬피터노트북 dataframe 만들기 with Pandas

by 티챠림 2022. 6. 12.

[왕초보 웹크롤링 따라하기] 데이터 시각화, 파이썬 도표 만들기, 판다스(pandas), 데이터프레임(Dataframe), 쥬피터노트북, 쥬피터


#10 쥬피터노트북 dataframe 만들기



이번에는 지금껏 사용하던 파이참이 아닌 쥬피터노트를 사용한다. 쥬피터노트는 파이참보다 가벼운 프로그램으로 보다 데이터 시각화에 특화되어 있다. 코드 전체가 한 번에 실행되는 파이참과 달리 코드 한개한개 개별로 실행할 수 있기 때문에 바로바로 코드의 결과와 정상작동 유무를 확인할 수 있다. 처리해야할 데이터가 다양할 경우 중간중간 데이터프레임과 결과를 봐야할 필요가 생긴다. 파이참의 경우 전체 코드를 실행시켜야 결과값을 볼 수있기 매우 불편하다. 반면,  쥬피터노트는 코드 하나하나 실행해 볼 수 있기 때문에 실시간으로 표를 확인하면서 재구성하기에 매우 편리하다. 그럼 먼저 쥬피터노트를 설치해 보자.

 

 

  쥬피터노트 설치하기

쥬피터노트북을 사용하기 위해서는 먼저 아나콘다를 설치해줘야 한다. 아나콘다 홈페이지에서 설치파일을 다운로드 받고, 설치 시 체크박스를 모두 체크해주자. 설치를 완료하고 프로그램을 실행시키면 다양한 프로그램 중 쥬피터 노트를 확인 할 수 있다. 

 

아나콘다 다운로드 : https://www.anaconda.com/products/individual

 

Anaconda | Anaconda Distribution

Anaconda's open-source Distribution is the easiest way to perform Python/R data science and machine learning on a single machine.

www.anaconda.com

쥬피터노트북을 실행시켜보자.

 

쥬피터노트북 Launch 버튼을 클릭하면 웹브라우저에서 실행된다. New 버튼을 눌러 바로 코딩을 시작해도 문제는 없지만 우선 정리용 폴더를 만들어 주자. 생성한 폴더나 파일은 컴퓨터 내 생성되며 파일이 날아가는 것을 걱정하지 않아도 된다.

쥬피터노트북_실행
쥬피터 노트북 홈 화면
폴더생성
폴더 만들기
파일생성
Nwe - Python3 를 클릭하면 작업화면이 새로운 탭에 열린다.
작업화면
요렇게!

 

 

  데이터프레임(df) 만들기

이제 파이참에서 짜둔 코드를 그대로 복붙해보자. 단, 쥬피터노트북에서는 데이터프레임을 출력하는데 print()함수를 쓸 필요가 없다.  데이터프레임으로 지정된 변수만 적어주면 된다. 파이참에서 표를 출력하기 위해 적었던 print(df)는 지워준다.

import requests
from bs4 import BeautifulSoup
import pandas as pd

response = requests.get("https://search.naver.com/search.naver?where=nexearch&sm=tab_etc&mra=blUw&qvt=0&query=05월31일주%20예능%20시청률")
html_data = BeautifulSoup(response.text, 'html.parser')
program_names = html_data.select('td>p>a')
program_name = program_names[::2]


#빈 리스트 만들기
rows = []


ranking = 0
for tag in program_name:
    ranking = ranking + 1
    name = tag.get_text()
    row = [ranking, name]
    rows.append(row)

df = pd.DataFrame(rows, columns = ['순위', '프로그램명'])

결과창
입력창 옆의 번호는 해당 셀이 실행된 순서이다.

 

 

Shift + Enter를 눌러주면 셀이 실행되며 아래에 빈 셀이 생성된다. 여기에 데이터프레임으로 지정된 변수 df를 적고  Shift + Enter로 실행시켜 주자. 앞서 말했듯, 쥬피터뉴트북에서는 print()가 필요 없이 df만 적어도 표가 출력된다. 오히려 print()를 사용하면 데이터 그대로를 출력하기 때문에 예쁘게 나오지 않는다.

 

표생성
파이참에서 실행했을 때보다 훨씬 보기 좋다!
print()함수를 써서 출력한 결과값, 파이참에서 실행한 결과와 동일

 


▼다음편 이어보기▼

 

[ep01:웹크롤링] #10 쇼핑몰 제품정보/평점/리뷰수 리스트업(예제) with 파이썬

Teaser Copy. 퍼포먼스 마케팅, 그로스해킹, 데이터 측정을 위한 웹 데이터 수집. 파이썬으로 웹 데이터 수집을 자동으로! [왕초보 웹크롤링 따라하기] 웹크롤링, 파이썬, 데이터 추출, 엑셀표만들

charimlab.tistory.com

댓글