본문 바로가기
TOP
데이터 스킬업/웹크롤링

[파이썬: 웹크롤링] #00 웹크롤링 사전준비, 파이썬/쥬피터노트북/크롬브라우저 설치부터 실행까지

by 티챠림 2023. 2. 28.

[왕초보 웹크롤링 무작정 따라하기] 웹크롤링을 위한 사전준비! 크롬브라우저/파이썬/파이참 설치부터 실행까지


#01 웹크롤링 사전준비, 파이썬/쥬피터노트북/크롬브라우저 설치부터 실행까지



  웹크롤링 사전준비 (쥬피터노트북 / 크롬브라우저)

웹크롤링을 하기 위해서는 우리는 코딩을 해야한다. 다양한 코딩언어 중 파이썬은 다른 프로그래밍 언어보다 익히기 쉽고 데이터분석과 웹크롤링에 많이 사용된다. 그리고 파이썬으로 웹크로링을 하기 위해서는 기본적으로 2가지 환경을 갖춰야 한다. 첫 째는 편리한 코딩환경을 제공하는 '쥬피터 노트북', 둘 째는 크롤링할 데이터를 확인'크롬 브라우저'이다.

 

다양한 코딩환경을 제공하는 IDE(통합개발환경)가 존재하지만 그 중  '쥬피터 노트북(Jupyter Notebook)'를 사용하는 이유는 코드를 셀 별로 분리하여 실행할 수 있고 시각화가 용이하며 파일 관리가 편리해 코딩초보가 입문하기 제격인 개발환경이기 때문이다. 웹브라우저는 익숙한 '크롬'을 사용한다.  

 


1. 크롬 브라우저 다운로드: https://www.google.com/intl/ko/chrome/

 

Chrome 웹브라우저

더욱 스마트해진 Google로 더 간편하고 안전하고 빠르게.

www.google.com

 

 

2. 쥬피터 노트북 다운로드: https://www.anaconda.com/products/individual

쥬피터노트북을 사용하기 위해서는 먼저 아나콘다를 설치해줘야 한다. 아나콘다는 다양한 개발환경을 한데 모아둔 플랫폼으로 아나콘다 홈페이지에서 설치파일을 다운로드 받아주자. 설치 시 체크박스를 모두 체크하고 설치를 완료 후 아나콘다 프로그램을 실행시키면 다양한 프로그램 중 쥬피터 노트북을 확인 할 수 있다. 이제 쥬피터 노트북을 설치해주기만 하면 된다. 쥬피터노트북 설치를 마치고 Launch 버튼을 클릭하면 웹브라우저에서 쥬피터 노트북이 실행된다. 

 

Anaconda | Anaconda Distribution

Anaconda's open-source Distribution is the easiest way to perform Python/R data science and machine learning on a single machine.

www.anaconda.com

아나콘다 실행화면(좌), 쥬피터노트북 실행화면(우)

쥬피터노트북의 첫 화면사용자계정 폴더(C:\Users\사용자계정 폴더) 안의 폴더들을 보여주는 것이다. 즉, 웹브라우저에서 실행되기는 하지만 쥬피터노트북에서 생성한 폴더나 파일은 컴퓨터 내에 생성되며 파일이 날아가는 것을 걱정하지 않아도 된다. 때문에 내컴퓨터 또는 파일탐색기를 통해 사용자계정 폴더에 들어가면 쥬피터노트북에서 작업했던 파일과 결과물을 자유롭게 확인/이동/삭제가 가능하다.

 

첫화면에서 코딩을 시작해도 상관없지만 앞으로 작업할 파일들을 저장할 폴더를 만들어주자. 새로운 폴더 생성은 우측 상단 'New'를 클릭 후, Folder을 선택하면 'Untitled Folder'라는 폴더가 만들어지는데, 폴더 좌측 체크박스를 클릭하면 좌측 상단의 'Rename'으로 이름을 수정할 수 있다. 하지만 이러한 과정이 번거롭기 때문에 사용자폴더에서 새폴더를 만들고 이름을 수정하는 것이 더욱 간편하다. 마지막으로 생성한 폴더를 우측클릭 후 '즐겨찾기에 고정' 또는 바로가기를 만들어 두면 더욱 편하게 사용할 수 있다. 

 

새로운 폴더를 만드는 쥬피터노트북 화면(좌), 사용자계정 폴더에서 폴더 생성 후 즐겨찾기에 고정한 화면(우)

 

3. 쥬피터 노트북 프로젝트 생성

코딩을 하기위한 기본적인 환경세팅은 완료되었으니 새 프로젝트를 만들어보자. 새폴더를 만들 때와 마찬가지로 우측 상단의 'New'를 클릭 후, Python 3(ipykernel)을 선택하면 'Untitled'이란 이름의 프로젝트가 생성된다. 제목은 클릭하여 수정할 수 있다. 앞서 말했듯이 쥬피터 노트북은 셀단위로 코드를 실행할 수 있는데, 우측 상단의 + 버튼 클릭 또는 단축키를 사용하면 된다(단축키는 아래 참고). 코드를 실행시킬 때매다 우측 괄호 안에 숫자가 올라간다. 

새로운 프로젝트 만들기(좌), 새로운 프로젝트 화면(우)

선택한 셀 위로 셀 추가 셀 클릭 후,  A 
선택한 셀 아래로 셀 추가 셀 클릭 후,  B 
셀 제거 제거하려는 셀 클릭 후, D 2번
셀 실행 실행하려는 셀 클릭 후, ctrl+enter
셀 실행 후 아래 셀 이동 실행하려는 셀 클릭 후, shift+enter
셀 실행 후 아래 셀 추가 실행하려는 셀 클릭 후, alt+enter
코드 행 보기/끄기 셀 클릭 후, L

제목 수정 및 코드를 실행시켜본 화면

 

기본적인 코딩 준비를 맞쳤으니, 본격적으로 웹크롤링은 어떻게 하는 것인지 살펴보자.

 

 

▼다음편 이어보기▼

 

[파이썬: 웹크롤링] #02 웹크롤링 입문! 정적/동적 페이지에 대하여

​[왕초보 웹크롤링 무작정 따라하기] 웹크롤링 입문, 정적 페이지와 동적페이지, requests, BeautifulSoup, selenium #02 웹크롤링 입문! 정적/동적 페이지에 대하여 웹크롤링은 기본적으로 웹페이지를 구

charimlab.tistory.com

댓글