[왕초보 웹크롤링 무작정 따라하기] 웹크롤링을 위한 사전준비! 크롬브라우저/파이썬/파이참 설치부터 실행까지
#01 웹크롤링 사전준비, 파이썬/쥬피터노트북/크롬브라우저 설치부터 실행까지
웹크롤링 사전준비 (쥬피터노트북 / 크롬브라우저)
웹크롤링을 하기 위해서는 우리는 코딩을 해야한다. 다양한 코딩언어 중 파이썬은 다른 프로그래밍 언어보다 익히기 쉽고 데이터분석과 웹크롤링에 많이 사용된다. 그리고 파이썬으로 웹크로링을 하기 위해서는 기본적으로 2가지 환경을 갖춰야 한다. 첫 째는 편리한 코딩환경을 제공하는 '쥬피터 노트북', 둘 째는 크롤링할 데이터를 확인할 '크롬 브라우저'이다.
다양한 코딩환경을 제공하는 IDE(통합개발환경)가 존재하지만 그 중 '쥬피터 노트북(Jupyter Notebook)'를 사용하는 이유는 코드를 셀 별로 분리하여 실행할 수 있고 시각화가 용이하며 파일 관리가 편리해 코딩초보가 입문하기 제격인 개발환경이기 때문이다. 웹브라우저는 익숙한 '크롬'을 사용한다.
1. 크롬 브라우저 다운로드: https://www.google.com/intl/ko/chrome/
2. 쥬피터 노트북 다운로드: https://www.anaconda.com/products/individual
쥬피터노트북을 사용하기 위해서는 먼저 아나콘다를 설치해줘야 한다. 아나콘다는 다양한 개발환경을 한데 모아둔 플랫폼으로 아나콘다 홈페이지에서 설치파일을 다운로드 받아주자. 설치 시 체크박스를 모두 체크하고 설치를 완료 후 아나콘다 프로그램을 실행시키면 다양한 프로그램 중 쥬피터 노트북을 확인 할 수 있다. 이제 쥬피터 노트북을 설치해주기만 하면 된다. 쥬피터노트북 설치를 마치고 Launch 버튼을 클릭하면 웹브라우저에서 쥬피터 노트북이 실행된다.
쥬피터노트북의 첫 화면은 사용자계정 폴더(C:\Users\사용자계정 폴더) 안의 폴더들을 보여주는 것이다. 즉, 웹브라우저에서 실행되기는 하지만 쥬피터노트북에서 생성한 폴더나 파일은 컴퓨터 내에 생성되며 파일이 날아가는 것을 걱정하지 않아도 된다. 때문에 내컴퓨터 또는 파일탐색기를 통해 사용자계정 폴더에 들어가면 쥬피터노트북에서 작업했던 파일과 결과물을 자유롭게 확인/이동/삭제가 가능하다.
첫화면에서 코딩을 시작해도 상관없지만 앞으로 작업할 파일들을 저장할 폴더를 만들어주자. 새로운 폴더 생성은 우측 상단 'New'를 클릭 후, Folder을 선택하면 'Untitled Folder'라는 폴더가 만들어지는데, 폴더 좌측 체크박스를 클릭하면 좌측 상단의 'Rename'으로 이름을 수정할 수 있다. 하지만 이러한 과정이 번거롭기 때문에 사용자폴더에서 새폴더를 만들고 이름을 수정하는 것이 더욱 간편하다. 마지막으로 생성한 폴더를 우측클릭 후 '즐겨찾기에 고정' 또는 바로가기를 만들어 두면 더욱 편하게 사용할 수 있다.
3. 쥬피터 노트북 프로젝트 생성
코딩을 하기위한 기본적인 환경세팅은 완료되었으니 새 프로젝트를 만들어보자. 새폴더를 만들 때와 마찬가지로 우측 상단의 'New'를 클릭 후, Python 3(ipykernel)을 선택하면 'Untitled'이란 이름의 프로젝트가 생성된다. 제목은 클릭하여 수정할 수 있다. 앞서 말했듯이 쥬피터 노트북은 셀단위로 코드를 실행할 수 있는데, 우측 상단의 + 버튼 클릭 또는 단축키를 사용하면 된다(단축키는 아래 참고). 코드를 실행시킬 때매다 우측 괄호 안에 숫자가 올라간다.
선택한 셀 위로 셀 추가 | 셀 클릭 후, A |
선택한 셀 아래로 셀 추가 | 셀 클릭 후, B |
셀 제거 | 제거하려는 셀 클릭 후, D 2번 |
셀 실행 | 실행하려는 셀 클릭 후, ctrl+enter |
셀 실행 후 아래 셀 이동 | 실행하려는 셀 클릭 후, shift+enter |
셀 실행 후 아래 셀 추가 | 실행하려는 셀 클릭 후, alt+enter |
코드 행 보기/끄기 | 셀 클릭 후, L |
기본적인 코딩 준비를 맞쳤으니, 본격적으로 웹크롤링은 어떻게 하는 것인지 살펴보자.
▼다음편 이어보기▼
'데이터 스킬업 > 웹크롤링' 카테고리의 다른 글
[파이썬: 웹크롤링] #02 requests와 BeatifulSoup 사용해서 html 불러오기 (1) | 2023.02.28 |
---|---|
[파이썬: 웹크롤링] #01 웹크롤링 입문! 정적/동적 페이지에 대하여 (0) | 2023.02.28 |
[파이썬:웹크롤링] #15 셀레니움 크롤링 반복문 with for문 & range (4) | 2022.06.23 |
[파이썬:웹크롤링] #14 인스타그램 좋아요 수 크롤링(마우스오버/텍스트 추출) with move_to_element() (0) | 2022.06.12 |
[파이썬:웹크롤링] #13 인스타그램 로그인하기 with Selenium (1) | 2022.06.12 |
댓글