본문 바로가기
TOP

데이터 스킬업/웹크롤링22

[파이썬: 웹크롤링] #09 리스트로 데이터프레임(DataFrame) 만들기 with Pandas [왕초보 웹크롤링 따라하기] 데이터 시각화, 파이썬 도표 만들기, 판다스(pandas), 데이터프레임(Dataframe), 리스트 #09 리스트로 표(DataFrame) 만들기 엑셀로 데이터를 보는 것이 익숙하긴 하지만, 크롤링한 데이터를 엑셀로 보는 것은 추가로 작성해야하는 코드도 많고 엑셀을 켜야하는 등 상당히 번거로울 수 있다. 이번에는 코딩창에서 표를 바로 볼 수 있는 방법을 알아보자. 판다스(pandas) 모듈 사용하기 pandas 모듈은 리스트 데이터를 데이터프레임(표)을 만들어 주는 모듈이다. Terminal 창에 pip install pandas를 적어 설치하고 코드창에 import 해주자. 이제 이전에 작성한 엑셀 관련 코드를 모두 지우고 [리스트]를 데이터프레임(df)으로 바꿔줘야한다... 2022. 6. 12.
[파이썬: 웹크롤링] #08 데이터의 시각화, 엑셀 만들기! with openpyxl [왕초보 웹크롤링 따라하기] 데이터 시각화, exel 변환, 파이썬 도표 만들기, openpyxl, Workbook #08 데이터의 시각화, 엑셀 만들기! with 파이썬 이번에는 웹에서 추출한 데이터를 시각화해보려고 한다. 파이썬으로 시각화 하는 방법은 3가지가 있다. 첫째, 데이터를 엑셀 파일로 출력하기.둘째, 파이참에서 바로 도표화 시키기. 셋째, 쥬피터노트에서 도표화 시키기다. 데이터, 엑셀로 변환하기 파이참에서 추출한 데이터를 엑셀 표로 변하기 위해서는 openpyxl 모듈의 활성화가 필요하다. openpyxl 모듈은 파이참으로 엑셀 프로그램을 제어할 수 있게 해준다. 설치해 주자. pip install openpyxl 설치를 마친 후 from openpyxl improt Workbook을 적어.. 2022. 6. 12.
[파이썬: 웹크롤링] #07 원하는 데이터 추출하기 with 리스트 슬라이싱/for문/if 조건문 [왕초보 웹크롤링 무작정 따라하기] 파이썬 반복문(for문/폴문), 리스트(list), 리스트 슬라이싱, 홀수/짝수 제거. 불린함수, if함수 #07 원하는 데이터 추출하기 1. 리스트 슬라이싱으로 홀수/짝수 제거 (바로가기 click) 2. for문과 if조건으로 홀수/작수 제거 (바로가기 click) 이전의 쳅터에서는 .find()를 사용해 class의 유무로 필요한 데이터를 추출했다. 하지만, 이전의 경우는 운이 좋았을 뿐 필요한 데이터와 불필요한 데이터의 경로가 동일하고 class가 같거나 없을 때는 둘을 구분할 수 없게 된다. 이럴 때는 리스트 슬라이싱과 if문을 사용하여 원하는 데이터만 필터링할 수 있다. 프로그램명과 채널명이 함께 추출되었던 것을 확인해면 홀수 번째 요소는 '채널', 짝수 번.. 2022. 3. 26.
[파이썬:웹크롤링] #20 셀레니움과 input으로 로그인 하기 for 인스타그램 [왕초보 웹크롤링 무작정 따라하기] 로그인 하기, 로그인 실패 시 재입력, 입력값 지우기, 셀레니움, 동적페이지, 셀레니움 파싱, for반복문, input 업무지옥을 탈출한 건에 대하여(feat.업무자동화) #20 셀레니움과 input으로 로그인 하기 for 인스타그램 이전에 셀레니움을 통해서 인스타그램 피드 데이터 크롤링을 성공했다. 하지만 이전 코드에서는 아이디와 비밀번호가 고정되어 있었고, 모든 피드의 데이터를 내려받게 되어있었다. 아이디와 비밀번호가 고정되어 있으면 다른 계정을 크롤링 하려고 할때 마다 코드를 수정해 줘야한다는 점이 불편하다. 그리고 전체 피드 데이터를 받는 것은 너무 시간이 많이 들기 때문에 개수를 지정하면 더 활용도가 좋을 것이다. 코드를 실행하면 값을 직접 입력할 수 있도록 .. 2022. 1. 16.
[ep01:웹크롤링] #19 인스타그램 웹크롤링 자동화(예제) with 파이썬 [왕초보 웹크롤링 무작정 따라하기] 웹크롤링, 셀레니움, 동적페이지, 셀레니움 파싱, for반복문 업무지옥을 탈출한 건에 대하여(feat.업무자동화) #19 인스타그램 웹크롤링 자동화(예제) 풀이 코드 (바로가기 Click) 동적페이지를 다루기 위한 수련을 모두 마쳤다. 조금 더 난이도를 높여 인스타그램 피드의 게시물 인사이트를 크롤링하고 데이터를 엑셀로 정리해보자. 도전 과제 인스타그램 피드 인사이트에서 '날짜 / 노출 / 좋아요 / 댓글 / 공유 / 프로필방문 / 도달계정 / 팔로우 획득' 수치를 추출하여 엑셀로 저장하시오. - 가이드 - 1. 셀레니움을 통한 로그인 및 프로필 페이지 도달 2. 스크롤 이동과 상대좌표와 자바스크립트를 활용한 동작 자동화 3. 데이터 추출 및 오류무시 코드 추가 4. .. 2021. 8. 13.
[ep01:웹크롤링] #18 오류 무시/예외 처리(Try/Except) with 파이썬 [왕초보 웹크롤링 무작정 따라하기] 웹크롤링, 셀레니움, 오류 무시, 오류 예외 만들기, Try, Except, Exception. 업무지옥을 탈출한 건에 대하여(feat.업무자동화) #18 오류 무시/예외 처리(Try/Except) Try / Except 사용하기 (바로가기 Click) 인스타그램(동적페이지)를 크롤링하기 위해 필수적인 코드들을 익혔다. 만들어둔 동작 자동화 코드에 .find 와 .text 메소드를 사용해 텍스트를 추출하면 된다. 브라우저 개발자 도구에서 경로를 추출하고 추출할 데이터에 맞게 수정해 코드에 넣어주었다. (브라우저 개발자도구에서 경로 파악하는 과정 생략) #라이브러리 활성화 import time from selenium import webdriver from seleniu.. 2021. 8. 12.