본문 바로가기
TOP

데이터 스킬업27

[파이썬: 웹크롤링] #00 웹크롤링 사전준비, 파이썬/쥬피터노트북/크롬브라우저 설치부터 실행까지 [왕초보 웹크롤링 무작정 따라하기] 웹크롤링을 위한 사전준비! 크롬브라우저/파이썬/파이참 설치부터 실행까지 #01 웹크롤링 사전준비, 파이썬/쥬피터노트북/크롬브라우저 설치부터 실행까지 웹크롤링 사전준비 (쥬피터노트북 / 크롬브라우저) 웹크롤링을 하기 위해서는 우리는 코딩을 해야한다. 다양한 코딩언어 중 파이썬은 다른 프로그래밍 언어보다 익히기 쉽고 데이터분석과 웹크롤링에 많이 사용된다. 그리고 파이썬으로 웹크로링을 하기 위해서는 기본적으로 2가지 환경을 갖춰야 한다. 첫 째는 편리한 코딩환경을 제공하는 '쥬피터 노트북', 둘 째는 크롤링할 데이터를 확인할 '크롬 브라우저'이다. 다양한 코딩환경을 제공하는 IDE(통합개발환경)가 존재하지만 그 중 '쥬피터 노트북(Jupyter Notebook)'를 사용하는.. 2023. 2. 28.
[파이썬 : DataFrame 다루기] #02 행/열 추가 및 제거 with Pandas [왕초보 데이터분석 무작정 따라하기] DataFrame을 다루는데 있어 필요한 행/열의 추가 및 제거에 사용하는 concat(), drop() 메소드를 설명한다. 행/열 추가 및 제거, 중복값 제거 행/열 추가 (바로가기 Click) 행/열 제거 (바로가기 Click) 데이터를 다루다 보면 행이나 열을 추가하거나 제거해야하는 경우가 많이 발생한다. 판다스의 concat() 메소드를 이용하면 행/ 열을 추가를, drop() 메소드를 이용하면 행/열 제거를 쉽게 할 수 있다. 아래와 같은 A_df가 존재할 때, 행(row) 또는 열(column)을 추가 및 제거하는 방법을 알아보자. import pandas as pd A_df = pd.DataFrame({'str' : ['a', 'b', 'c'], 'int.. 2022. 7. 17.
[파이썬 : DataFrame 다루기] #01 DataFrame 생성, 컬럼값(특정값)/인덱스 기준 정렬 with Pandas [왕초보 데이터분석 무작정 따라하기] 데이터분석의 가장 기초가 되는 DataFrame에 대해 알아보고, 파이썬을 통한 DataFrame 생성과 정렬 코드를 설명한다. DataFrame 생성, 컬럼(특정값)/인덱스 기준 정렬 Dataframe 생성 (바로가기 Click) 컬럼기준 정렬/인덱스기준 정렬 (바로가기 Click) 기능 코드 파라미터 pandas 라이브러리 불러오기 import pandas as pd DataFrame 만들기 pd.DataFrame(data = , columns =[]) data = : 데이터를 구성하는 row 리스트 colmns = ['컬럼명', ...] : 컬럼명 지정 컬럼 기준 정렬하기 .sort_values(by = [], ascending = ) by = ['컬럼명'] :.. 2022. 7. 17.
[파이썬:웹크롤링] #15 셀레니움 크롤링 반복문 with for문 & range [왕초보 웹크롤링 무작정 따라하기] 웹크롤링, 셀레니움, for 반복문, range. #15 셀레니움 크롤링 반복문 with for문 & range for반복문과 range()활용법 (바로가기 Click) 피드 1개를 크롤링해봤으니 이번에는 12개 게시물을 클롤링해 보자. 반복행동은 for문을 사용하면 간단하게 만들 수 있다. 반복문을 만들기 위해 먼저 해야할 것은 각 피드 경로의 규칙성을 찾는 것이다. 웹 개발자 도구에서 html을 확인해 보자. 확인해 보면, 3개의 피드가 한개의 열로 구성되어 있고 xpath의 숫자가 규칙적으로 1~3으로 바뀌는 것을 알 수 있다. 맨 마지막 div의 번호는 칸의 순서, 뒤에서 2번 째 div 번호는 열 번호이다. 그렇다면 12개의 피드를 추철하기 위해서는 총 4개 .. 2022. 6. 23.
[인트로: 데이터분석] #00 마케터에게 데이터란? [왕초보 데이터분석 무작정 따라하기] 마케터는 왜 데이터 분석을 해야할까? 그리고 어떤 분석을 할 수 있을까? 마케터를 위한 통계분석을 소개한다. #00 마케터를 위한 데이터 분석 마케터에게 데이터분석이란 많은 기업들이 마케터에게 data-driven 역량을 요구한다. 마케터 혹은 예비 마케터들은 기업의 요구 맞춰 GA, GTM, Excel, SQL과 같은 데이터 툴을 익힌다. GA와 GTM은 웹의 로그 추적하는 방식으로 사용자가 타겟 페이지까지 어떠한 경로로 유입되었으며 어떤 상호작용이 이루어졌는지 파악한다. 이를 파악하고 어떠한 지표가 높을 때, 목표한 페이지의 도달율 또는 매출이 높아지는지 알아내고 그 지표를 개선하기 위해 노력한다. 하지만 상당수의 디지털 마케터, 퍼포머스 마케터가 그러하듯 GA와.. 2022. 6. 21.
[파이썬:웹크롤링] #14 인스타그램 좋아요 수 크롤링(마우스오버/텍스트 추출) with move_to_element() [왕초보 웹크롤링 무작정 따라하기] 웹크롤링, 셀레니움, 액션체인, 마우스오버, move_to_element(), 웹 텍스트 추출, text #14 인스타그램 좋아요 수 크롤링(마우스오버/텍스트 출력) 액션체인, 마우스 오버하기 (바로가기 Click) 웹데이터 텍스트값 추출하기 (바로가기 Click) 이전에 요소의 경로를 추출하는데 css 선택자를 사용했다면, 이번에는 xpath를 사용하려고 한다. 경로를 추출하는데 뭘 사용해도 상관은 없지만 경우에 따라 조금 더 편리한 것을 사용하면 된다. xpath 경로도 selector와 동일하게 개발자도구의 copy를 통해 복사할 수 있다. css 선택자로 단일 요소 찾는 메소드 .find_element_by_css_selector() css 선택자로 복수 요소 .. 2022. 6. 12.