본문 바로가기
TOP

데이터 스킬업27

[트래픽 분석하기: GA4] #01. 트래픽이란? GA4의 주요 지표와 속성 [트래픽 분석하기: GA4] #01트래픽이란? GA4의 주요 지표와 속성트래픽은 '사이트에 유입된 데이터의 양'을 의미하며, 웹을 기반으로 하는 서비스의 경우 대부분 구글에서 제공하는 Google Analytics(GA)를 활용하여 트래픽을 측정/분석한다. 트래픽은 시점과 관점에 따라 광고/홍보 효과, UX/UI 평가 등 마케팅 활동과 서비스 운영에 있어 중요한 지표로 활용된다. 1. 트래픽의 지표: SessionGA4에서는 '세션(Session)'이란 단위로 트래픽을 측정하며, Ga4 기본 설정에서는 '사용자가 사이트에 들어온 시점부터 사이트 내에서 활동하지 않는 시간이 30분이 되기 전까지'를 하나의 세션으로 한다. 30분 동안 수십 번 나갔다 들어오더라도 세션은 1이며 하나의 활동으로 취급하는 것이.. 2024. 9. 14.
[파이썬: 웹크롤링] #06 html/CSS 선택자로 테이터 추출하기 with Select & Find [왕초보 웹크롤링 무작정 따라하기] 파이썬 반복문(for문), .select(), .find(), html 추출, 태그 추출, 선택자 추출, 필터링. #06 html/CSS 선택자로 테이터 추출하기 select()와 find() 메소드 (바로가기 click) find()로 필터링하기(바로가기 click) 이전에 select() 메소드를 활용해 크롤링을 했을 때, 경로가 중복되는 문제로 인해 불필요한 데이터까지 받아와졌다. 이번에는 중복되는 선택자를 제거하고 필요한 정보만 필터링 해보자. 우선 필터링을 하기 위해서는 각 요소를 선택하는 메소드 select()와 find()에 대해 알아야한다. 어떻게 쓰느냐에 따라 동일한 경로에 있는 선택자 모두를 선택할 수 있고, 하나만 선택할 수 있기 때문이다. 원하는 .. 2023. 3. 1.
[파이썬: 웹크롤링] #05 웹에서 텍스트 정보 뽑아내기 with BeautifulSoup, select, get_text (feat. 중복 경로 확인하기) [왕초보 웹크롤링 무작정 따라하기] 웹크롤링, BeatifulSoup, 태그 추출, .select(), 텍스트 추출, 문자값 추출, get_text() #04 웹에서 텍스트 정보 뽑아내기 문자 데이터 추출하기 (바로가기 Click) 중복 경로 확인하기 (바로가기 Click) 이전 쳅터에서 BeautifulSoup으로 html을 파싱하고 경로를 파악하는 것까지 해보았다. 이제 select와 get_text 메소드를 사용해서 실제 데이터를 뽑아내보도록 하자. html에서 문자 데이터 추출하기 select(), get_text() 앞서 파악했던 '프로그램명'들에 대한 경로 'td > p > a'를 select() 괄호 안에 넣으면 경로에 해당하는 데이터가 추출된다. program_names = soup.sel.. 2023. 3. 1.
[파이썬: 웹크롤링] #03 html에서 데이터 출력하기 with BeautifulSoup [왕초보 웹크롤링 무작정 따라하기] html 구조 파악하기, 태그, css 선택자, xpath, 경로 검색, 데이터 찾기 #03 html에서 데이터 출력하기 with BeautifulSoup html 구조 파악하기 (바로가기 Click) 데이터 경로 지정하기 (바로가기 Click) 텍스트 추출하기 (바로가기 Click) requests와 BeautifulSoup으로 불러온 html을 불러왔다면 select()와 find() 함수로 정보가 위치한 경로를 지정하여 필요한 정보만 추출할 수 있다. 경로를 지정해주기 위해서는 먼저 html 문서 어디에 원하는 정보가 위치해 있는 파악해야 한다. 1. html 불러오기 2. 원하는 정보의 경로 파악 3. 정보가 위치한 경로 지정 4. 필요한 정보만 추출 아래 코드.. 2023. 3. 1.
[파이썬: 웹크롤링] #02 requests와 BeatifulSoup 사용해서 html 불러오기 ​[왕초보 웹크롤링 무작정 따라하기] 쥬피터노트북 라이브러리 설치, requests, BeatifulSoup, html 불러오기 #02 request와 BeatifulSoup 사용해서 html 불러오기 쥬피터노트북 라이브러리 설치하기 (바로가기 Click) 웹에서 html 불러오기 (바로가기 Click) 01. 패키지 설치하기 pip install requests pip install BeautifulSoup4 정적 페이지를 크롤링하기 위해서는 requests와 BeatifulSoup 라이브러리가 필요하다. 주피터 노트북에서 라이브러리는 'Anaconda Prompt (anaconda 3)'에서 설치할 수 있다. 'Anaconda Prompt (anaconda 3)'는 바탕화면 작업표시줄에서 검색하면 쉽.. 2023. 2. 28.
[파이썬: 웹크롤링] #01 웹크롤링 입문! 정적/동적 페이지에 대하여 ​[왕초보 웹크롤링 무작정 따라하기] 웹크롤링 입문, 정적 페이지와 동적페이지, requests, BeautifulSoup, selenium #01 웹크롤링 입문! 정적/동적 페이지에 대하여 우리 눈에 보이는 웹 페이지는 html이라는 문서로 구성되는데, 웹크롤링은 이 html 문서 안의 텍스트, 숫자, 링크를 내 컴퓨터로 가져오는 것이다. 즉, 웹크롤링으로 가져올 수 있는 데이터는 해당 웹페이지의 html 안에 존재해야만 한다. 이러한 제약때문에 웹 페이지가 어떤 방식으로 서버에서 데이터를 받아오는지에 따라 크롤링의 방식도 달라진다. 웹 페이지는 한 번의 로딩으로 모든 정보가 불러와지는 정적 페이지와 사용자의 동작에 따라 정보가 실시간으로 갱신되는 동적 페이지가 있다. 그렇기 때문에 웹크롤링을 하기 전.. 2023. 2. 28.