웹 스크래핑이란 무엇일까?
웹페이지 상에는 엄청나게 많은 데이터들이 클라이언트들에게 보여지고 있다.
많은 사람들은 스크래핑과 크롤링을 같은 기술로 착각하는데 아니다.
엄연히 다른 기술이다.
Web Scraping(웹 스크래핑)이란?
웹 사이트 상에서 원하는 부분의 위치한 데이터를 추출하여 수집하는 기술.
Web crawling(웹 크롤링)이란?
자동화 봇(bot)인 웹 크롤러(web crawler)가 정해진 규칙에 따라 복수 개수 웹 페이지를 브라우징하는 행위라고 하며
웹 스파이더링이라고도 합니다.
나는 VSCode에서 웹 크롤링을 진행할 것이다. 우선 beautiful soup와 requests를 설치를 해줍니다.
터미널을 열어 밑의 두 문장을 입력해줍니다.
pip install beautifulsoup4
pip install requests
이제 웹사이트의 데이터를 가져와 볼 것이다.
여기서 주의할 점이 있다.
첫째, 모든 웹사이트에서 스크래핑이 가능한것이 아니다.
둘째, 어떤 웹사이트는 데이터 스크래핑을 해가는 것을 극도로 싫어하여 이용약관에 적어 놓았을 수도 있는데 사용자가 데이터를 상업적 목적으로 사용하면 고소할 수도 있다는 말이다.
상업 목적이 아닌 공부목적은 괜찮다.
그렇기에 너무 걱정하지말고 당장 공부하라!!
니꼬쌤의 말대로
사이트의 html 정보를 가져올 것이다.
직업을 알려주는? 사이트 같은데
오른쪽 상단 돋보기를 눌러 python개발자들을 찾아보겠다.
url의 마지막과 search bar의 text가 동일하다
대부분의 사이트들이 동일한 방식으로 페이지를 이동시킨다.
우리는 이 페이지의 정보를 가져오기위해 VSCode를 켜고 코드를 쳐보겠다
from requests import get
#pip install requests
base_url = "https://weworkremotely.com/remote-jobs/search?term="
serach_term ="python"
response = get(f"{base_url}{serach_term}")
if response.status_code != 200:
print("Can't request website")
else:
print(response.text)
위 코드를 실행시키면
원하는 html코드를 가져오는데 성공!
다음 글에서 이어서 진행하겠다~~!
'Python > 웹 스크래핑' 카테고리의 다른 글
[Python] 웹 스크래핑 #6 (0) | 2023.01.05 |
---|---|
[Python] 웹 스크래핑 #5 (0) | 2023.01.03 |
[Python] 웹 스크래핑 #4 (0) | 2023.01.02 |
[Python] 웹 스크래핑 #3 (0) | 2023.01.01 |
[Python] 웹 스크래핑 #2 (0) | 2023.01.01 |