반응형
웹 크롤링vs웹 스크래핑
웹 크롤링과 웹 스크래핑이라는 용어를 서로 바꾸어 사용하는 경향이 있고 서로 밀접하게 관련되어 있지만,
두 프로세스 사이에는 차이가 있습니다.
웹 크롤러?
보통 구글, 네이버 같은 검색 엔진들이 많이 사용하는데,
서로 연결된 URL(Uniform Resource Locator)을 수집하고,
인덱싱(키워드를 통해 URL을 검색할 수 있게 해주는 작업)하기 위해서 사용합니다.
웹 스크래퍼?
특정 데이터를 추출하는 프로세스입니다.
웹 크롤링과 달리 웹 스크래퍼는 특정 웹 사이트 또는 페이지에서 특정 정보를 검색합니다.
기본적으로 웹 크롤링은 기존의 복사본을 만들고,
웹 스크래핑은 분석을 위한 특정 데이터를 추출하거나 새로운 것을 만듭니다.
그러나 웹 스크래핑을 수행하기 위해서는 먼저 필요한 정보를 찾기 위해 웹 크롤링 같은 작업을 수행해야 합니다.
데이터 크롤링에는 웹 페이지의 모든 키워드, 이미지 및 URL을 저장하는 것과 같은 특정 수준의 스크래핑이이 필요합니다.
예를 들어, 웹 스크롤링은 일반적으로 구글, 야후, 네이버 등이 어떤 종류의 정보를 검색하는 방식입니다.
웹 스크래핑은 주식 시장 데이터, 비즈니스 리드, 공급업체 제품 스크래핑과 같은 특정 데이터에 대한 특정 웹사이트를 대상으로 한 것 입니다.
정리
웹 크롤링(Web crawling)
수많은 웹사이트들을 체계적으로 돌아다니면서 URL, 키워드 등을 수집하는 것
(보통 검색 엔진이 웹사이트를 인덱싱하기 위해서 사용됨.)
웹 스크래핑(Web scrapling)
웹사이트에서 필요한 데이터를 긁어오는 것
반응형
'Python' 카테고리의 다른 글
[Python] for문 활용할 때, append, zip 어떤 방식이 성능이 좋을까? (0) | 2024.05.28 |
---|---|
[Python] Fast API에 대해 알아보기 (0) | 2023.04.26 |
[Python] 파이썬의 가장 대표적인 패키지들 (0) | 2021.06.29 |
[Python] 스탠다드 라이브러리 vs 외부 라이브러리 (0) | 2021.06.28 |
[Python]__init__파일 (0) | 2021.06.25 |