반응형

웹 크롤링vs웹 스크래핑

 

웹 크롤링웹 스크래핑이라는 용어를 서로 바꾸어 사용하는 경향이 있고 서로 밀접하게 관련되어 있지만,

두 프로세스 사이에는 차이가 있습니다.

 

웹 크롤러?

보통 구글, 네이버 같은 검색 엔진들이 많이 사용하는데,
서로 연결된 URL(Uniform Resource Locator)을 수집하고,
인덱싱(키워드를 통해 URL을 검색할 수 있게 해주는 작업)하기 위해서 사용합니다.

웹 스크래퍼?

특정 데이터를 추출하는 프로세스입니다.
웹 크롤링과 달리 웹 스크래퍼는 특정 웹 사이트 또는 페이지에서 특정 정보를 검색합니다.

기본적으로 웹 크롤링기존의 복사본을 만들고,

 

웹 스크래핑은 분석을 위한 특정 데이터를 추출하거나 새로운 것을 만듭니다.

 

그러나 웹 스크래핑을 수행하기 위해서는 먼저 필요한 정보를 찾기 위해 웹 크롤링 같은 작업을 수행해야 합니다.

 

데이터 크롤링에는 웹 페이지의 모든 키워드, 이미지 및 URL을 저장하는 것과 같은 특정 수준의 스크래핑이이 필요합니다.

 

예를 들어, 웹 스크롤링은 일반적으로 구글, 야후, 네이버 등이 어떤 종류의 정보를 검색하는 방식입니다.

 

웹 스크래핑은 주식 시장 데이터, 비즈니스 리드, 공급업체 제품 스크래핑과 같은 특정 데이터에 대한 특정 웹사이트를 대상으로 한 것 입니다.

 

정리

웹 크롤링(Web crawling)

수많은 웹사이트들을 체계적으로 돌아다니면서 URL, 키워드 등을 수집하는 것

(보통 검색 엔진이 웹사이트를 인덱싱하기 위해서 사용됨.)

 

웹 스크래핑(Web scrapling)

웹사이트에서 필요한 데이터를 긁어오는 것

 

반응형

+ Recent posts