웹 크롤링(web crawling) 또는 데이터 크롤링(data crawling)으로도 불린다. 다양한 정보 자원을 자동화된 방법으로 수집해서 분류 및 저장하는 것을 말한다.

크롤러는 주어진 인터넷 주소(URL)에 접근하여 관련된 URL을 찾아내고, 찾아진 URL들 속에서 또 다른 하이퍼링크들을 찾아 분류하고 저장하는 작업을 반복함으로써 여러 웹페이지를 돌아다니며 어떤 데이터가 어디에 있는지 색인을 만들어 데이터베이스(DB)에 저장하는 역할을 한다.

크롤링 기술이 악용되어 정보를 무단으로 복제하게 되면 지식재산권 침해 문제가 발생할 수 있다. 이러한 경우를 사전에 방지하기 위해 웹 페이지 소유자는 웹 페이지에 로봇 배제 표준을 사용하여 접근 제한에 대한 설명을 robots.txt에 기술한다. 또는 ‘noindex’ 메타 태그(meta tag)를 사용하여 크롤러로 검색 색인이 생성되는 것을 차단할 수 있다.

크롤링을 활용하면 필요한 데이터가 어디 있는지 알아내고, 이를 스크래핑을 통해 수집, 저장 하여 분석에 사용하는 것처럼 두 기술을 결합하여 사용하며, 오프라인에서 직접 현장에 방문하고, 사람을 만나 수요 조사 및 설문 조사를 하는 등의 작업을 생략할 수 있다. 최근에는 금융권, 마케팅 기업을 비롯해 데이터 사이언스 등 다양한 분야에서 활용되고 있다.