Crawling (Web Scraping)
- 특정 페이지에 있는 정보들을 내가 원하는 포맷으로 가져오는 것
- 컴퓨터 소프트웨어 기술로 웹 사이트들에서 원하는 정보를 추출하는 것을 의미
- 웹 사이트를 자동으로 돌아다니며 분석 및 저장 등을 하는 행위 정도로 저장할 수 있음
- 사람들이 웹페이지에 직접 접속해서 정보를 읽어들이는 것과 유사
- 인터넷상에 흩어져 있는 자료들을 사람 대신에 프로그램을 통하여 서핑하며 수집과 가공을 하는 것
- 이때 프로그램의 구성에 따라 서핑 능력 차이가 발생하게 되는데 대표적으로 자바스크립트의 처리를 하는지 못하는지에 여부가 있음
크롤링 매커니즘
1. 크롤링 대상선정 (API 또는 웹 문서)
-
웹 상의 데이터는 고유한 ID를 가지는데 이를 URI이라 부르며 웹 사이트 주소인 URL과 URN이 있음
-
간단하게 과일에 대한 네이버 검색 결과를 크롤링하려면 아래의 결과에 대한 URL을 선정하는 과정
2. 데이터 로드
-
데이터 로드는 웹사이트를 켜는 것과 같음
-
만약 API라면 XML, JSON 문서가 될 것이고, 웹 페이지라면 HTML 문서를 다운 받는 것
3. 데이터 분석
-
로드된 데이터에서 필요한 부분을 뽑아내는 것을 의미 (웹 사이트에서는 사용자가 필요로 하지 않는 부분이 많음)
-
어떠한 부분을 수집할지, 어떤 부분을 수집하지 않을지 선정하는 과정
4. 수집
-
데이터 분석 과정을 통해서 수집할 내용을 선정했다면 이를 추출하여 파일 또는 데이터를 메모리상에 저장하는 과정
크롤링을 하기전 알아야하는 지식
HTTP Method
- Get
-
리소스 요청 (크롤링에 주로 사용) => 받아들이는 역활
-
주소와 함께 메시지를 남김
-
파일 업로드 불가
-
잘 설계된 서비스라면 주로 조회 요청시 사용
-
실생활에 비유하자면 엽서
- POST
-
대기 리소스 추가 요청이나 수정, 삭제 목적으로 사용 (크롤링에 주로 사용) => 사용자가 추가로 요청하는 것
-
주소와 함께 메시지나 파일도 보낼 수 있음
-
파일 업로드 지원
-
잘 설계된 서비스에서 주로 추가, 수정, 삭제 요청시에 사용
-
실생활에 비유하자면 택배
- PUT
-
리소스 수정 요청
- DELETE
-
리소스 삭제 요청
- HEAD
-
HTTP 헤더 정보만 요청, 해당 자원의 존재 여부를 확인하기 위한 목적
- OPTIONS
-
웹 서버가 지원하는 메소드 종류 반환 요청
- TRACE
-
클라이언트의 요청을 그대로 반환
HTTP 요청 / 응답 패킷 형식
요청 패킷
- 요청 헤더 : 클라이언트에서 필요한 헤더 Key / Value를 셋팅한 후 요청, 전달
- 첫번째 빈줄 : Header와 Body 구분자
- Body : 클라이언트에서 필요한 Body를 셋팅한 후 요청, 전달
응답 패킷
- 응답 헤더 : 서버에 필요한 Key / Value를 셋팅한 후 응답, 전달
- 첫번째 빈줄 : Header와 Body 구분자
- Body : 서버에서 필요한 Body를 셋팅한 후 요청, 전달
요청 패킷 vs 응답 패킷
- 요청 헤더는 클라이언트에서 필요한 헤더 Key / Value를 셋팅한 후 요청, 전달을 하지만 응답헤더는 서버에 필요한 Key / Value를 셋팅한 후 응답, 전달
- 쉽게 생각하면 클라이언트는 사용자이기 때문에 당연히 서버에 요청을 할 것이고 서버는 서비스하는 업체 입장이기 때문에 응답을 해주는 것
(Ex. 클라이언트 - 요청 (음식점의 주문), 서버 - 응답 (주문받은 음식을 전달)
헤더
- HTTP 요청 / 응답 시에 헤더 정보가 Key / Value 형식으로 셋팅됨
- 대부분 브라우저에서는 다음 헤더를 설정하는데
-
User-Agent : 브라우저의 종류
-
Referer : 이전 페이지 URL (어떤 페이지를 거쳐왔는지에 대한)
-
Accept-Language : 어떤 언어로 응답을 원하는가
-
Authorization : 인증 정보
- 크롤링을 할때는 User-Agent 헤더와 Referer를 커스텀하게 설정할 필요가 있음
-
서비스에 따라 User-Agent 헤더와 Referer 헤더를 통해 응답을 거부하기도 함 (Ex. 네이버 웹툰)
바디
- HTTP 요청시에는 Body가 없고 응답에만 있음 (요청에는 당연히 없는 것이고 요청에 대한 응답에 있는게 당연함)
(Ex. HTML 코드, 이미지 데이터, JavaScript 코드, CSS 코드 등등)
기타
- 파싱
-
가공되지 않은 문자열에서 필요한 부분을 추출하여 의미있는 (구조화된) 데이터로 만드는 과정
- Request의 원리
-
첫 응답만 받으면 추가 요청이 없음
-
단순한 요청에 최적화
-
HTML 응답을 받더라도 이에 명시된 이미지/CSS/JavaScript 추가 다운을 수행하지 않지만 직접 다운로드 요청은 가능
- Selenium
-
웹 브라우저 자동화 툴
-
JavaScript/CSS 지원, 기존 GUI 브라우저 자동화 라이브러리
-
사람이 웹 서핑하는 것과 동일한 환경이지만 그만큼 리소스를 많이 사용
-
웹 브라우저에서 HTML에 명시된 CSS/JavaScript를 모두 자동 다운로드하여 적용
-
Selenium이 직접하지않고 크롬등의 툴을 가지고 사용하기 때문에 리소스 사용이 많음
참조 URL
https://rednooby.tistory.com/96
'Web' 카테고리의 다른 글
HAProxy (2) | 2020.01.17 |
---|---|
Keepalived & VRRP (0) | 2020.01.17 |
부하분산 테스트 설명 및 용어 (0) | 2019.04.09 |
PinPoint (0) | 2019.04.09 |
REST & RESTful & REST API (0) | 2019.04.09 |