본문 바로가기
  • 내 손안 세상 보기 니 해피
IT

실패한 크롤링 서버 오류 수정

by 니해피 2022. 11. 30.
반응형

크롤링 통계의 호스트 상태 세부 정보는 'robots.txt 가져오기, DNS 변환, 서버 연결'의 3가지로 보고가 제공되고 있으며, 그중에 서버 연결은 서버가 응답하지 않거나 크롤링 중에 URL에 대한 전체 응답이 전송되지 않으면 그래프에 표시된다.

 

이와 같이 서버 연결은 구글 봇이 사이트를 크롤링할 때 연결 문제가 발생하는지 알려주는 것으로써 연결 오류율이 당일 기준 값을 초과하는 경우에 문제로 간주된다고 하고 있다. 실패한 크롤링 서버 오류란 주제로 크롤링 통계 보고서에 대하여 서치 콘솔에 안내되어 있는 크롤러 서버 오류 수정에 대하여 알아보겠다.

서버 오류란 구글 봇이 URL에 액세스 할 수 없거나, 요청 시간이 초과되었거나, 사이트가 사용 중이어서 구글 봇의 요청이 강제로 취소되었음을 말한다.

 

크롤러 서버 오류 수정

 

반응형

 

구글 봇이 보고하고 있는 사이트 가용성 문제를 확인하고 수정 가능한 것인지를 판정을 하여야 한다.

 

1. 서버 연결 테스트를 해본다

Url검사도구를 이용하여 색인 생성 범위 보고서에서 신고된 서버 오류 재현 가능성을 확인해 본다. 서버 오류는 일시적일 수 있어서 구글이 서버 오류로 크롤링 실패했더라도 실시간 테스트는 성공할 수 있기 때문이다.

 

2. 서버 연결 오류 수정

크롤링 통계보고서에서 최근 호스트 가용성을 확인하여 지속적이거나 대규모 문제가 있는지 확인한다.

 

동적 페이지 요청에 대한 과도한 페이지 로드를 줄인다. 동적 페이지의 응답 시간이 너무 길어져 시간 초과 문제가 발생되거나 서버에 과부하 상태를 반환하여 구글 봇에 사이트 크롤링 속도를 줄이도록 할 수 있기 때문이다. 매개 변수를 짧게 유지하고 가능한 한 짧게 유지하는 것이 좋다.

 

호스팅 서버가 다운 또는 오버 로드되거나 잘못 구성되지 않도록 한다. 연결 시간 초과 또는 응답 문제가 지속되면 호스팅 업체에 문의 사이트 트래픽 처리 능력을 높이는 것을 고려해야 한다.

 

실수로 구글을 차단하지 않았는지 확인한다. DNS구성 문제, 잘못 구성된 방화벽, DOS방지 시스템이나 콘텐츠 관리 시스템 구성 등 시스템 차원의 문제로 구글이 차단할 수 있다. 해결하기 위해서는 웹사이트의 어떤 인프라가 구글 봇을 차단하는지 확인하고 차단을 해제한다. 방화벽을 직접 제어할 수 없다면 호스팅 업체에 문의하여야 한다.

 

검색엔진 사이트의 크롤링과 색인 생성을 현명하게 제어한다. 일부 웹마스터가 방화벽을 사용하여 구글 봇이 웹사이트에 도달할 수 없도록 완전히 차단하는 것이 아니라면 사이트가 크롤링되고 색인 생성 방식을 제어하는 경우가 많다.

 

이경우는

ⓐ 구글 봇의 콘텐츠 크롤링 제어는 robots.txt 파일을 사용하고,

ⓑ 구글 봇 사용자 에이전트를 사용하는 해로운 크롤러일까 염려되면 크롤러가 *구글 봇인지 확인한다.

ⓒ 구글 봇의 사이트 크롤링 빈도를 변경하고자 하면 구글 봇 *크롤링 속도 변경을 요청한다 호스팅 업체는 IP주소의 소유권을 확인하여 기능을 사용할 수 있다.

 

 

3. *구글 봇과 다른 구글 크롤러 확인 방법 [https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot?visit_id=638053662166354861-4012387346&rd=1]

 

스팸 발송자 악의적 사용자가 구글 봇을 가장하여 사이트에 액세스 하지 못하도록 하는데 유용하다. 명령줄 도구 사용의 수동 방식과 자동 설루션 2가지 방법으로 확인할 수 있다.

 

명령줄 도구 사용만으로 대부분의 사용 사례에 충분하다고 하고 있다.

  1. host명령어를 사용해 로그의 액세스 IP주소에 역방향 DNS조회를 실행한다
  2. 도메인 이름이 googlebot.com 또는 google.com인지 확인한다.
  3. 검색된 도메인 이름에서 host명령어 사용해 1단계에서 검색된 도메인 이름에 순방향 DNS 조회를 실행한다
  4. 로그의 원래 액세스 IP주소와 동일한지 확인한다.

 

4. *크롤링 속도 변경 [https://support.google.com/webmasters/answer/48620]

 

구글 봇이 너무 많은 요청을 보내 서버 로드에 문제가 발생되는 것이 확실한 경우를 제외하고 크롤링 속도 제한하는 것은 좋지 않다고 한다.

 

크롤링 속도 제한하기 위해서는 우선적으로 속성의 크롤링 속도 설정 페이지를 연다. '크롤링 속도가 최적 속도로 계산됨'이라고 표시되는 경우 크롤링 속도를 낮출 수 있는 유일한 방법은 특별 요청을 제출하는 것이다. 그렇지 않으면 원하는 옵션을 선택하고 크롤링 속도를 제한한다. 새로 설정한 크롤링 속도는 90일 동안 유효하다.

 

긴급 크롤링 속도 제한은 사이트가 너무 많이 크롤링되어 가용성 문제가 발생되는 경우에 사이트를 보호하기 위해서 한다.

 

웹사이트 로고나 크롤링 통계 보고서를 확인하여 사이트를 많이 크롤링하는 구글 봇을 확인하고 즉각적인 간단한 해결방법은 robots.txt를 사용하여 과부하된 에이전트 크롤링을 차단하거나 증가한 로드를 동적으로 감지하여 응답할 수 있다면 게재 한도에 거의 도달했을 때 HTTP 503/429 오류 코드를 반환한다.

 

가능한 한 크롤링 속도 설정 페이지에서 크롤링 속도 변경을 하는 것이 좋으며 2-3일 후 클로 링 속도가 조정되면 robots.txt 차단을 삭제하거나 503/429 오류코드 반환을 중지한다. 크롤링 설정 페이지에서 크롤링 속도를 제한하면 크롤링 속도가 90일 후 자동 조정으로 돌아간다.

 

AdsBot 크롤링이 급증한 경우 사이트에서 URL_Equals 또는 페이지 피드를 사용하여 동적 검색광고에 대한 타깃을 너무 많이 생성한 것이 문제일 수 있다. 이러한 크롤링을 처리할 서버 용량이 부족한 경우 광고 타깃을 제한하거나 Url을 여러 개로 작게 나누어 추가하거나 게재 용량을 늘려야 한다.

AdsBot은 2주마다 페이지를 크롤링하므로 문제를 해결해야 한다. 문제 해결을 하지 않으면 반복해서 발생되기 때문이다.

 

크롤링 속도 문제 해결 안내[https://support.google.com/webmasters/answer/9679690?hl=ko#availability]

 

니뭐해_크롤링표
실패한 크롤링 그래프

 

크롤링 통계 보고서의 호스트 상태에는 과거 호스트 문제가 있었다고 되어 있다. 현재 서버 연결 최근 실패율은 수용 가능하지만 10월 중순 이전에는 높았음을 나타내 주고 있다. 같은 문제가 발생되지 않도록 예방하라고 안내되고 있으나 호스트 문제의 경우 티스토리 사용자가 할 수 있는 조치란 거의 없다고 할 수 있겠다.

 

데이터 센터 화재 사건으로 서버 오류 여파가 아직까지 100% 회복되었다고 볼 수없다고 하겠다. 쥐꼬리만 한 일 광고 수익마저 사고 전으로 회복되고 있지 않기 때문이다. 살아가면서 제일 답답하고 우울한 일은 자신이 어떠한 사건이나 일에 대하여 컨트롤할 수 없다는 데 있는 것 같다.

 

 

실패한 크롤링 서버 오류 수정을 마치며..

자신의 운명을 자신이 책임을 지을 수 없고 제삼자의 손에 좌우된다고 보면 얼마나 슬프고 답답한 일이 아니겠는가? 힘들게 쌓아온 공든 탑도 자신이 바라는 것과 무관하게 무너질 수 있다는 것을 생각하면 기댈 곳이 없는 나약함이 인간의 삶인 것이다. 무력감에서 탈출하려는 인간의 내면이 안쓰러워지는 것이다.

 

삶이란 목표가 있어야 방황하지 않는다. 목표는 희망이란 등대에서 빛이 난다. 등대는 우리 모두의 믿음과 신뢰의 안내자이다. 놀이터를 제공하는 쪽에서는 신뢰를 제공하고 놀이터를 이용하는 쪽은 믿음으로 보답하면 좋겠다.

반응형

댓글