본문 바로가기
  • 내 손안 세상 보기 니 해피
IT

애드센스 크롤러 오류 사이트 크롤링 가용성 문제

by 니해피 2022. 5. 13.
반응형

애드센스 크롤러 오류 '크롤러 호스팅 서버 연결할 수 없음'에 대한 알림이 지난달부터 반복되고 있다. 호스트 문제가 일시적 현상인지 아닌지 알 수 없으나 해결 방법을 찾던 중 크롤러가 사이트를 크롤링할 때의 가용성 문제에 대한 이해가 필요하다는 생각이 들었다.

 

구글에서 크롤링할 때 사이트의 콘텐츠에 액세스 하지 못하여 페이지에 연결할 수 없는 가용성 문제가 발생되는 것이 바로 호스트 문제이기 때문이다.

 

반응형

 

물론 애드센스 크롤러 작동방식과 구글 크롤러와는 다르다고 하지만, 페이지 크롤링 과정에서 여러 요인들이 사이트에 영향을 주는 크롤링 오류 가용성 문제 원인을 이해하기 위하여 크롤링 가용성 문제란 무엇인지 알아보고 크롤러 작동 방식과 크롤러 오류 문제 해결 방법을 찾아보고자 한다.

 

 

1. 구글 크롤링 가용성 상태 문제 (호스트 문제) 이해하기

 

호스트 상태는 서치 콘솔 크롤링 통계를 통하여 확인할 수 있다. 크롤링 요청에 대한 측정기준은 응답 기준, 목적 기준, 파일 형식 기준, 구글 봇 유형 기준의 4가지 응답표를 검토하고 문제를 파악하여 조치를 취할지 말지를 결정하게 되는 것이다.

 

구글이 사이트를 크롤링할 때 호스트 가용상태 평가는 ⓐ robots.txt 가져오기 ⓑ DNS확인 ⓒ 서버 연결의 3가지를 통하여 이루어진다.

이들은 각각 robots.txt 파일 요청 오류 문제, DNS확인은 DNS 오류 문제, 서버 연결은 연결 오류 문제가 발생되는지 알려 주는 것으로 하루 기준치가 초과되거나 기준값을 초과하는 경우 문제로 간주된다. 중대 오류가 생기게 되면 가용성이 낮아진다고 하고 있다.

 

4월 초중순부터 기준치(값) 초과가 지속되는 문제가 발생되면서 최근에 반복적으로 애드센스 크롤러 오류 '크롤러 호스팅 서버 연결할 수 없음'이 표시되고 있다.

 

이번에는 시간이 해결해주기만을 기대하기보다는 그 원인을 찾아서 해결을 모색하여 봤다.

 

결과적으로 크롤링은 검색 그리고 새로고침 목적으로 이루어지는데 크롤링 요청에 대하여 '페이지에 연결할 수 없음' 응답의 원인은 크롤링 속도가 너무 빨라서 과부하가 생겼을 확률이 높은 것이었다.

 

대부분의 크롤링 요청은 기본 크롤러로 요청되어야 하는데 크롤링이 급증하면 봇의 유형을 확인하여서 (예를 들어서 AdsBot크롤러로 인하여 급증) 크롤링 속도 급증 이유에 따라 문제 해결을 하는 것이다.

 

[급증의 이유]

 

사이트에 많은 새로운 정보 또는 매우 유용한 정보가 포함된 경우 예상보다 더 자주 크롤링할 수 있다고 한다.

 

사이트 여러 부분에 대한 크롤링을 차단 해제하였거나

사이트에 새로운 섹션을 많이 추가했거나

새 페이지 피드나 Url_Equals 규칙을 추가하여 동적 검색광고의 새 타깃을 다수 추가한 경우이다

 

애드센스 광고 크롤러 오류 문제는 위 내용으로 볼 때 특별한 경우를 제외하고 많은 광고 추가가 문제의 원인으로 볼 수 있겠다.

 

[가용성 문제 발생에 따른 사이트 보호 방법]

 

1. 너무 많이 크롤링되어 가용성 문제가 발생하면 웹사이트 로고 또는 크롤링 통계 보고서를 사용하여 사이트를 너무 많이 크롤링하는 구글 크롤러가 무엇인지 확인하고 조치를 하라고 하고 있다.

 

2. 간단한 즉각적인 해결 방법은 robots.txt를 사용하여 과부하가 발생한 googlebot, Adsbot 등의 크롤링을 차단하라고 하고 있다. 차단하였을 경우 적용되는 시점은 최대 1일 정도 소요가 된다고 하며, 증가한 로드를 동적으로 감지하여 응답할 수 있다면 게제한도에 거의 도달했을 때 HTTP5 xx/429를 반환하라고 한다. 이때 주의 사항은 2-3일 넘게 반환하면 안 된다는 것이다.

 

3. 가능한 한 크롤링 속도 설정 페이지에서 크롤링 속도를 변경할 것을 주문하고 있다. 크롤링 속도를 제한하면 크롤링 속도가 90일 후 자동 조정으로 돌아간다고 한다.

 

4. 2-3일 후 구글의 크롤링 속도가 조정되면 robots.txt를 삭제하거나 1단계 오류 코드 반환을 중지하라고 하고 있다.

 

 AdsBot 크롤링이 급증한 경우 사이트에서 URL_Equals 또는 페이지 피드를 사용하여 동적 검색광고에 대한 타깃을 너무 많이 생성한 것이 문제일 수 있다 이때 이러한 크롤링을 처리할 서버 용량이 부족한 경우 광고 타깃을 제한하거나 URL을 여러 개로 작게 나누어서 추가하거나 게재 용량을 늘리라고 한다.

구글 봇은 2주마다 페이지를 크롤링하므로 문제를 해결해하고 하고 있다. 이유는 문제 해결을 하지 않으면 반복해서 발생되기 때문이다.

 

 

[서버 오류 해결 방법]

 

서버 오류는 구글 봇이 액세스 할 수 없거나, 요청 시간 초과, 사이트가 사용 중이어서 구글 봇 요청이 강제로 취소된 것이다.

웹마스터에서 안내해주는서버 연결 오류 수정에 대한 내용은 다음과 같다.

 

1. 동적 페이지 요청에 대한 과도한 페이지 로드를 줄인다. → 매개변수 목록을 짧게 유지 또는 가능한 적게 사용하는 것이 좋다.

2. 호스팅 서버 다운 또는 오버 로드되거나 잘못 구성되지 않도록 한다. → 연결 시간 초과 응답 문제가 지속되면 호스팅 업체에 문의하여 사이트 트래픽 처리 능력을 높여라

3. 실수로 구글을 차단하지 않았는지 확인한다. → DNS구성, 잘못 구성된 방화벽, DOS방지 시스템, 콘텐츠 관리시스템 등의 시스템 문제로 구글이 차단될 수 있으므로 웹사이트 어떤 인프라가 구글 봇을 차단하는지 확인하고 차단을 해제하라. 방화벽을 직접 해결할 수 없으면 호스팅 업체에 문의하라

4. 검색엔진 사이트의 크롤링과 색인 생성을 잘 제어한다. → 구글 봇의 콘텐츠 크롤링 제어는 robots.txt 파일을 사용하고 url 매개 변 수를 설정하며, google bot 사용자 에이전트를 사칭하는 해로운 크롤러가 의심되면 크롤러가 구글 봇이 맞는지 확인하라

→ 구글봇 사이트 크롤링 빈도를 줄이려면 googlebot의 크롤링 속도 변경을 요청하라. 호스팅 업체는 IP주소 소유권을 확인하여 이 기능을 사용할 수 있다. → 검사도구를 활용하여 누락된 페이지나 사이트는 색인 생성 요청을 다시 하라.

 

2. 애드센스 크롤링 작동방식과 문제 해결 방식 이해하기

 

애드 센서 크롤로는 자동으로 실행되며 크롤링 주기를 늘리거나 줄일 수 없다. 크롤링 목적은 이전에 크롤링한 적 없는 페이지를 검색하거나 이미 크로링하여 알려진 페이지를 재크 롤링하여 새로 고치기 위함이다.

 

크롤링은 구글 크롤링 엔진 중 하나가 새로운 페이지 또는 업데이트된 페이지를 찾아 구글에 추가하는 과정인 것이다.

크롤링이 안되면 결과적으로 색인도 되지 않을 것이어서 검색이 안되므로 글을 아무리 쓰더라도 노출이 안되므로 광고 수익이 줄거나 없게 됨으로써 글 쓰는 흥미는 점차 잃어가기 마련이다.

 

[작동 방식]

  • 크롤러 보고서는 주 1회 작성된다.
  • 구글크로롤러와 애드센스는 독자적으로 크롤링하며 캐시만 공유한다. 따라서 문제 해결이 서로에게 영향을 주지 않는다.
  • 크롤러 색인인 url기준으로만 한다.
  • 크롤러는 robots.txt 파일에 명시된 파일이나 디렉터리는 액세스 하지 않는다. 애드센스 크롤러 차단을 하려면 robots.txt 파일에 user agent : mediapartners-google를 지정하라
  • 광고 태그가 구현된 url만 액세스 한다
  • 리디렉션 하는 원본 페이지도 액세스 한다. 그러므로 리디렉션이 작동하는지 확인을 해야 한다.
  • 크롤링은 애드센스 크롤러에 의해 자동으로 실행되어 웹사이트 색인 생성 빈도를 제어할 수 없으며 변경사항이 적용되려면 1-2주 소요된다

[애드센스 크롤러 문제 해결 방식]

 

액세스, 사이트, 호스팅의 3가지 애드센스 크롤러 문제에 대한 원인 해결 방식이 제시되어 있다. 이 중에서 요즘 자주 발생되고 있는 호스팅 문제에 대해서만 정리한다

 

호스팅 문제는 네임 서버와 사이트 서버의 문제 2가지 가 있다

 

네임서버 문제는 올바르게 설정되었는지와 요청의 출처에 대하여 제한이 있는지 확인한 다음 도매인 또는 하위 도매인의 네임서버가 광고 크롤러를 콘텐츠에 제대로 연결되는지 확인하라고 한다.

 

사이트 서버 문제는 광고 크롤러가 사이트 콘텐츠에 액세스 하려 할 때 사이트의 서버가 제대로 응답하지 못할 때 발생되는 것으로 서버 다운, 느려짐, 많은 요청에 의한 과부하가 원인이므로 사이트 서버가 정상적으로 운영 중인지 확인한 다음 사이트가 신뢰할 수 있는 서버 또는 서비스 제공업체에서 호스팅 되도록 하는 것이 좋다고 하고 있다.

 

[참고 : 서치 콘솔 & 애드센스 도움말센터]

*https://support.google.com/webmasters/answer/7440203#fixing_server_errors&zippy=%2C%EC%84%9C%EB%B2%84-%EC%98%A4%EB%A5%98

*https://support.google.com/adsense/answer/2381908?hl=ko

 

이번에 발생된 애드센스 크롤러 오류 문제에 대하여 광고 추가가 원인이 된 것으로 보고서 광고 조정과 함께 검색을 통하여 누락된 페이지의 색인을 요청하며 정리를 한 결과 오늘로서 '크롤러 호스팅 서버 연결할 수 없음'에 대한 문제가 해결이 되었다.

 

파란하늘_흰구름_산
[사진=동해]

 

애드센스 크롤러 오류 사이트 크롤링 가용성 문제가 최근에 자주 생긴 것은 광고 게재의 변화로 인한 것으로 결론을 지었다. 결국 광고를 너무 많이 넣으면 안 된다는 결론을 얻었다. 문제가 발생되면 해결해야 하는 어려움을 겪게 되므로 정신적 육체적 힘들지 않기 위하여서는 구글에서 원하는 방식을 따를 수밖에 없다고 할 것이다.

크롤러 호스팅 서버 과부하, 크롤러 호스팅 서버에 연결할 수 없음으로 인하여 광고 제한됨에 대하여 원인이 무엇이며, 해결 방법은 무엇인지를 몰라서 답답하셨던 분들로서 이 글을 여기까지 읽었다면 자신의 문제가 무엇이고 어떻게 해결해야 할지 감이 왔으면 좋겠다.

반응형

댓글