본문 바로가기
  • 내 손안 세상 보기 니 해피
IT

호스트 오류 '페이지에 연결할 수 없음' 문제 해결하기

by 니해피 2023. 8. 17.
반응형

사이트 크롤링 통계보고서에 호스트 상태가 지난해 9월 카카오 데이터센터 화재사고 이후 지속적으로 당일 연결기준이상 크롤링 싶패율이 높은 결과로 인하여 '지난주에 호스트 문제 있었음'으로 표시되고 있다. 크롤링 호스트 오류 문제 확인 결과 모두 '페이지에 연결할 수 없음'이다.

 

크롤링 통계보고서 호스트 상태 상세 정보에서 서버 연결에 실패율이 높다고 보고하고 있는 호스트 오류 문제 발생 이유인 페이지에 연결할 수 없음 원인을 파악하기 위하여 크롤링 요청 측정 기준별 내용을 검토함으로써 호스트 오류 문제 해결점을 찾아보고자 하였다.

 

호스트 오류 '페이지에 연결할 수 없음' 문제 해결하기

 

 

반응형

 

구글이 보고하고 있는 크롤링 통계 보고서상의 페이지 연결이 안 되는 문제 해결방법으로 구글 크롤러 어느 카테고리에서 호스트 연결 문제가 발생되는 것인지 파악이 된다면 사이트 가용성 문제에 대한 수정 가능 여부를 알 수 있을 것이다.

 

크롤링 요청 기준별 내용의 검토는 다음의 구글 크롤러에 대하여 이해를 하면 도움이 될 수도 있을 것이다.

 

구글 크롤러

구글 검색센터에 의하면 구글 크롤러는 다음과 같이 3가지 카테고리 (구체적인 크롤러 역할에 대한 내용은 원본을 참조하기 바란다)로 구분되어 있다.

 

ⓐ 일반크롤러

일반크롤러는 구글검색제품의 기본 크롤러로서 항상 robots.txt규칙을 따르는 googlebot이다. 일반크롤러에는 구글봇 스마트폰, 구글봇 데스크톱, 구글봇이미지, 구글봇 뉴스, 구글봇 동영상, 구글파비콘, google storebot, google-inspection tool 및 google other 이 있다.

googlebot.json 객체에 게시된 IP범위에서 크롤링한다.

 

ⓑ 예외상황 크롤러

예외상황 크롤러는 robots.txt규칙을 준수하거나 준수하지 않는 특정 기능을 수행하는 크롤러이다. 예외상황 크롤러는 APIs-google, *Adsbot 모바일웹 Android, *Adsbot 모바일웹, *Adsbot, 애드센스, 모바일 애드센스가 해당된다.

일반크롤러와 다른 IP범위 special-crawlers.json 객체에 게시된다.

 

*참고: Adsbot, Adsbot 모바일웹, Adsbot 모바일웹 Android 크롤러는 각각 데스크톱, iphone, Android 웹페이지 광고 품질을 확인하며 robots.txt 전역 사용자 에이전트는 무시한다.

 

ⓒ 최종 사용자가 가져오기를 트리거하는 도구 및 제품 기능의 크롤러이다. 사용자 트리거 가져오기 도구에는 Feedfectcher, Google 게시자 센터, Google Read Aloud, Google사이트 인증 도구가 있다.

사용자가 요청하는 가져오기 도구는 robots.txt 규칙이 무시된다.

 

크롤러 호스트 오류 문제 개요

 

구글 서치콘솔 크롤링 통계 보고서에서의 호스팅 상태는 지난 90일 동안의 일반적인 가용성 상태가 요약 보고 된다. 지난 90일 동안 또는 지난주에 사이트에 영향을 미치는 가용성 문제에 대하여 '최근 90일간 호스트 문제없었음' 또는 '지난주 호스트 문제 있었음'과 같은 형식으로 표시되는 것이다.

 

'지난주 호스트 문제 있었음'의 경고는 구글에서 콘텐츠에 액세스 하지 못하는 서버연결에 실패율이 높기 때문에 표시되는 것으로 구글이 사이트를 크롤링할 때 서버 연결 오류율이 당일 기준값을 초과하는 경우 문제로 간주한다.

호스트 상태는 초록색이 이상적이나 가용성 상태가 빨간색이면 클릭하여 robots.txt 가용성, DNS변환 및 호스트 연결에 대한 가용성 세부정보 확인을 하여 문제가 어디에서 발생하는지 파악하게 된다.

 

나의 경우 세부정보 확인결과 페이지에 연결할 수 없는 오류가 지속적으로 발생되고 있음을 알 수 있었다.

 

오류가 지속적으로 발생되고 있는 이유는 서버가 응답하지 않거나 크롤링 중에 url에 대한 전체 응답이 전송되지 않기 때문이다. 서버 응답이 없는 이유 및 Url전체 응답이 전송되지 않는 문제 원인, 해결방법을 파악하기 위하여 사이트 A _E에 대한 크롤링 요청 기준별 내역을 조사하였다.

 

크롤링요청기준별내역 분석

 

A _D는 티스토리 사이트이고, E는 블로그 스폿이다. 사이트별 글 내용 외 글 쓰는 형식이나 유형은 A-E 모두 거의 같다고 할 수 있다. 그러나 사이트 A -D는 '문제 있음' 사이트 E는 '문제없음'인 상태로 크롤링 통계가 보고 되고 있다. 다음은 사이트의 기준별 크롤링 통계 보고 내역이다.

 

응답기준

*단위:% A B C D E
성공(200) 62 68 74 86 67
페이지에 연결할 수 없음 33 26 22 10 -
찾을 수 없음(404) 3 5 2 1 -
robots.txt가 없음 1 <1 1 <1 -
영구이전(301) - - - - <1
임시이전(302) <1 <1 <1 1 32
수정되지않음(304) - - - - <1

 

응답기준으로 볼 때 응답 성공비율은 62%에서 86%로 산술 평균값은 71.4%이다. 페이지 연결할 수 없는 응답 실패율은 10%에서 33%로 산술평균값이 22.75%이다. 주목할 것은 티스토리에서만 응답실패가 나타나고 있으며, 블로그스폿은 아직 응답실패율이 나타나고 있지 않고 있다는 것이다. 글 발행 수가 상대적으로 적은 영향인지 그 이유는 아직은 명확하게 알 수는 없다.

 

파일형식기준

*단위:% A B C D E
HTML 51 50 53 61 62
JSON 12 18 20 25 -
기타XML <1 - - - -
이미지 - - - - 4
자바스크립트 - - - - <1
다른파일형식 <1 <1 <1 1 33
알수없음
(실패한요청)
37 32 26 12 <1

 

파일 형식기준으로 볼 때 A_D 사이트의 크롤링실패율은 12%에서 37%로 산술 평균 26.75% 이고, E사이트는 1% 미만이다.

 

목적기준

*단위:% A B C D E
새로고침 87 99 93 81 92
검색 13 <1 7 19 8

 

새로고침의 크롤링 실패는 구글 Adsbot이 실패가 원인이며 검색에서는 거의 실패율이 없는 것으로 확인이 된다. 새로고침을 줄이려면 크롤링 속도를 늦추는 것일 것이다. 그러나 사이트 소유자가 통제할 수 있는 문제라고 보기는 어렵다고 생각된다.

각 구글 크롤러는 특정 목적에 따라 다양한 속도로 사이트에 액세스 한다고 하고 있다. 구글에서는 알고리즘을 사용하여 각 사이트에 가장 적합한 크롤링속도를 결정한다고 하고 있으나 구글 크롤러가 사이트를 너무 자주 크롤링한다면 크롤링 속도를 줄일 수는 있는 것이다.

 

Googlebot 유형기준

*단위:% A B C D E
Adsbot 55 28 48 13 -
데스크톱 19 29 13 26 34
페이지리소스
로드
13 21 21 26 4
스마트폰 12 23 17 34 60
다른에이젼트
유형
- - - - <1
이미지 <1 <1 <1 1 1

 

구글봇 유형 기준으로 크롤링 실패가 발생되고 있는 것은 Adsbot으로 13%에서 55%로 산술 평균 36%가 크롤링 실패가 발생되고 있다. 나머지 데스크톱, 페이지리소스, 스마트폰에서는 크롤링 오류가 거의 없거나 미미하다.

 

현재 사이트 A-E 중 다음을 통하여 검색으로 유입되는 것은 거의 없다. 다음 유입이 안 되는 이유는 알고 싶지도 않다.

 

왜냐하면 블로그티스토리를 개설하여 어느 정도 운영하다 보면 다음에서 최적화되고 상위 검색 노출이 되다가 어느 날 갑자기 이유도 원인도 모르는 상태에서 맑은 하늘에서 날벼락 맞듯이 다음 최적화에서 제외되며 유입이 하나도 없는 현상이 발생되기 때문이다.

현재는 6월 다음 자체광고가 시작된 이후부터는 검색되는 글이 어쩌다 보이고 있으나 과거에는 Url검색을 해도 사이트 검색이 되지 않을 뿐만 아니라 (물론 현재도 사이트는 노출 없음) 때로는 글도 하나도 검색이 안 되는 경우가 있었다.

 

크롤링 오류의 지속은 작년 9월 이후부터 발생되고 있으므로 Adsbot이 페이지를 찾지 못하는 이유가 이것과 연관이 있을 수 있다고 볼 수도 있는 것이다.

 

결론적으로 크롤링 요청 기준별 내용을 검토해 본 결과 크롤링 오류가 발생되고 있는 것은 Adsbot이 광고 품질을 확인하기 위하여 데스크톱, 아이폰 및 안드로이드폰 모바일웹에 방문 크롤링 요청하였을 때 페이지 연결 실패가 일어남으로써 서버연결 실패율이 높은 호스트 문제가 지속적으로 발생되고 있었던 것임을 파악할 수 있었다.

 

 

adcbot
배경사진=숲속의새

 

Adsbot 페이지 연결 실패 해결 방법

광고 품질 관리를 하는 Adsbot의 페이지 연결 실패가 원인이 된 호스트 오류에 대한 해결 방법으로 나의 관점에서 볼 때 사이트 사용자가 할 수 있는 것은 없어 보인다.

다만 위에서와 같이 크롤러 요청 기준별 내역을 분석해 봄으로써 페이지 연결 실패 원인을 파악할 수 있었다는데 의의는 둘 수 있다고 하겠다. 추후에라도 해결방법이 도출된다면 포스팅 내용을 보충하거나  다시 글을 작성 공유하겠다.

 

크롤러 관리는 일반적으로 구글봇이 생성하는 요청 회수를 줄이도록 선택하라는 것이다. 그러나 구글봇이 크롤링속도를 낮추는 것은 광범위한 영향을 미치므로 주의할 것도 주문을 하고 있다.

크롤링 속도를 낮출 때에 끼치는 영향은 새 페이지는 적게 발견되고, 기존페이지의 새로 고침 빈도가 줄어들지만 검색반영되는 데는 더 오래 걸릴 수 있고, 삭제된 페이지가 색인에 더 오래 남아 있을 수 있기 때문에 주의하라고 하는 것이다.

 

구글 크롤링속도를 낮추는 방법은 서치콘솔을 사용하여 크롤링속도를 낮추거나 구글에서 크롤링속도를 자동으로 낮추도록 설정하는 2가지 가 있는데 서치콘솔을 이용하여 크롤링속도를 낮추는 것이 권장되고 있다. 이와 관련한 더 많은 도움이 필요할 경우에는 'https://developers.google.com/search/docs/crawling-indexing/reduce-crawl-rate?hl=ko'을 방문하여 정보를 얻기 바라겠다.

 

 

맺음말 :이상 크롤링 관련 호스트 오류 '페이지에 연결할 수 없음' 문제에 대하여 결과적으로 명확한 해결방법은 제시하지 못하였으나 원인을 확인하며 해결하는 과정을 공유해 보았다는데 의의를 가질 수 있었다. 호스트 서버연결 오류문제가 있어 문제 해결을 위한 조치나 실행은 각자 자신의 책임하에 하는 것이므로 신중하고 충분한 공부가 완료된 다음 행하는 것이 바람직할 것이다.

 

 

 

반응형

댓글