구글 서치 콘솔에 색인 요청이 늘어남에 따라 색인 메뉴의 색인 생성 범위에 오류, 유효(경고 있음), 유효, 제외됨 의 4가지 항목 중 유효숫자보다 제외됨 숫자가 더 늘어나면 걱정이 되기 마련입니다. 페이지 색인이 제외되는 이유와 색인 제외된 페이지 조치에 대하여 스터디해봅니다.
색인 제외됨으로 분류된 페이지는 색인이 생성되지 않아 구글에 표시가 되지 않으므로 문제는 없을 것입니다. 그러나 색인이 없으면 검색 노출도 없기 때문에 유효한 페이지보다 제외됨으로 표시되는 페이지수가 많다면 제외 원인을 확인해보아야 합니다.
표시되지 않도록 의도되었거나 오류에 의한 누락 가능성을 세부 정보 표의 행을 클릭하여 확인한 후에 색인 생성을 재 요청할 것인지를 판단하면 될 것입니다.
색인 생성 페이지 제외됨 이유 조치
중복 페이지 차단된 페이지 그 밖의 이유의 크게 3가지로 분류할 수 있습니다.
첫째, 이미 색인이 생성된 페이지와 중복 페이지인 경우로서 사용자가 선택한 표준이 없거나 구글에서 사용자와 다른 표준을 선택한 것 그리고 제출된 URL이 표준으로 선택되지 않은 경우의 중복 페이지이다.
사용자가 선택한 표준이 없는 중복 페이지는 중복 페이지가 있지만 표준으로 표시된 페이지가 없는 것으로 해당 페이지를 명시적으로 표준으로 지정할 것을 요구하고 있으며, 구글에서 사용자와 다른 표준을 선택한 중복 페이지는 크롤링 요청 없이 색인이 생성된 경우로서 구글에서 이 페이지보다 더 적합하다고 판단한 페이지를 색인 생성 한것으므로 해당 페이지를 표준 URL의 중복임을 명시적으로 표시하는 것이 좋다고 한다.
그리고 제출된 URL이 표준으로 선택되지 않은 중복 페이지는 크롤링을 명시적으로 요청하여 색인이 생성된 경우로서 표준 페이지로 명시적으로 지정되지 않은 중복 페이지로 분류된 것 중에서 구글에서 해당 페이지보다 더 적합하다고 판단한 페이지를 표준 페이지로 생성한 것이라고 한다
위의 경우 모두 URL을 검사하면 구글에서 선택한 표준 URL이 표시된다.
표준으로 지정하거나 중복임을 *명시적으로 표시하는 중복 Url 통합 등에 대하여 좀 더 알아볼 수 있다.
*명시적표시 : https://support.google.com/webmasters/answer/139066
둘째, 사이트 메커니즘에 의하여 색인 생성이 차단된 페이지로서 noindex, 삭제, robots.txt차단, 승인 요청(401), 액세스 금지(403), 그 밖의 4xx 등 의도적으로 페이지 색인을 제외한 것이다.
각각의 조치는 다음과 같다
noindex 태그에 의해 차단됨은 *noindex 명령어에 의해 색인이 생성되지 않은 것이므로 페이지 색인을 위해서는 noindex명령어를 삭제할 것을 요구하고 있으며 태그나 명령어 확인은 브라우저 페이지를 요청하고 응답 본문과 헤더에서 noindex를 검색하면 된다고 한다.
*noindex 명령어 : https://support.google.com/webmasters/answer/93710
페이지 삭제 도구에 의해 차단됨은 페이지가 삭제요청에 의해서 url이 삭제된 것으로, 확인된 사이트 소유자는 *url삭제 도구를 사용하여 삭제 요청 한자를 확인할 수 있고 삭제요청은 90일간 유효하며, 삭제 후 90일이 경과되면 색인 요청이 없어도 페이지가 다시 생성될 수 있으므로 색인을 생성하지 않으려면 noindex 사용하거나, 페이지에서 승인 요청 또는 페이지를 삭제하라고 한다.
*url 삭제도구 : https://support.google.com/webmasters/answer/1663419
robots.txt 에 의해 차단됨은 googlebot 액세스가 차단된 것으로 *robots.txt 테스터로 확인할 수 있으며 차단을 해도 다른 경로로 색인이 될 수 있으므로 구글에서 페이지 색인 생성을 하지 않으려면 robots.txt. 를 삭제하고 noindex 명령어를 사용하라고 한다.
*robots.txt 테스터 : https://www.google.com/webmasters/tools/robots-testing-tool
*승인되지 않은 요청(401)으로 인해 차단됨은 승인 요청(401 응답)으로 googlebot액세스가 차단된 것으로 페이지 클로 링을 하기 위해서는 승인 요구사항 삭제 또는 *googlebot의 페이지 액세스를 허용해야 한다고 요구하고 있다.
*승인되지 않은 요청 401 : https://en.wikipedia.org/wiki/list_of_http_status_codes#4xx_client_errors
*구글 봇 페이지 액세스 허용 : https://support.google.com/webmasters/answer/80553
액세스가 금지되어 차단됨(403)은 사용자 인증정보가 제공되었지만 액세스 권한이 부여되지 않은 것으로 구글에서는 사용자 인증정보를 제공하지 않으므로 서버에서 오류가 잘못 생기는 것이라고 한다. 오류를 수정하거나 robots.txt 또는 noindex로 차단하라고 주문하고 있다.
다른 4xx 문제로 차단됨 : 서버에 401 403 등 여기에 설명이 안된 다른 문제 유형으로 4xx오류가 생긴 경우라고 한다.
셋째, 오류는 아니라고 판단되지만 그 외의 이유로 색인이 생성되지 않은 페이지이다.
크롤링됨_현재 색인이 생성되지 않음은 구글에 크롤링은 되었으나 이후 색인될 수 도 있고 안될 수 도 있는 것으로 크롤링을 위해 URL을 다시 제출할 필요는 없으며, 발견됨_현재 색인이 생성되지 않음은 페이지를 발견 크롤링하려 했으나 사이트 과부하 상태 우려로 구글에서 크롤링 일정을 변경한 경우로서 마지막 크롤링 날자가 비어 있다.
적절한 표준 태그가 포함된 대체 페이지는 구글에서 표준으로 여기는 중복 페이지로서 표준 페이지로 올바르게 연결되므로 별도 조치가 필요 없다고 하고 있으며, 찾을 수 없음(404)은 명시적 요청 사이트맵이 없으나 구글에서 Url을 발견한 것 즉 다른 사이트 링크로 발견 또는 이전에 있던 페이지가 삭제된 페이지 일 수 있다고 하고 있다. 의도적인 404 응답은 문제가 되지 않으며 페이지를 이동한 경우에는 새 위치로 리디렉션(301) 사용하거나 *404 오류 해결을 참조하면 된다고 한다.
* 404오류해결 : https://support.google.com/webmasters/answer/7440203#fixing_404_errors
리디렉션이 포함된 페이지는 URL이 리디렉션이므로 색인에 추가되지 않고 해당하는 404 응답 코드 없이 사용자 친화적인 '찾을 수 없음' 메시지를 반환하는 것으로 실제 찾을 수 없는 페이지인 경우 404 응답 코드를 반환하거나 페이지 정보를 추가하여 *soft404가 아님을 구글에 알리는 것이 좋다고 되어 있다.
*soft 404 응답 오류 해결방법 : https://support.google.com/webmasters/answer/181708
본글은 구글 서치 콘솔 도움말을 참조하여 스터디를 위하여 정리한 것이며 이해에 오류가 있을 수 있습니다.
원본 색인 생성법 위 보고서 (https://support.google.com/webmasters/answer/7440203?hl=ko#zippy=%2C%EB%B9%84%EC%A0%84%EB%AC%B8%EA%B0%80) 에서 다시 한번 확인하시기 바랍니다.
구글 서치 콘솔에 색인 요청이 늘어남에 따라 색인 메뉴의 색인 생성 범위에 오류, 유효(경고 있음), 유효, 제외됨 의 4가지 항목 중 유효숫자보다 제외됨 숫자가 더 늘어나게 됨에 따라 페이지 색인이 제외되는 이유와 색인 제외된 페이지 조치에 대하여 스터디를 해보았습니다.
'IT' 카테고리의 다른 글
카카오페이 송금 취소 방법 (0) | 2022.01.05 |
---|---|
크롤러 호스팅 서버에 연결할 수 없음 (0) | 2021.12.28 |
구글애널릭틱스 속성 연결하기 (0) | 2021.12.08 |
네이버페이 체크카드 사용 방법 (0) | 2021.12.07 |
삭제 변경된 글 구글검색 업데이트하기 (0) | 2021.09.16 |
댓글