인터넷 공간에서 검색로봇이 사이트를 인지하고 수집하는 데는 웹 표준을 준수하여 검색 로봇이 방문 수집하는데 어려움이 없을 경우 신뢰도 있는 웹페이지에 인용되거나 사용자가 많이 검색 이용하여 사이트 활성도가 높게 되면 검색로봇이 사이트 존재를 좀 더 빨리 알아차린다고 한다.
로봇이 사이트 존재를 인식하고 방문하여 정보 수집 여부 검색 노출 가능성을 파악하여 기계적으로 수집 반영하므로 웹 표준을 준수하는 것은 매우 중요하다. 웹사이트나 웹페이지가 웹 표준을 준수한다는 것은 일반적으로 올바른 HTML, CSS, 자바스크립트를 사이트나 페이지가 가지고 있다는 것을 뜻 하는 것이라고 한다.
HTML은 접근성과 시맨틱 HTML의 가이드라인을 충족해야 한다고 하고 있다. 시맨틱 태그는 문서의 구조와 의미를 전달하는 태그로서 웹페이지 상에 노출되지 않고 HTML 문서상으로만 해당 부분이 어떤 내용인지 알려주는 주석에 가까운 것이다. 이는 사용성과 접근성에 직접 영향을 미치는 더 높은 수준의 표준에 초점을 두는 것이라 할 것이다.
사용자가 검색어를 입력하면 적합도 순위에 따라 노출이 되는데 로봇에 의해 정상적으로 수집되는 경우 웹마스터에 별도 등록하지 않더라도 자동으로 사이트 검색 결과에 노출이 되므로 사이트를 꾸준히 운영하고 홍보하는 것이 더 필요하다고 한다.
수집된 사이트는 사용자가 검색어를 입력하면 로직에 따라 차례대로 순위가 매겨져 검색에 노출이 되는데 사용자가 사이트를 원하는지, 또 다른 사이트는 없는지, 있다면 어떤 사이트를 더 많이 방문할 것인가 와 같은 정해진 로직에 따라 검색 결과에 반영 노출되는 것이라 하고 있다.
로봇이 방문할 수 있도록 내비게이션 역할을 해주는 것이 네이버는 서치 어드바이저이고 구글의 경우는 서치 콘솔이다. 글을 쓰고 수집 요청을 한다고 해서 사이트 검색 결과에 반듯이 노출되는 것은 아니며, 수집 요청을 하지 않더라도 검색로봇에 의해서 정상적으로 정보가 수집되고 검색 결과에 노출된다는 점은 알고 있어야 하겠다.
그러므로 검색최적화만을 위한 글을 쓰는 것보다 더 중요한 것은 사용자를 위한 글을 쓰며 꾸준하게 운영하는 것이라고 하겠다. 웹마스터 도구 활용은 수집 등록 후 검색에 누락이 되었는지 확인하고 누락이 되었다면 그대로 재 요청을 할 것인지 아니면 글 보완을 한 후 수집 요청을 할 것인지 관리를 위한 도구로 사용하는 것이라고 하겠다.
웹 표준 가이드라인에서 제시하는 글 쓰기 기본 원칙들을 정리하면 다음과 같다
검색엔진을 위한것이 아니라 사용자를 위한 페이지를 만들며 전문 분야에서 다른 경쟁자와 차별화에 노력을 해야 한다
사용자를 속이거나 검색 엔진 순위를 높이기 위해 속임수를 쓰는 어떠한 행동도 하지 말아야 할 것이다.
키워드 게시글 품질 정확도 인기도 등 다양한 복합 요소 가 반영되므로 키워드 반복 과도한 광고 중복 등의 어뷰징 성 문서를 보유한 블로그 추출 대상으로 검색 노출에 페널티 부과될 수 있다
사이트 운영 목적에 맞는 콘텐츠, 활성화 정도를 알 수 있는 정보 웹페이지 , 검색을 통한 사용자 방문 등 사이트가 오래도록 방치 스팸으로 변질되지 않도록 관리를 해야 한다. 제목은 간결하게 핵심 내용은 앞에 나오도록 구성하고 띄어쓰기에도 신경을 써야 한다. 외국어 제목에는 한글도 함께 입력하는 것이 좋다.
신뢰 힐 수 있는 정보 기반으로 글을 작성하며 주제에 대한 도움이 될만한 충분한 길이의 정보와 분석 내용을 포함한 글을 써야 한다. 다른 문서를 복사하거나 짜깁기하지 않고 독자적인 정보로서의 가치가 있는 글을 쓰는 것이 중요하다.
글을 읽는 사람을 생각하며 쉽게 읽고 이해할 수 있도록 작성하여 읽는 사람이 북 마크하고 싶고 친구에게 공유 추천하고 싶은 문서이어야 한다.
성인 상업적인 글은 절대 올리지 말아야 하며 후기의 글은 물품 장소 등에 대하여 본인의 직접 경험을 바탕으로 작성하여야 한다.
웹페이지의 HTML 이 검색로봇이 이해할 수 있는 구조로 작성되어 있는지 웹 표준을 준 수 하고 있는지 확인하는 과정이 필요하다
웹 표준 대표 항목 체크리스트
1. redirect : javasscript 및 meta refresh 보다는 HTTP redirect를 사용하라
2. Canonical Url : 검색로봇이 중복문서로 처리하지 않도록 대표 Url을 지정하라
3. Meta tag : title, description, og태그와 같이 문서에 대한 meta정보를 제공하라
4. Invalid Tag Location : HTMLhead 태그 내부에 존재해야 하는 정보가 body태그 내에 있는지 확인하라
5. Link Syntax : 링크 표현 시 javascript를 사용한다면 검색로봇이 링크를 해석하기 어렵다.
6. Frame Tag : 콘텐츠의 내용이 <frame> 태그로 지정되어 있는 경우 검색로봇이 해석하기 어렵다.
티스토리 블로그를 운영하면서 절대 하지 말아야 하는 것들은 의미 없는 키워드 남발, 게시 전 검토와 선별을 거치지 않은 글, 자동화 프로세스를 통한 게시글, Atom/rss 피드 또는 검색 결과를 스크랩하여 올린 글, 충분한 가치를 창출함 없이 여러 웹페이지를 병합 결합한 글이라고 하고 있다.
웹마스터 일반 가이드라인에서 제시하고 있는 찾을 수 있는 페이지, 이해할 수 있는 페이지, 방문자가 사용할 수 있는 페이지를 정리하면 다음과 같다.
1. 찾을 수 있는 페이지 만들기
- a href 만 크롤링된다. 검색된 페이지에서 다른 페이지로 연결되는지 확인한다
- 사이트 맵 제공
- 페이지 안 링크 개수를 적절한 수준으로 조절한다
- 크롤러 리소스 관리를 한다 ⓐ if-modified-since HTTP 해더 사용? 관리-불확실 ⓑ robots.txt로 무한 클로 링 방지 관리 : 서치 콘솔에서 검색 결과 페이지를 robot.txt를 적어서 접근 제한한다.
- 구글에 크롤링을 요청한다
- 타사이트에서 내 사이트가 온라인 상태임을 알려라
2. 이해할 수 있는 페이지 만들기
- title 태그, 이미지 alt속성을 구체적이고 정확하게 적는다
- robots.txt가 페이지 렌더링 중 영향을 미치는 css js 파일(에셋) 접근 제한을 하지 않아야 한다
- 텍스트 숨기기 등을 하지 않는다.
- 페이지 광고 링크가 검색엔진 순위에 영향 없도록 robots.txt, rel="nofollow" 또는 rel="sponsored" 사용하여 크롤러가 광고 링크를 추적 못하게 한다
3. 방문자가 사용할 수 있는 페이지(인터넷 느린 곳, 모바일 기기, 시각장애인 등 고려)
- 이미지에 alt속성 하여 설명하라
- 모든 링크가 유효한지 확인하라
- 페이지 로드 시간을 최적화하라 : pagespeed insight 페이지 성능 테스트, <image>의 loading="lazy" 속성을 추가한다
- 모든 기기 유형에 맞도록 사이트 디자인한다 : 모바일 친화성 테스트 도구 확인하라
- 다양한 브라우저(구글 익스 풀 로어 크롬 등)에서 정상 작동하는지 확인하라
- 시각장애인 사용자를 위해 스크린 리더 사용한다.
이상 마치며 기본적으로 검색과정이 어떻게 이루어지는지와 사용자를 위한 글쓰기 기본원칙을 숙지함으로서 보다 더 즐거운 블로그 활동을 위하여 구글과 네이버의 웹마스터 자료를 니 해피의 시각으로 정리한 것임을 밝힙니다.
'IT' 카테고리의 다른 글
핸드폰 사진 용량 줄이기 하는 이유 (0) | 2022.08.01 |
---|---|
사이트 트래픽 품질 평가 광고 게재 제한 (1) | 2022.06.22 |
애드센스 크롤러 오류 사이트 크롤링 가용성 문제 (0) | 2022.05.13 |
가치가 없는 콘텐츠 니 뭐니? (0) | 2022.01.29 |
핸드폰 분실 안전장치 기능 100% 활용하기 (0) | 2022.01.19 |
댓글