구글 서치 콘솔 용어 1편 - 색인과 크롤링

2018. 4. 19. 01:23 기타/티스토리

블로그들은 검색엔진을 통해 유입이 되는 것이 일반적입니다. 그런데 만약 구글에서 검색에 문제가 앞으로 생길 수 있다고 한다면 어떻게 하시겠습니까? 앞선 글에서 구글 서치 콘솔(Google Search Console)에서 새로운 색인 생성 범위 문제가 발견됨이라는 오류와 제출된 URL에 크롤링이 문제가 있습니다라는 문제의 원인과 해결방법에 대해 알려드렸습니다. 


문제의 원인은 간단했습니다. 구글 웹마스터도구(지금은 Google Search Console로 이름이 바뀜)에서 색인이 되어있던 어떤 원본 소스가 삭제 되었던 것과 크롤링 과정에서 원본이 바뀐 것입니다.


구글에서 검색되게 하기 블로그 검색, 구글 웹마스터 도구


여기서 아마 색인과 크롤링에 대해 자세히는 모르실 것 같습니다. 저도 사실 구글에서 메일이 오기 전까지는 뭔지 몰랐습니다. 그래서 이번 기회에 저도 크롤링과 색인에 대해 공부해 보았습니다. 그리고 공부한 것을 정리해서 알려드리려고 합니다. 





<색인이란>

네이버 백과사전에서 색인이라는 용어를 찾아보았습니다. 그 결과 '색인 또는 목록이라는 의미이며, 데이터를 기록할 경우 그 데이터의 이름, 데이터 크기 등의 속성과 그 기록 장소 등을 표로 표시하는 것, 즉 참조용의 데이터를 색인표 또는 인덱스라 한다'고 적혀있습니다.


처음 읽으면 무슨 뜻인지 잘 몰랐습니다. 그런데 자꾸 생각해보고 인덱스(index)라는 단어를 생각하다 보니 과거 도서관에서 본 적이 있어서 좀 찾아보니 제 생각이 맞았습니다.


   


혹시 교과서나 전문서적을 보시면 책 뒷쪽에 찾아보기나 index라고 적혀 있는 페이지 보신적 있으신가요? 보통 그 페이지에는 관련 용어들을 적어놓고 그 옆에 페이지를 표시해 둔 것을 보신 적 있으실 것입니다.


네, 위의 그림처럼 용어와 페이지를 매치해 두어 그 내용(데이터)이 어디에 기록되어 있는지 알려주는 것입니다.


색인이라는 말을 국어사전에서 찾으면 어떤 것을 뒤져서 찾아내거나 필요한 정보를 밝힘, 책 속의 내용 중에서 중요한 단어나 항목, 인명 따위를 쉽게 찾아볼 수 있도록 일정한 순서에 따라 별도로 배열하여 놓은 목록이라고 되어 있습니다.


아래 사진은 제가 가지고 있던 책을 찍은겁니다. 잘 나오지는 않았네요. 바로 아래의 그림은 앞의 영어로 된 그림과 같이 책 속의 내용 중에서 중요한 단어나 항목, 인명 따위를 쉽게 찾아볼 수 있도록 일정한 순서에 따라 별도로 배열하여 놓은 목록으로 되어 있습니다.


그 아래의 그림을 보시면 책 뒷표지를 찍은 사진인데요. 책이 어떻게 되어있는지 알아볼 수 있게 끔 중요한 단어들로 책에서 설명하는 순서에 따라 배열되어 있습니다.





혹시 이해가 잘 되지 않으신 분들은 아래의 그림을 보신다면 좀 이해가 되실 것 같습니다. 우리가 어떤 것을 노트이나 문서파일에 정리해 두었을 때 사용자(자기 자신 포함)가 그것을 사용할 떄 필요한 자료나 내용을 빨리 찾기 위해 포스트잍 플래그나 다른 것으로 표시를 해 둡니다. 


그런 것을 바로 색인과 비슷한 것으로 생각하시면 됩니다. 이렇게 표시해 둔 것을 별도로 어떤 파일에 어떤 것이 있다고 목록을 만들면 그것이 바로 색인입니다.




<크롤링이란>

영어로 Crawling이라고 영어로의 뜻은 (페인트 등의)칠, 얼룩을 의미합니다. 하지만 IT업계에서는 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술이라고 네이버 백과사전에 있습니다.


저렇게 말하면 어렵고요. 간단하게 말씀드리면 크롤링(Crawling)은 스크래이핑(Scraping)이라고도 하며 웹페이지를 그대로 가져와 거기서 데이터를 추출해 내는 행위라고 합니다. 크롤링하는 프로그램을 크롤러라고 합니다.


크롤링을 색인과 연관지어 설명해 드리면 많은 컴퓨터에 분산, 저장된 문서를 수집하고 검색 대상의 색인으로 포함시키는 기술이라고도 합니다.(네이버 지식백과 참조)


결국 색인을 만들기 위해 사용되는 기술 중 하나가 크롤링이라는 것입니다.


네이버의 경우 웹마스터도구, 구글의 경우 서치 콘솔에 제 블로그를 등록하여 제 블로그에 새로운 글이 등록될 때마다 구글, 네이버 등의 검색엔진에서 이를 수집할 수 있게끔 만들어 두었는데요. 



 제 블로그의 경제의 재테크라는 카테고리를 가지고 설명해 드리겠습니다.

제게 구글 서치 콘솔에서 메일이 왔습니다. 색인 생성 범위 문제에 관한 내용입니다.


발견된 문제는 제출된 URL을 찾을 수 없다는 것입니다. 문제가 된 주소는 다음과 같습니다.

http://dream-promise.tistory.com/category/%EC%83%9D%ED%99%9C%EC%A0%95%EB%B3%B4/%EC%9E%AC%ED%85%8C%ED%81%AC


위의 주소로 접속하면 다음과 같은 화면이 뜹니다.


네! 제 블로그에는 재테크라는 카테고리가 있습니다. 하지만 생활정보에 있지 않고 정보라는 카테고리에 속해 있습니다. 처음에 재테크 카테고리를 만들었을 때 생활정보에 속했지만 지금 이 글을 쓰는 현재 경제 카테고리에 속해있습니다. 


경제 카테고리에 재테크라는 카테고리를 만들고 생활정보의 재테크 카테고리에 있는 글들을 모두 옮기고, 생활정보의 재테크 카테고리를 삭제했습니다. 


여기서 문제가 생긴 것입니다. 구글 서치 콘솔에서는 제가 생활정보 재테크 카테고리를 만들었을 때 크롤링을 했고, 색인을 만들어 뒀습니다. 그리고 재테크 카테고리에 글이 업데이트 된 것이 있는지 크롤링을 하였는데 해당 카테고리가 없어져서 그것을 구글에서 사용자에게 알린 것입니다.


왜 구글에서 말해주는 URL과 제가 접속한 URL이 다르냐고 하실 수도 있을 것 같습니다. 주소가 달라서 신뢰하지 못하겠다시는 분들은 위의 주소로 접속하시면 위의 그림에 나오는 주소로 바뀌는 것을 보실 수 있습니다.


네! 아시는 분들은 아시겠지만 인터넷 홈페이지의 주소 기본은 영문자, 일부 특수문자, 숫자로 이루어져 있습니다. 한글 주소는 사실 별도의 영문, 숫자, 특수문자로 구성된 URL이 있습니다. 그 주소로 접속을 하면 도메인이 한글로 바뀌어 표기 되는 것입니다.


혹시 새로운 색인 생성 범위 문제가 발견 되었다거나 제출된 URL에 크롤링 문제가 있다는 메일을 받으신 분이 계신다면 다음 링크를 통해 문제 해결하시면 됩니다. 


[티스토리] - 새로운 색인 생성 범위 문제가 발견됨 - 제출된 URL에 크롤링 문제가 있습니다


[티스토리] - 티스토리 유입경로 - 리퍼터 referrer referer

[애드센스] - 애드센스 광고 하단에 넣기

[애드센스] - 애드센스 광고 블로그 중간에 넣기

[포토샵] - 포토샵으로 워터마크 만들기 - 블로그 저작권, 블로그 서명 만들기



BIG