웹 마스터를 위한 Google 정보 |
Google은 검색 결과의 포괄성을 대단히 중요하게 여기고 있습니다. Google은 사용자에게 완전하고 공평한 검색 결과를 제공하는데 역점을 두고 있기 때문에 검열 작업에는 참여하지 않습니다. 페이지를 책임진 웹 마스터의 요청이 있을 경우, 스팸 사이트인 경우, 그리고 법에 의해 필요할 경우에만 해당 페이지에 대한 색인 작업을 중단합니다. 색인에서 페이지가 부적절하게 삭제되는 것을 방지하기 위해 이런 정책이 필요합니다.
제거 옵션 |
아래 옵션 중 하나를 선택하시면 지침을 보실 수 있습니다. 다음번에 Google이 귀하의 사이트를 크롤링할 때 제거 내용이 반영됩니다.
웹 페이지 전체 삭제 |
Google 색인에서 웹사이트 전체를 제거하시려면 서버의 루트에 robots.txt라는 파일을 추가하십시오. 이것은 대부분의 웹 크롤러가 색인에서 웹 서버나 디렉터리를 삭제하기 사용하는 표준 프로토콜입니다. robots.txt에 대한 자세한 내용은 여기서 보실 수 있습니다. http://www.robotstxt.org/wc/norobots.html. Googlebot은 robots.txt 가져오기에 대한 401/403 응답("비인증"/"금지")을 사이트의 페이지를 크롤링하지 말라는 요청으로 해석하지 않습니다.
검색 엔진에서 사이트를 제거하고 향후 어떤 로봇도 사이트를 크롤링하지 못하게 하시려면 서버 루트에 다음 robots.txt 파일을 추가하십시오.
User-agent: *Disallow: /
Google에서만 사이트를 제거하고 향후 Googlebot이 사이트를 크롤링하지 못하게 하시려면 서버 루트에 다음 robots.txt 파일을 추가하십시오.
User-agent: GooglebotDisallow: /
각 포트에는 전용 robots.txt 파일이 있어야 합니다. 특히 http와 https 모두를 통해 콘텐츠를 공급할 경우 이 두 가지 프로토콜에 대해 각각의 robots.txt 파일이 있어야 합니다. 예를 들어, Googlebot이 https 페이지를 제외한 모든 http 페이지를 색인에 포함하도록 하려면 아래 robots.txt 파일을 사용하셔야 합니다.
http 프로토콜의 경우(http://yourserver.com/robots.txt):
User-agent: *Allow: /
https 프로토콜의 경우(http://yourserver.com/robots.txt):
User-agent: *Disallow: /
|
웹 페이지 일부 삭제 |
옵션 1: Robots.txt
웹사이트의 디렉터리나 개별 페이지를 제거하시려면 서버의 루트에 robots.txt라는 파일을 추가하십시오. robots.txt 파일을 작성하는 방법은 로봇 제외 기준을 참조하시기 바랍니다. robots.txt 파일 작성 시에는 다음 사항에 유의하십시오. Googlebot은 특정 호스트에서 크롤링할 페이지를 결정할 때 “Googlebot”으로 시작하는 사용자-에이전트가 있는 robots.txt 파일에서 첫 번째 기록을 따릅니다. 이런 항목이 없으면 “*”의 사용자-에이전트가 있는 첫 번째 항목을 따릅니다. 또한, Google은 별표를 사용하여 robots.txt 파일의 유연성을 향상시켰습니다. 금지 패턴에는 문자의 어떤 순서와도 일치하도록 "*"를 포함할 수도 있으며 “$”로 마침으로써 이름의 끝을 표시할 수도 있습니다.
특정 디렉터리(예: lemurs)의 모든 페이지를 삭제하려면 다음 robots.txt 항목을 사용하십시오.
User-agent: GooglebotDisallow: /lemurs
특정 파일 형식(예: .gif)의 모든 페이지를 삭제하려면 다음 robots.txt 항목을 사용하십시오.
User-agent: GooglebotDisallow: /*.gif$
동적 생성 페이지를 삭제하려면 다음 robots.txt 항목을 사용하십시오.
User-agent: GooglebotDisallow: /*?
옵션 2:메타 태그
페이지별로 보다 편리하게 사용할 수 있는 다른 표준에는 <META> 태그를 HTML 페이지에 추가하여 로봇이 해당 페이지를 색인에 포함하지 않도록 지시하는 작업이 포함됩니다. 이 표준에 대한 자세한 내용은 http://www.robotstxt.org/wc/exclusion.html#meta에서 확인하실 수 있습니다.
어떤 로봇도 사이트를 크롤링하지 못하게 하시려면 페이지의 <HEAD> 섹션에 다음 메타 태그를 추가하십시오.
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
다른 로봇은 귀하의 사이트에 있는 페이지를 색인에 포함하도록 하고 Google 로봇만이 페이지를 색인에 포함하지 못하게 하시려면 다음 태그를 사용하십시오.
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">
로봇이 귀하의 사이트에 있는 페이지를 색인에 포함하도록 허용하고 외부와 연결된 링크를 따라가지 못하도록 하시려면 다음 태그를 사용하십시오.
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
|
스니펫 제거 |
스니펫은 검색 결과 아래에 게시되어 페이지의 내용을 설명하는 발췌 텍스트입니다.
Google이 귀하의 페이지에 대한 스니펫을 표시하지 못하게 하시려면 페이지의 <HEAD> 섹션에 다음 태그를 추가하십시오.
<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">
참고사항: 스니펫을 제거하면 캐시된 페이지도 함께 제거됩니다.
|
캐시된 페이지 제거 |
Google은 크롤링하는 모든 페이지를 "스냅샷"으로 보관합니다. 이렇게 "캐시된" 버전은 웹 서버의 일시적인 다운 등으로 원본 페이지를 사용할 수 없을 때 최종 사용자에게 제공됩니다. 캐시된 페이지는 Google이 크롤링했을 때와 거의 유사하게 보이며 페이지 상단에 캐시 버전이라는 메시지가 표시됩니다. 사용자는 검색 결과 페이지에서 “캐시된” 링크를 선택할 경우 캐시된 버전을 사용할 수 있습니다.
모든 검색 엔진에서 귀하의 사이트에 대해 “캐시된” 링크를 표시하지 않도록 하시려면 페이지의 <HEAD> 섹션에 다음 태그를 추가하십시오.
다른 검색 엔진에서 “캐시된” 링크를 표시하도록 허용하고 Google에서만 이를 표시하지 못하게 하시려면 다음 태그를 사용하십시오.
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">
참고사항: 이 태그는 페이지에 대해 “캐시된” 링크만 제거합니다. Google은 계속 페이지를 색인에 포함하고 스니펫을 표시하게 됩니다.
|
업데이트되지 않는(“죽은”) 링크 제거 |
Google은 정기적으로 모든 색인을 자동 업데이트합니다. 웹을 크롤링하는 동안 새 페이지를 발견하고 죽은 링크를 삭제하고 자동으로 링크를 업데이트합니다. 현재 업데이트되지 않는 링크는 향후 크롤링이 진행되면서 색인에서 점차 사라지게 됩니다.
|
Google 이미지 검색에서 이미지 제거 |
Google 이미지 색인에서 이미지를 제거하려면 서버의 루트에 robots.txt 파일을 추가하십시오. (서버 루트에 넣을 수 없다면 디렉터리에 이를 추가하십시오.)
예: 귀하의 사이트(www.yoursite.com/images/dogs.jpg)에 게재된 dogs.jpg 이미지를 Google이 제거하기를 원하시면 www.yoursite.com/robots.txt에 페이지를 하나 만들어 다음 텍스트를 추가하십시오.
User-agent: Googlebot-ImageDisallow: /images/dogs.jpg
Google 색인에서 귀하의 사이트에 있는 이미지를 모두 제거하려면 서버 루트에 다음 robots.txt 파일을 추가하십시오.
User-agent: Googlebot-ImageDisallow: /
이것은 대부분의 웹 크롤러가 색인에서 웹 서버나 디렉터리를 삭제하기 위해 사용하는 표준 프로토콜입니다. robots.txt에 대한 자세한 내용은 여기서 보실 수 있습니다. http://www.robotstxt.org/wc/norobots.html.
또한 Google은 별표를 사용하여 robots.txt 파일의 유연성을 향상시켰습니다. 금지 패턴은 어떤 문자 순서와도 일치하도록 “*”를 포함할 수 있으며 "$"로 마침으로써 이름의 끝을 표시할 수도 있습니다. 특정 파일 형식을 가진 모든 파일을 제거하려면(예를 들어, .jpg는 포함하지만 .gif 이미지는 포함하지 않으려면) 다음 robots.txt 항목을 사용하십시오.
User-agent: Googlebot-ImageDisallow: /*.gif$
|