クローラ防止の方法

ウェブ サーバーの robots.txt ファイルを活用する。 このファイルでは、クロールを実行するディレクトリと実行しないディレクトリを指定できます。 誤って Googlebot クローラがブロックされることのないよう、このファイルにサイトの最新の状態が反映されていることを確認してください。 サイトへのロボットのアクセスを制御する方法については、次の URL (英語) をご覧ください。 http://www.robotstxt.org/wc/faq.html
ウェブマスターのためのガイドラインより)

クローリングされたくない場合に活用

 かなり昔ですが、
「本来社外秘の書類がグーグルで検索されていて全世界からアクセス可能」
 という悪いジョークのような事件が、多発したことがあります。

 そういう隠しページ、あるいは外部公開をそもそも予定していないページをWEBサーバに置くなら、クローリングされないよう、robots.txtを置いてください、ということですね。

 さて、このrobots.txtの詳しい内容についてですが、紹介してくれているリンクは英語で読むのが大変なので、日本語の詳しいページを紹介しておきます。
 ここです。 http://tech.bayashi.net/pdmemo/robots.html


 ちなみに現在でも二次創作、つまり同人サイトは、著作権問題が微妙なため、あえて検索を避けるために使うときがあるそうです。

【技術関連のガイドライン】記事一覧:

  1. HTML構造を確認
  2. 動的URLに注意2
  3. サーバーマスター宛注意事項
  4. ◇クローラ防止の方法
  5. コンテンツ管理システムについて
  6. "&id=" パラメータは使わない

>>トップページのメニューへ

>>トップページへ



現在相互リンクを募集しています。

当サイトは全ページリンクフリーです。なにかありましたらこちらへどうぞ。問い合わせフォーム

© 2006 affi-suke.All rights reserved.