ウェブ サーバーの robots.txt ファイルを活用する。 このファイルでは、クロールを実行するディレクトリと実行しないディレクトリを指定できます。 誤って Googlebot クローラがブロックされることのないよう、このファイルにサイトの最新の状態が反映されていることを確認してください。 サイトへのロボットのアクセスを制御する方法については、次の URL (英語) をご覧ください。 http://www.robotstxt.org/wc/faq.html (ウェブマスターのためのガイドラインより)
かなり昔ですが、 「本来社外秘の書類がグーグルで検索されていて全世界からアクセス可能」 という悪いジョークのような事件が、多発したことがあります。 そういう隠しページ、あるいは外部公開をそもそも予定していないページをWEBサーバに置くなら、クローリングされないよう、robots.txtを置いてください、ということですね。 さて、このrobots.txtの詳しい内容についてですが、紹介してくれているリンクは英語で読むのが大変なので、日本語の詳しいページを紹介しておきます。 ここです。 http://tech.bayashi.net/pdmemo/robots.html ちなみに現在でも二次創作、つまり同人サイトは、著作権問題が微妙なため、あえて検索を避けるために使うときがあるそうです。
【技術関連のガイドライン】記事一覧:
>>トップページのメニューへ
>>トップページへ
現在相互リンクを募集しています。
当サイトは全ページリンクフリーです。なにかありましたらこちらへどうぞ。問い合わせフォーム