Sitemap.xml robots.txt

Sitemap.xml

概要

Sitemapとは2種類あり、1つはサイト野ページをリスと表示するHTMLでユーザのサイト理解のために設置されます
もう1つはXML形式のファイルでサイトの情報を検索エンジンに提供するための手段です
例えば、FLASHなどのクローリングできないコンテンツを含んでいてもクローリング対象を明示的に示すことができます
置き場所はドキュメントルート

http://www.google.com/support/webmasters/bin/answer.py?hl=jp&answer=40318http://www.google.com/support/webmasters/bin/answer.py?hl=jp&answer=40318

http://info.search.yahoo.co.jp/archives/002861.phphttp://info.search.yahoo.co.jp/archives/002861.php

フォーマット
  • 書式
 <?xml version="1.0" encoding="UTF-8"?>
 <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
     <loc>http://www.example.com/</loc>
     <lastmod>2009-08-01</lastmod>
     <changefreq>daily</changefreq>
     <priority>0.8</priority>
   </url>
 </urlset>
  • 利用方法
要素 必須 内容 備考
loc 必須 該当URL  
lastmod 省略可 更新日時 書式 : yyyy-mm-dd
changefreq 省略可 更新頻度 alway:アクセスする度更新
hourly:毎時更新
daily:毎日更新
weekly:毎週更新
monthly:毎月更新
yearly:毎年更新
never:更新しない(アーカイブ等)
prioritiy 省略可 優先度 この値は相対的なもので検索エンジンがサイトないで重要なページを選択するときに使用値は0.0〜1.0(初期値は0.5)
  • その他

エンコーディングは''UTF-8''
・URL内の以下の文字はエスケープ

文字 エスケープ
& &
' '
" "
> >
<

robot.txt

概要

robot.txtとは、検索エンジンにクローリングするサイトを指示するためのものです。~
これを利用すると検索エンジンにINDEXされるのを防ぐことができます
置き場所はドキュメントルート

フォーマット

User-agent: moget
Disallow: /example/

  • 利用方法
要素 内容 備考
User-agent クローラのUser-agent google : Googlebot&br;yahoo : Yahoo! Slurp
Disallow クロールを許可しない場所