読者です 読者をやめる 読者になる 読者になる

文系プログラマによるTIPSブログ

文系プログラマ脳の私が開発現場で学んだ事やプログラミングのTIPSをまとめています。

はてなブログのサイトマップxml(サイトマップインデックス)のURLの確認の仕方

はてなブログ SEO

はてなブログのサイトマップインデックスのURLの調べ方をちゃんと説明できているサイトが見当たらなかったので、書いてみます。

f:id:treeapps:20150806014505p:plain

サイトマップxmlとは?

説明はgoogleを見るのが早いです。

ざっくり言うと、サイトマップxmlは「自サイトのコンテンツのURLの存在をgoogleに知らせる」ものです。存在を知らせる事でgoogleのクローラの動きをよくする事ができます。逆に、あまりに多くのURLを送信すると、クロール量が増えてgoogleにインデックスされる時間が遅くなる恐れがあります。

サイトマップには「サイトマップインデックス」と「サイトマップxml」の2種類があり、サイトマップインデックスにはサイトマップxmlのURLが記述されています。↓こんな構造です。

サイトマップインデックス
  ┣ サイトマップ1.xml
  ┣ サイトマップ2.xml
  ┣ サイトマップ3.xml
  ┗ サイトマップ4.xml

このサイトマップ1〜4.xmlに、ブログ等のURLが記述されます。

でははてなブログのサイトマップxml、サイトマップインデックスはあるのでしょうか?


あります


安心して下さい。ちゃんと両方存在します。

サイトマップインデックスのURLの調べ方

Search Console(旧Google ウェブマスターツール)、またはrobots.txtから確認する事ができます。

Search Consoleから確認する場合

クロール -> robots.txtテスター、を開くと、サイトマップインデックスのURLが記述されている事が解ります。
f:id:treeapps:20150727092958p:plain

直接robots.txtを参照して確認する場合

当ブログの場合は以下です。
http://www.bunkei-programmer.net/robots.txt

他のはてなブログであれば以下のように入力して下さい。
http://ここに自分のブログのドメインを設定/robots.txt

Search Consoleと同じ表示になりましたね。


なお、robots.txtにサイトマップインデックス、またはサイトマップxmlのURLを記載する事は一般的なwebの手法なので、はてなブログ以外でも、robots.txtを見る事でサイトマップインデックス・サイトマップxmlnURLを知る事ができると思います。

サイトマップxmlの設定の仕方

設定の仕方

Search Consoleを開き、クロール -> サイトマップ、と表示し、「sitemap_index.xml」と入力(これは全てのはてなブログで同一)し、サイトマップを送信をクリックして完了です。
f:id:treeapps:20150727093914p:plain

確認の仕方

サイトマップインデックスを登録してからgoogleがサイトマップインデックスを読みに行くのに数分かかる場合があります。

確認する場合は、Search Consoleを開き、クロール -> サイトマップ、と表示し、画面下部を見て、「/sitemap_index.xml」というものが表示され、「送信」や「インデックスに登録済」に数字が表示されれば、googleに正常に登録されている事が確認できます。
f:id:treeapps:20150727094213p:plain

番外編

はてなブログにRSS(フィード)はあるの?


あります


あるんです。これも一緒にSearch Consoleのサイトマップに登録しちゃいましょう。

はてなブログのRSSのURLの確認の仕方

これは少しテクニカルになりますが、htmlのソースを表示して確認できます。

f:id:treeapps:20150727094705p:plain

    <link rel="alternate" type="application/atom+xml" title="Atom" href="http://www.bunkei-programmer.net/feed"/>
    <link rel="alternate" type="application/rss+xml" title="RSS2.0" href="http://www.bunkei-programmer.net/rss"/>

という部分が、はてなブログのRSSのURLです。AtomとRSS2.0の2種類存在するようですね。どちらをSearch Consoleに登録すればいいのかの最適解はちょっと答えられないですが、Atomの方がシンプルな構造になっているので、私はAtomの方を登録しています。(シンプルな方がGoogleが理解しやすくクロールも早まる事を期待)

RSSをサイトマップに設定する手順は前述のサイトマップインデックスの登録と全く同じやり方です。「sitemap_index.xml」の代わりに「feed」と入力して登録するだけです。

何故サイトマップとRSSの両方を登録しておくか

処理内容的に、サイトマップxmlというのはバッチ処理によって生成される事が多く、RSSはリアルタイムに生成される事が多いです。

Googleが明言しているわけではありませんが、よりリアルタイム性が高い方がGoogleにクロールされる速度が早まるかな?という期待を込めて、RSSも登録しています。RSSは「ほら!今記事アップしたからインデックスしてね!」という役割で、サイトマップxmlは「こういうURLがあるぜ!」と伝える役割を期待しています。(URLが記事作成日の新しい順に数件並んでいるので、過去記事を更新してもRSSに表示されないので、過去記事についてインデックスの高速化の効果は無いと思われます)

pubsubhubbubはあるの?

これはちょっと不明ですね。少なくともAtomとRSS2.0のxmlにはpubsubhubbubの文字は設定されていません。だとすると何らかのwebサービスでフィードを生成(編集)してpubsubhubbubに対応させる事ができるのかな???と考えていますが、解りません。

雑感

Robots.txtにサイトマップインデックスのURLが記述されているので本来この作業を行う必要はありませんが、明示的に登録してあげる事で、より正確に、より早く、サイトマップの存在をGoogleに知らせる事ができます。

手動でSearch Consoleにサイトマップを登録する事で、記事に異変(404など)が発生した時も確認する事ができたり、今何件Googleにインデックスされているかを調べる事もできるので、手動で登録する事をおすすめします。


他にも、最近流行りのコピーサイトについても多少効果はあります。「より早くインデックスされた方がオリジナルサイト」と検索エンジンが認識する可能性があるため、サイトマップやRSSを登録しておくと、多少効果が出ると思われます。それでも完全とはいえないので、怪しいサイトを見かけたら、以下からGoogleに申請する事で、何らかの対応をして貰える可能性があります。www.google.com

これからはじめるSEO 顧客思考の教科書 ?ユーザー重視のWebサイトを5つの視点で実現する

これからはじめるSEO 顧客思考の教科書 ?ユーザー重視のWebサイトを5つの視点で実現する

SEO対策のための Webライティング実践講座

SEO対策のための Webライティング実践講座