コード日進月歩

しんくうの技術的な小話、メモ、つれづれ、など

ソフト404とは何なのかざっくりまとめる

ソフト404って結局何がどういうことなんだっけ、というざっくりまとめ

出典

ソフト 404 エラー - Search Console ヘルプ

初出(と思われるもの)

HTTP 404 - Wikipedia 曰く ソフト404という用語は Sic Transit Gloria Telae : Towards an understanding of the Web's decay にて紹介されたとされている。

この論文では死んだページとその検出アルゴリズムについて書かれているのだが、その説明の中で下記のように語られている

ただし、今日の多くのWebサーバーは、存在しないページに対するHTTPリクエストを受信しても、エラーコードを返さないことがわかりました。 代わりに、OKコード(200)といくつかの代替ページを返します。 通常、この代替は、エラーメッセージページ、そのホストのホームページ、またはまったく関連のないページです。 上記のように動作する、存在しないページを「ソフト404ページ」と呼びます。

このように定義が書かれており、この用語がままつかわれるようになっている。

具体的にはどのようなページか

「ソフト404」と言われるものは、以下の要素をもちあわせている

  • HTTPステータスコードは200OK
  • ただし画面上の表記は「コンテンツが見つかりませんでした」などの表記で、汎用的な対応するページがないエラー(広い意味での 404 の状態)

ソフト404は何が良くないのか

この状態が芳しくない理由をGoogleのヘルプでは以下のように記載されている。

検索エンジンでは、成功コードが返されると、その URL に実際のページがあるものと判断します。その結果、ページが検索結果に表示され、検索エンジンは実際のページをクロールする代わりに、存在しない URL を引き続きクロールしようとします。

この状態が起きると具体的に何が良くないかがわかりにくいが、ことGooglebotにおいては以下のようなことになる可能性がある。

  1. 存在しないページなのに存在するステータスコードを返すため、検索ボットクローラーが「意義のああるページ」と誤認する
  2. ソフト404ページの実際の中身は「ページがない」という旨を知らせる共通HTMLであることが多いので、クローラーは同じページがたくさんあると誤認する
  3. 同じ構成のページがたくさんあると重複コンテンツにあたるため、どれが正しいページが見定めようとする
  4. 正しいページの見解を見誤ると検索に引っ掛けるための精度が下がるため、適切なページが検索結果に出にくくなる

※3,4に関しては重複コンテンツの説明である下記ページ参照のこと 重複した URL を統合する - Search Console ヘルプ

直接的にはソフト404自体でペナルティになる…ということはないが「重複コンテンツ」の仕組みとかけあわさると、正確な情報がクローリングされなくなる恐れがある、という問題に発展する可能性がある、というレベルが現在の実態の様子だった。

関連サイト