ソフト404って結局何がどういうことなんだっけ、というざっくりまとめ
出典
ソフト 404 エラー - Search Console ヘルプ
初出(と思われるもの)
HTTP 404 - Wikipedia 曰く ソフト404という用語は Sic Transit Gloria Telae : Towards an understanding of the Web's decay
にて紹介されたとされている。
この論文では死んだページとその検出アルゴリズムについて書かれているのだが、その説明の中で下記のように語られている
ただし、今日の多くのWebサーバーは、存在しないページに対するHTTPリクエストを受信しても、エラーコードを返さないことがわかりました。 代わりに、OKコード(200)といくつかの代替ページを返します。 通常、この代替は、エラーメッセージページ、そのホストのホームページ、またはまったく関連のないページです。 上記のように動作する、存在しないページを「ソフト404ページ」と呼びます。
このように定義が書かれており、この用語がままつかわれるようになっている。
具体的にはどのようなページか
「ソフト404」と言われるものは、以下の要素をもちあわせている
- HTTPステータスコードは200OK
- ただし画面上の表記は「コンテンツが見つかりませんでした」などの表記で、汎用的な対応するページがないエラー(広い意味での
404
の状態)
ソフト404は何が良くないのか
この状態が芳しくない理由をGoogleのヘルプでは以下のように記載されている。
検索エンジンでは、成功コードが返されると、その URL に実際のページがあるものと判断します。その結果、ページが検索結果に表示され、検索エンジンは実際のページをクロールする代わりに、存在しない URL を引き続きクロールしようとします。
この状態が起きると具体的に何が良くないかがわかりにくいが、ことGoogleのbotにおいては以下のようなことになる可能性がある。
- 存在しないページなのに存在するステータスコードを返すため、検索ボットクローラーが「意義のああるページ」と誤認する
- ソフト404ページの実際の中身は「ページがない」という旨を知らせる共通HTMLであることが多いので、クローラーは同じページがたくさんあると誤認する
- 同じ構成のページがたくさんあると重複コンテンツにあたるため、どれが正しいページが見定めようとする
- 正しいページの見解を見誤ると検索に引っ掛けるための精度が下がるため、適切なページが検索結果に出にくくなる
※3,4に関しては重複コンテンツの説明である下記ページ参照のこと 重複した URL を統合する - Search Console ヘルプ
直接的にはソフト404自体でペナルティになる…ということはないが「重複コンテンツ」の仕組みとかけあわさると、正確な情報がクローリングされなくなる恐れがある、という問題に発展する可能性がある、というレベルが現在の実態の様子だった。