ポアソン分布で試合スコアを予測する仕組み — サッカー統計の基本モデル解説

※ 本記事について: 本記事はサッカーデータ分析の理解を深めることを目的とした解説記事です。記述する確率モデルの結果は参考値であり、賭け事(スポーツベッティング)の判断材料としての利用は推奨しません。

サッカーの試合スコアを統計的に予測する手法として、最も基本的かつ広く用いられているのがポアソン分布(Poisson distribution)を用いたモデルです。当サイトの試合プレビュー記事でも、両チームの期待得点をもとにポアソン分布から各スコアの発生確率を算出しています。本記事では、なぜサッカーのスコア予測にポアソン分布が用いられるのか、期待得点(λ:ラムダ)はどのように計算するのか、そして確率分布から何が読み取れるのかを、具体例を交えて解説します。

私自身、サッカー観戦の延長で「数字で試合を読めないか」と考え始めた頃、最初にぶつかったのがこのポアソン分布でした。表計算ソフトで自分なりに計算式を組み、当時のお気に入りカードの想定スコア確率を出してみて「思ったよりも特定のスコアに高確率が集中しないんだな」と驚いた記憶があります。本記事はその時の私が読みたかった内容を、自分なりに整理し直したものです。

ポアソン分布とは何か

ポアソン分布は、19世紀のフランスの数学者シメオン・ドニ・ポアソンによって導入された確率分布で、「ある一定の時間や空間の中で、稀にしか発生しない事象が、何回起こるか」を表現する数学モデルです。例えば「1時間あたりにかかってくる電話の本数」「1日あたりに発生する交通事故の件数」「1試合あたりに決まるサッカーのゴール数」といった、回数を数えるタイプの現象に適用されます。

ポアソン分布の確率質量関数は次のように表されます。

ポアソン分布の確率質量関数

P(X = k) = (λ^k × e^−λ) ÷ k!

ここで、Pは確率、kは事象の発生回数(ゴール数)、λ(ラムダ)は単位時間あたりの平均発生回数(期待得点)、eはネイピア数(約2.71828)、k!はkの階乗です。

数式だけを見ると難解に映りますが、要するに「1試合の平均得点(λ)が分かっていれば、その試合で実際に0点・1点・2点・3点…が決まる確率を、それぞれ計算できる」という仕組みです。例えば、あるチームの平均得点が1.5点であれば、そのチームが0点で終わる確率、1点で終わる確率、2点で終わる確率…を、すべてこの式から導き出せます。

なぜサッカーのスコア予測に適しているのか

ポアソン分布がサッカーのスコア予測に適している理由は、サッカーの得点という現象が、ポアソン分布が想定する条件をおおむね満たしているためです。具体的には次の4つの条件です。

条件1: 事象の発生が稀である

サッカーの試合では、90分間に決まるゴール数は両チーム合計でも平均2〜3点程度です。バスケットボールのように1試合で何十点も決まる競技では、ポアソン分布の前提が崩れやすくなりますが、サッカーは「稀な事象を数える」というポアソン分布の前提に合致しています。

条件2: 事象の発生時刻が独立している

あるゴールが入った直後に次のゴールが必ず入る、あるいは絶対に入らない、という強い依存関係はサッカーには基本的にありません。試合の流れによる勢いは多少存在しますが、近似的には独立な事象として扱える範囲です。

条件3: 単位時間あたりの発生率が一定である

厳密には試合の終盤や立ち上がりで得点ペースは変動しますが、90分間を平均として扱うことで、近似的に一定の発生率と見なすことができます。

条件4: 同時に複数発生しない

サッカーでは、同じ瞬間に2点以上同時に決まることは構造的にあり得ません。1点ずつ加算されていく特性は、ポアソン分布の前提と一致しています。

これらの条件はあくまで「近似的に成立する」ものであり、サッカーの試合は厳密にはポアソン分布に従うわけではありません。しかし、欧州サッカーの数十年分のスコアデータを集計すると、実際の得点分布はポアソン分布が予測する形に驚くほど近いことが、複数の研究で確認されています。これがポアソン分布が「最初に試すべきベースラインモデル」として広く採用されている理由です。

期待得点(λ)の算出方法

ポアソン分布によるスコア予測で最も重要なのが、両チームの期待得点(λ)をどう推定するかです。当サイトでは、シーズンを通したホーム/アウェイ別の平均得失点を組み合わせて期待得点を算出する、伝統的な方法を採用しています。

基本となる4つの数値

ホームチームAとアウェイチームBの試合を想定するとき、期待得点の算出に必要な数値は次の4つです。

α_A(ホームAの攻撃力): チームAが今季ホーム試合で1試合あたり平均何点取っているか
δ_A(ホームAの守備力): チームAが今季ホーム試合で1試合あたり平均何点取られているか
α_B(アウェイBの攻撃力): チームBが今季アウェイ試合で1試合あたり平均何点取っているか
δ_B(アウェイBの守備力): チームBが今季アウェイ試合で1試合あたり平均何点取られているか

期待得点の計算式

これらの数値から、両チームの期待得点を次のように算出します。

ホームチームAの期待得点

λ_A = (α_A + δ_B) ÷ 2

アウェイチームBの期待得点

λ_B = (α_B + δ_A) ÷ 2

つまり、ホームチームAの期待得点は「Aがホームで取れる点数」と「Bがアウェイで取られる点数」の平均、アウェイチームBの期待得点は「Bがアウェイで取れる点数」と「Aがホームで取られる点数」の平均として推定されます。攻撃側のチームの得点能力と、守備側のチームの失点傾向の両方を反映する設計です。

具体例: リーズ vs バーンリー

2025-26シーズン第35節のリーズ対バーンリー戦を例に、実際の計算を見てみます。両チームの今季のホーム/アウェイ別データは次の通りでした。

指標	リーズ(ホーム)	バーンリー(アウェイ)
試合数	17	17
平均得点	1.47	1.12
平均失点	1.18	2.47

この数値を期待得点の式に当てはめます。

λ_リーズ = (1.47 + 2.47) ÷ 2 = 1.97

λ_{バーンリー} = (1.12 + 1.18) ÷ 2 = 1.15

これにより、リーズの期待得点は1.97点、バーンリーの期待得点は1.15点と推定されました。この数値をポアソン分布の式に代入することで、各得点数の発生確率が計算できます。

例えば「リーズが2点取る確率」を計算するには、λ=1.97、k=2を代入します。

P(リーズ=2) = (1.97² × e^−1.97) ÷ 2!
≈ (3.88 × 0.139) ÷ 2 ≈ 0.270 (約27.0%)

同様に、バーンリーが0点で終わる確率は約31.7%、1点取る確率は約36.4%といった具合に、各得点数の発生確率が個別に計算できます。両チームの確率を組み合わせることで、各スコアの発生確率(2-0、2-1、1-1、など)が導かれます。

確率分布から何が読めるか

計算の結果、各スコアの発生確率は次のように整理されます(リーズ vs バーンリー戦の例)。

スコア(リーズ - バーンリー)	確率
1-1	10.0%
2-1	9.9%
1-0	8.7%
2-0	8.6%
3-1	6.5%

注意すべきは、「最も発生確率が高いスコア」が必ずしも10%程度に過ぎないことです。サッカーのスコアには非常に多くの組み合わせ(0-0、1-0、2-1、3-2、0-1、…)があり、確率はそれらに分散します。一つのスコアに30〜40%といった高い確率が集中することは、極端な実力差がある場合を除いてほぼありません。

そのため、ポアソン分布から導かれる確率は「特定のスコアが当たる確率」を読むものではなく、「どのスコア帯が起こりやすいか」「ホームチームが勝つ・引き分け・負ける確率はそれぞれどの程度か」を把握するためのツールとして用いるのが適切です。

勝敗確率の集計

各スコアの発生確率を、ホーム勝ち・引き分け・アウェイ勝ちの3つに集約することで、より直感的に試合展望を読み解けます。リーズ対バーンリー戦の例では次のようになります。

リーズ勝利の確率: 約56%
引き分けの確率: 約22%
バーンリー勝利の確率: 約22%

この集計値は、両チームの実力差を最もコンパクトに表現する指標です。当サイトの試合プレビュー記事でも、各試合のポアソン分布セクションで併記しています。

ポアソン分布の限界と注意点

ポアソン分布によるスコア予測は強力なベースラインモデルですが、いくつかの重要な限界があります。これらを理解した上で参考値として用いることが大切です。

1. 試合の文脈を反映できない

主力選手の負傷・出場停止、監督交代、過密日程、ダービーマッチ特有の心理的緊張、優勝争いや残留争いの動機づけといった「試合の文脈」は、過去の平均得失点には十分に反映されません。シーズン後半になればなるほど、これらの文脈要素が試合結果を左右します。

2. 引き分けの確率が過小評価される傾向

単純なポアソン分布モデルは、両チームの得点を完全に独立な事象として扱います。しかし実際のサッカーでは、お互いに守備を固めてロースコアになる、リードを守りに入る、といった「両チームの得点が連動する」傾向が観察されます。このため、特に1-1や0-0といった引き分けの実発生率は、ポアソン分布が予測する値よりやや高くなる傾向があります。これを補正するために、ディキシー&コールズによる相関補正など、より高度なモデルも研究されています。

3. シーズン序盤のデータ不足

期待得点の推定にはシーズンを通したホーム/アウェイ別データを使用しますが、シーズン序盤(数試合消化時点)では試合数が少なく、平均値の信頼性が低くなります。当サイトでは、シーズン中盤以降の数値を中心に分析するか、前年度データを併用することで、この問題への対策をしています。

4. 攻撃力・守備力の動的変化

シーズンを通じてチーム状態は変化します。直近10試合のフォームが過去20試合の平均と大きく異なる場合、シーズン全体の平均値だけでは現在のチーム実力を正確に表現できません。当サイトの試合プレビュー記事では、ポアソン分布の参考値に直近フォームの定性的評価を加味して、最終的な試合展望を整理する形を取っています。

まとめ

ポアソン分布は、サッカーのスコア予測における最も基本的で強力な数学モデルです。両チームのホーム/アウェイ別の平均得失点という、誰でも入手可能なデータから期待得点を推定し、各スコアの発生確率を体系的に計算できる点が大きな魅力です。

一方で、ポアソン分布が出力する確率は「絶対的な予測値」ではなく、「数字から見た試合展望の参考値」と捉えることが重要です。試合の文脈、選手の状態、心理的要素、戦術の噛み合わせといった、数字に表れにくい要素を加味した上で、最終的な試合の見方を整理する。これがデータ分析を活用した観戦の楽しみ方です。

当サイトの試合プレビュー記事では、ポアソン分布による期待得点(λ)を「データが示す客観的な土台」として提示しつつ、直近フォームやモチベーションといった文脈要素を組み合わせて、試合の見どころを整理しています。本記事を参考に、各試合プレビューの数値解釈をより深くお楽しみいただければ幸いです。

個人的な感想として、ポアソン分布で計算した結果をその後の試合と照らし合わせる作業は、観戦の楽しみを思った以上に広げてくれました。数字が示した「1-1で最も整合的」という展開と、実際の試合で1点ずつ取り合うシーソーゲームになった瞬間とのつながり。逆に、確率上は希少だった「3-0」のような大差が現実に起きた時に「何がモデルから外れたのか」を後から考える楽しみ。こうした「数字と現実を行き来する観戦の習慣」が、私にとってサッカーをより面白く感じるきっかけになりました。本記事をきっかけに、同じような楽しみを共有できる方が増えれば嬉しいです。