審査の差の定量化－審査のブレはどれくらい?

保険研究部主席研究員兼気候変動リサーチセンターチーフ気候変動アナリスト兼ヘルスケアリサーチセンター主席研究員篠原拓也

このレポートの関連カテゴリ

コンクールやコンテストには、審査がつきものだ。音楽やバレエのコンクールでは、演奏や踊りの技術力や芸術性が審査される。スポーツの体操競技やフィギュアスケート競技では、技の難度や芸術的要素が評価される。漫才のコンテストでは、ネタの面白さ、熟練度、ウケ(親和性)等が審査される。

こうした審査は、演じ手のパフォーマンスに対して、複数の審査員が点数を付けて、それをもとに順位を決めることが一般的だ。審査員が点数を付ける際には、審査員間のブレを減らすために、採点基準が細かく設定されていることが多い。だが、演じ手のパフォーマンスから受ける印象は審査員ごとに異なるため、審査員の付ける点数には差が生じがちだ。その結果、審査員によって演じ手の順位が異なる場合もある。

こうした審査員ごとの審査の差が生じることは、ある程度想定されたものといえる。複数の審査員の眼を通じて、審査を安定、充実させようという狙いだ。ただ、差が大きくなると、審査の一貫性が問われることになりかねない。今回は、審査の差を統計的にどう定量化するべきか、見ていこう。

◇ 3人の演じ手のパフォーマンスを2人の審査員が順位付けする場合

バレエコンクールでも漫才コンテストでもよいが、まず、演じ手がa、b、cの3人、審査員がsとtの2人、という単純な場合を考えてみる。それぞれの審査員は、3人の演じ手のパフォーマンスを見て、1位～3位の順位を付けることとする。このとき、2人の審査員の審査の差は、どのように数字で表せるだろうか?

3人の演じ手の順位を[1位,2位,3位]の順番に表す(同順位は付けないものとする(以下、同様))とすると、順位付けは、(1)[a,b,c]、(2)[a,c,b]、(3)[b,a,c]、(4)[b,c,a]、(5)[c,a,b]、(6)[c,b,a]の6通りある。この(1)～(6)のうちのどれか1つを、2人の審査員sとtがそれぞれ決めることになる。したがって、2人の審査員の順位付けのパターンは、全部で36通り(=6×6)となる。

この36通りについて、sとtの違いを示す指標をなにか設定したい。ここで、各演じ手にsとtが付けた順位を掛け算して、それを合計した指標Vを考えてみる。

例えば、sが(1)[a,b,c]、tが(5)[c,a,b]と順位付けした場合、aについては1×2＝2、bについては2×3＝6、cについては3×1＝3となり、それらを合計して、V＝2＋6＋3＝11 といった具合いだ。

この指標Vは、sとtの順位が揃っていると大きくなり、異なっていると小さくなる。したがって、Vを使えば2人の審査員の審査の差を数字で表すことができる。

◇ 演じ手の数が4人、5人、…と増えていく場合

この指標Vは、演じ手の数が3人よりも増えていっても、順位が揃っていると大きくなり、異なっていると小さくなるという性質は変わらないので、指標として有効に機能しそうだ。

ただし、ここで1つ問題がある。そもそも演じ手の数が増えるとVは大きくなるので、Vの大きさだけを見ても審査の差の程度が把握しづらいことだ。

なにか、工夫をする必要がある。そこで考えられるのが、Vのとりうる値の最大値、最小値をもとにVを修正することだ。具体的には、最大値と最小値の中間の値を求めて、それをVから差し引く。そして、その差し引いた値を、最大値と最小値の差で割り算する。さらに、割り算の結果を2倍する。このように修正した指数を、ギリシャ文字のρ(ロー)で表すことにしよう。

ρの計算で、最後に2倍するのは、相関係数のように-1～1の値をとるようにするためだ。sとtの順位が完全に一致している場合はρ＝1、全く逆に異なっている場合はρ＝-1 となる。ρの値が1に近いか、それとも-1に近いかを見ることによって、審査の差の程度が把握できるようになる。

◇ 演じ手の数が5人の場合の例で実際に計算してみる

それでは、実際に計算してみる。演じ手の数がa、b、c、d、eの5人の場合を例にとってみよう。

sが[a,b,c,d,e]、tが[b,a,d,c,e]と順位を付けたとする。このとき、V＝1×2＋2×1＋3×4＋4×3＋5×5＝53となる。Vの最大値は55(＝1×1＋2×2＋3×3＋4×4＋5×5)、最小値は35(＝1×5＋2×4＋3×3＋4×2＋5×1)だから、最大値と最小値の中間の値は45、最大値と最小値の差は20となる。

したがって、ρ＝(53－45)÷20×2＝0.8 と計算できる。ρが1に近いプラスの値なので、sとtの審査は大体揃っている。審査のブレはそれほど大きくないと言える。

◇ ρの正体は…

ここで、修正した指標ρについて、考えてみよう。そもそも、なぜ「ρ(ロー)」という名前にしたのか？鋭い読者は「なにかありそうだ」と思ったに違いない。

実は、このρは、統計学で「スピアマンの順位相関係数」と言われているものにあたる。なにかのコンテストの順位のように、整数値しかとり得ないようなデータ(離散データ)をもとに、統計的な分析を行う場合によく用いられる指標だ。この指標はρという記号で表されることが多い。

それでは、ρの一般的な計算式を求めてみよう。演じ手の数がn人(nは自然数)の場合だ。

Vの最大値は、1×1＋2×2＋…＋n×n ＝ n(n+1)(2n+1)/6

Vの最小値は、1×n＋2×(n-1)＋…＋n×1 ＝ n(n+1)(n+2)/6　となる。 (※)

(※)
1×n＋2×(n-1)＋…＋n×1
＝ 1×(n+1)＋2×(n+1)＋…＋n×(n+1)　－　(1×1＋2×2＋…＋n×n)
＝ n(n+1)/2 ×(n+1) － n(n+1)(2n+1)/6
＝ n(n+1)(n+2)/6

したがって、最大値と最小値の中間の値はn(n+1)²/4 (＝{n(n+1)(2n+1)/6 ＋ n(n+1)(n+2)/6}÷2)、最大値と最小値の差はn(n+1)(n-1)/6 (＝n(n+1)(2n+1)/6 － n(n+1)(n+2)/6)となる。

その結果、ρの一般的な計算式は、

ρ＝(V－ n(n+1)²/4) ÷ {n(n+1)(n-1)/6} × 2　 (*)

となる。ちょっと、ごちゃごちゃしているが、それほど複雑な計算式ではない。

◇ たまには計算式の意味を振り返ってみる

スピアマンの順位相関係数をインターネット上のサイトで検索すると、次のような形で表示されていることが多い。

ρ＝1－6×∑D²/(n³-n)
(∑D²は、n人の演じ手について、それぞれsとtの順位の差を2乗して、その合計をとったもの)
　
これは、もちろん正しいし、計算をするにはこの式のほうが簡単だ。実際に、(*)の式と同じものとなっている。(その確認は、稿末に(参考)として付ける。)

だが、「なぜこんな計算式で表されるのか?」という点については、最終的な形を見るだけでは理解が難しいだろう。

統計学では、実務に用いるために、さまざまな指標や統計量の計算式が簡潔に整備されていることがある。それはそれで、かなり役に立つものだ。

だが、「この計算式は一体どのように導出されたのか?」という、統計的な拠り所が切り離されてしまう恐れもある。

計算式を用いて統計処理を行う際、たまには、その意味を振り返ってみるのもよいかもしれない。

(参考文献)

「推計学のすすめ　－決定と計画の科学」佐藤信著 (講談社, ブルーバックスB-116, 1968年)

“Spearman's rank correlation coefficient”(Wikipedia)

(参考) 1－6×∑D²/(n³-n) ＝ (V－ n(n+1)²/4) ÷ {n(n+1)(n-1)/6} × 2　であることの確認

i番目の演じ手(i＝1～n)に対して、審査員sが付けた順位をs_i、審査員tが付けた順位をt_iとする。Vは、演じ手にsとtが付けた順位を掛け算して、それを合計した指標だから、つぎのように表すことができる。

V ＝ s₁×t₁ ＋ s₂×t₂ ＋…＋ s_n×t_n＝ Σ(s_i×t_i) (∑は、i＝1～nに対する和)

確認する式の左辺を展開していくと、右辺の形が導出される。

1－6×∑D²/(n³-n)
＝ 1－6×∑(s_i-t_i)²/(n³-n) 　　　　　　　　　 (∑は、i＝1～nに対する和)
＝ 1－6×{∑s_i²＋∑t_i²－2∑(s_i×t_i)}/ (n³-n)
＝ 1－6×{n(n+1)(2n+1)/6 ＋ n(n+1)(2n+1)/6 － 2V}/ (n³-n)
＝ 1－2×n(n+1)(2n+1)/{n(n+1)(n-1)} ＋ 12V/{n(n+1)(n-1)}
＝ 1－2×(2n+1)/(n-1) ＋ 12V/{n(n+1)(n-1)}
＝ {(n-1)－(4n+2)}/(n-1) ＋ 12V/{n(n+1)(n-1)}
＝ -3×(n+1)/(n-1) ＋ 12V/{n(n+1)(n-1)}
＝ -3×n(n+1)²/{n(n+1)(n-1)} ＋ 12V/{n(n+1)(n-1)}
＝ {12V－3×n(n+1)²}/{n(n+1)(n-1)}
＝ (V－ n(n+1)²/4) ÷ {n(n+1)(n-1)/6} × 2　

日付	タイトル	執筆者	媒体
2025/05/27	気候指数 2024年データへの更新－日本の気候の極端さは1971年以降の最高水準を大幅に更新	篠原拓也	基礎研レポート
2025/05/20	「次元の呪い」への対処－モデルの精度を上げるにはどうしたらよいか?	篠原拓也	研究員の眼
2025/05/13	チェス盤を用いた伝心－愛情と計算力があれば心は通じる?	篠原拓也	研究員の眼
2025/05/09	国民負担率 24年度45.8％の見込み－高齢化を背景に、欧州諸国との差は徐々に縮小	篠原拓也	基礎研マンスリー

日付

タイトル

執筆者

媒体

2025/05/27

気候指数 2024年データへの更新－日本の気候の極端さは1971年以降の最高水準を大幅に更新

篠原拓也

基礎研レポート

2025/05/20

「次元の呪い」への対処－モデルの精度を上げるにはどうしたらよいか?

篠原拓也

研究員の眼