コラム
2025年04月22日

審査の差の定量化-審査のブレはどれくらい?

保険研究部 主席研究員 兼 気候変動リサーチセンター チーフ気候変動アナリスト 兼 ヘルスケアリサーチセンター 主席研究員 篠原 拓也

このレポートの関連カテゴリ

文字サイズ

コンクールやコンテストには、審査がつきものだ。音楽やバレエのコンクールでは、演奏や踊りの技術力や芸術性が審査される。スポーツの体操競技やフィギュアスケート競技では、技の難度や芸術的要素が評価される。漫才のコンテストでは、ネタの面白さ、熟練度、ウケ(親和性)等が審査される。
 
こうした審査は、演じ手のパフォーマンスに対して、複数の審査員が点数を付けて、それをもとに順位を決めることが一般的だ。審査員が点数を付ける際には、審査員間のブレを減らすために、採点基準が細かく設定されていることが多い。だが、演じ手のパフォーマンスから受ける印象は審査員ごとに異なるため、審査員の付ける点数には差が生じがちだ。その結果、審査員によって演じ手の順位が異なる場合もある。
 
こうした審査員ごとの審査の差が生じることは、ある程度想定されたものといえる。複数の審査員の眼を通じて、審査を安定、充実させようという狙いだ。ただ、差が大きくなると、審査の一貫性が問われることになりかねない。今回は、審査の差を統計的にどう定量化するべきか、見ていこう。

◇ 3人の演じ手のパフォーマンスを2人の審査員が順位付けする場合

バレエコンクールでも漫才コンテストでもよいが、まず、演じ手がa、b、cの3人、審査員がsとtの2人、という単純な場合を考えてみる。それぞれの審査員は、3人の演じ手のパフォーマンスを見て、1位~3位の順位を付けることとする。このとき、2人の審査員の審査の差は、どのように数字で表せるだろうか?
 
3人の演じ手の順位を[1位,2位,3位]の順番に表す(同順位は付けないものとする(以下、同様))とすると、順位付けは、(1)[a,b,c]、(2)[a,c,b]、(3)[b,a,c]、(4)[b,c,a]、(5)[c,a,b]、(6)[c,b,a]の6通りある。この(1)~(6)のうちのどれか1つを、2人の審査員sとtがそれぞれ決めることになる。したがって、2人の審査員の順位付けのパターンは、全部で36通り(=6×6)となる。
 
この36通りについて、sとtの違いを示す指標をなにか設定したい。ここで、各演じ手にsとtが付けた順位を掛け算して、それを合計した指標Vを考えてみる。
 
例えば、sが(1)[a,b,c]、tが(5)[c,a,b]と順位付けした場合、aについては1×2=2、bについては2×3=6、cについては3×1=3となり、それらを合計して、V=2+6+3=11 といった具合いだ。
 
この指標Vは、sとtの順位が揃っていると大きくなり、異なっていると小さくなる。したがって、Vを使えば2人の審査員の審査の差を数字で表すことができる。

◇ 演じ手の数が4人、5人、…と増えていく場合

この指標Vは、演じ手の数が3人よりも増えていっても、順位が揃っていると大きくなり、異なっていると小さくなるという性質は変わらないので、指標として有効に機能しそうだ。
 
ただし、ここで1つ問題がある。そもそも演じ手の数が増えるとVは大きくなるので、Vの大きさだけを見ても審査の差の程度が把握しづらいことだ。
 
なにか、工夫をする必要がある。そこで考えられるのが、Vのとりうる値の最大値、最小値をもとにVを修正することだ。具体的には、最大値と最小値の中間の値を求めて、それをVから差し引く。そして、その差し引いた値を、最大値と最小値の差で割り算する。さらに、割り算の結果を2倍する。このように修正した指数を、ギリシャ文字のρ(ロー)で表すことにしよう。
 
ρの計算で、最後に2倍するのは、相関係数のように-1~1の値をとるようにするためだ。sとtの順位が完全に一致している場合はρ=1、全く逆に異なっている場合はρ=-1 となる。ρの値が1に近いか、それとも-1に近いかを見ることによって、審査の差の程度が把握できるようになる。

◇ 演じ手の数が5人の場合の例で実際に計算してみる

それでは、実際に計算してみる。演じ手の数がa、b、c、d、eの5人の場合を例にとってみよう。
 
sが[a,b,c,d,e]、tが[b,a,d,c,e]と順位を付けたとする。このとき、V=1×2+2×1+3×4+4×3+5×5=53となる。Vの最大値は55(=1×1+2×2+3×3+4×4+5×5)、最小値は35(=1×5+2×4+3×3+4×2+5×1)だから、 最大値と最小値の中間の値は45、最大値と最小値の差は20となる。
 
したがって、ρ=(53-45)÷20×2=0.8 と計算できる。ρが1に近いプラスの値なので、sとtの審査は大体揃っている。審査のブレはそれほど大きくないと言える。

◇ ρの正体は…

ここで、修正した指標ρについて、考えてみよう。そもそも、なぜ「ρ(ロー)」という名前にしたのか? 鋭い読者は「なにかありそうだ」と思ったに違いない。
 
実は、このρは、統計学で「スピアマンの順位相関係数」と言われているものにあたる。なにかのコンテストの順位のように、整数値しかとり得ないようなデータ(離散データ)をもとに、統計的な分析を行う場合によく用いられる指標だ。この指標はρという記号で表されることが多い。
 
それでは、ρの一般的な計算式を求めてみよう。演じ手の数がn人(nは自然数)の場合だ。
 
Vの最大値は、1×1+2×2+…+n×n = n(n+1)(2n+1)/6
 
Vの最小値は、1×n+2×(n-1)+…+n×1 = n(n+1)(n+2)/6 となる。  (※)
 
(※)
  1×n+2×(n-1)+…+n×1
= 1×(n+1)+2×(n+1)+…+n×(n+1) - (1×1+2×2+…+n×n)
= n(n+1)/2 ×(n+1) - n(n+1)(2n+1)/6
= n(n+1)(n+2)/6
 
したがって、最大値と最小値の中間の値はn(n+1)2/4 (={n(n+1)(2n+1)/6 + n(n+1)(n+2)/6}÷2)、最大値と最小値の差はn(n+1)(n-1)/6 (=n(n+1)(2n+1)/6 - n(n+1)(n+2)/6)となる。
 
その結果、ρの一般的な計算式は、

ρ=(V- n(n+1)2/4) ÷ {n(n+1)(n-1)/6} × 2   (*)

となる。ちょっと、ごちゃごちゃしているが、それほど複雑な計算式ではない。

◇ たまには計算式の意味を振り返ってみる

スピアマンの順位相関係数をインターネット上のサイトで検索すると、次のような形で表示されていることが多い。
 
ρ=1-6×∑D2/(n3-n)
(∑D2は、n人の演じ手について、それぞれsとtの順位の差を2乗して、その合計をとったもの)
 
これは、もちろん正しいし、計算をするにはこの式のほうが簡単だ。実際に、(*)の式と同じものとなっている。(その確認は、稿末に(参考)として付ける。)
 
だが、「なぜこんな計算式で表されるのか?」という点については、最終的な形を見るだけでは理解が難しいだろう。
 
統計学では、実務に用いるために、さまざまな指標や統計量の計算式が簡潔に整備されていることがある。それはそれで、かなり役に立つものだ。
 
だが、「この計算式は一体どのように導出されたのか?」という、統計的な拠り所が切り離されてしまう恐れもある。
 
計算式を用いて統計処理を行う際、たまには、その意味を振り返ってみるのもよいかもしれない。

(参考文献)
 
「推計学のすすめ - 決定と計画の科学」佐藤信著 (講談社, ブルーバックスB-116, 1968年)
 
“Spearman's rank correlation coefficient”(Wikipedia)

(参考)  1-6×∑D2/(n3-n) = (V- n(n+1)2/4) ÷ {n(n+1)(n-1)/6} × 2 であることの確認
 
i番目の演じ手(i=1~n)に対して、審査員sが付けた順位をsi、審査員tが付けた順位をtiとする。Vは、演じ手にsとtが付けた順位を掛け算して、それを合計した指標だから、つぎのように表すことができる。
 
V = s1×t1 + s2×t2 +…+ sn×tn = Σ(si×ti)   (∑は、i=1~nに対する和)
 
 
確認する式の左辺を展開していくと、右辺の形が導出される。
 
1-6×∑D2/(n3-n)
= 1-6×∑(si-ti)2/(n3-n)               (∑は、i=1~nに対する和)
= 1-6×{∑si2+∑ti2-2∑(si×ti)}/ (n3-n)
= 1-6×{n(n+1)(2n+1)/6 + n(n+1)(2n+1)/6 - 2V}/ (n3-n)
= 1-2×n(n+1)(2n+1)/{n(n+1)(n-1)} + 12V/{n(n+1)(n-1)}
= 1-2×(2n+1)/(n-1) + 12V/{n(n+1)(n-1)}
= {(n-1)-(4n+2)}/(n-1) + 12V/{n(n+1)(n-1)}
= -3×(n+1)/(n-1) + 12V/{n(n+1)(n-1)}
= -3×n(n+1)2/{n(n+1)(n-1)} + 12V/{n(n+1)(n-1)}
= {12V-3×n(n+1)2}/{n(n+1)(n-1)}
= (V- n(n+1)2/4) ÷ {n(n+1)(n-1)/6} × 2 

本資料記載のデータは各種の情報源から入手・加工したものであり、その正確性と完全性を保証するものではありません。
また、本資料は情報提供が目的であり、記載の意見や予測は、いかなる契約の締結や解約を勧誘するものではありません。

(2025年04月22日「研究員の眼」)

このレポートの関連カテゴリ

Xでシェアする Facebookでシェアする

保険研究部   主席研究員 兼 気候変動リサーチセンター チーフ気候変動アナリスト 兼 ヘルスケアリサーチセンター 主席研究員

篠原 拓也 (しのはら たくや)

研究・専門分野
保険商品・計理、共済計理人・コンサルティング業務

経歴
  • 【職歴】
     1992年 日本生命保険相互会社入社
     2014年 ニッセイ基礎研究所へ

    【加入団体等】
     ・日本アクチュアリー会 正会員

週間アクセスランキング

ピックアップ

レポート紹介

【審査の差の定量化-審査のブレはどれくらい?】【シンクタンク】ニッセイ基礎研究所は、保険・年金・社会保障、経済・金融・不動産、暮らし・高齢社会、経営・ビジネスなどの各専門領域の研究員を抱え、様々な情報提供を行っています。

審査の差の定量化-審査のブレはどれくらい?のレポート Topへ