2019.11.01

クライミングの能力を項目反応理論(IRT)で推定する

趣味のボルダリングにおいて、常に議論の的になるのが課題のグレード(難易度)。 「Aジムの3級はBジムの4級くらいだ」といった会話は日常茶飯事であり、グレードは多分にセッターやジムのクセといった主観に左右される。それでいいんか、という話。

そこで、試験の採点などで使われる**項目反応理論(Item Response Theory: IRT)**を用いて、クライマーの能力(実力)と課題の難易度を客観的に推定できないかと考え、実装してみた。

u16m/clibming_irt - GitHub

項目反応理論(IRT)とは

IRTは、テストの正誤データから「受験者の能力」と「問題の特性(難易度や識別力)」を同時に推定する統計モデルだ。 従来の素点による評価と異なり、以下のメリットがある。

  • 難しい問題を解いた受験者を高く評価できる
  • 受験者のレベルに合わせて問題の難易度を調整(等化)できる

これをクライミングに当てはめると、「どの課題を完登したか」というデータから、クライマーの真の実力と、課題の本当の辛さを算出できることになる。

実装のポイント

今回作成したリポジトリでは、2パラメータ・ロジスティックモデル(2PLモデル)を採用し、勾配降下法を用いてパラメータを推定している。

  • 識別力(alpha): その課題がクライマーの実力をどれだけ正確に判別できるか
  • 難易度(beta): 課題そのものの難しさ
  • 能力(theta): クライマーの実力

EMアルゴリズムで、クライマーの能力推定と課題の特性推定を交互に繰り返し、収束させていく。

詳細・結果

こちらが詳細 わりと予想通りいった感。さすがアダム・オンドラ。

何が嬉しいのか

このモデルがうまく機能すれば、以下のようなことが可能になる。

  1. ジムを跨いだ実力の比較: 共通の課題をいくつか登っていれば、異なるジムに通うクライマー同士のレベルを同じ尺度で比較できる。
  2. コンペの公平性: コンペのリザルトから課題の難易度を逆算し、順位付けの妥当性を検証できる。
  3. 客観的なグレード付け: セッターの主観ではなく、実際の完登率と登った人のレベルに基づいた「統計的グレード」を付与できる。

最後に

実際には「トライ数」や「登れた時のコンディション」など変数は多いが、完登・未登というシンプルなバイナリデータだけでも、統計的に見えてくるものは多い。 現在はIFSCのワールドカップデータなどを用いて実験しているが、アプリ化してデータを集めたい。

Journal一覧に戻る