クライミングの能力を項目反応理論(IRT)で推定する
趣味のボルダリングにおいて、常に議論の的になるのが課題のグレード(難易度)。 「Aジムの3級はBジムの4級くらいだ」といった会話は日常茶飯事であり、グレードは多分にセッターやジムのクセといった主観に左右される。それでいいんか、という話。
そこで、試験の採点などで使われる**項目反応理論(Item Response Theory: IRT)**を用いて、クライマーの能力(実力)と課題の難易度を客観的に推定できないかと考え、実装してみた。
項目反応理論(IRT)とは
IRTは、テストの正誤データから「受験者の能力」と「問題の特性(難易度や識別力)」を同時に推定する統計モデルだ。 従来の素点による評価と異なり、以下のメリットがある。
- 難しい問題を解いた受験者を高く評価できる
- 受験者のレベルに合わせて問題の難易度を調整(等化)できる
これをクライミングに当てはめると、「どの課題を完登したか」というデータから、クライマーの真の実力と、課題の本当の辛さを算出できることになる。
実装のポイント
今回作成したリポジトリでは、2パラメータ・ロジスティックモデル(2PLモデル)を採用し、勾配降下法を用いてパラメータを推定している。
- 識別力(alpha): その課題がクライマーの実力をどれだけ正確に判別できるか
- 難易度(beta): 課題そのものの難しさ
- 能力(theta): クライマーの実力
EMアルゴリズムで、クライマーの能力推定と課題の特性推定を交互に繰り返し、収束させていく。
詳細・結果
こちらが詳細 わりと予想通りいった感。さすがアダム・オンドラ。
何が嬉しいのか
このモデルがうまく機能すれば、以下のようなことが可能になる。
- ジムを跨いだ実力の比較: 共通の課題をいくつか登っていれば、異なるジムに通うクライマー同士のレベルを同じ尺度で比較できる。
- コンペの公平性: コンペのリザルトから課題の難易度を逆算し、順位付けの妥当性を検証できる。
- 客観的なグレード付け: セッターの主観ではなく、実際の完登率と登った人のレベルに基づいた「統計的グレード」を付与できる。
最後に
実際には「トライ数」や「登れた時のコンディション」など変数は多いが、完登・未登というシンプルなバイナリデータだけでも、統計的に見えてくるものは多い。 現在はIFSCのワールドカップデータなどを用いて実験しているが、アプリ化してデータを集めたい。