こんにちは。ドワンゴの教育事業でデータサイエンティストをしている板宮です。
この記事では私がドワンゴのデータサイエンティストとして2025年夏に参加した2つの国内学会において、発表した内容を紹介します。 普段、企業でデータ分析業務や開発に従事している人からすると、学会とは近くて遠い存在だと思います。データサイエンスの理論や技術は学会(や、論文)で発表されて世に知られることとなりますが、必ずしも事業価値に直結するものでもありません。 一方で、実務の観点から浮かび上がる研究課題というものもあり、企業の実務家という観点でも学界に貢献できることは数多くあります。
特にドワンゴの教育事業で開発しているZEN Studyでは統計学と心理学のハイブリッドなモデルを活用しており、その実装時にも最先端の学術知見などが役立っています。
参加学会
私は教育事業に関わるデータサイエンティストとして、2つの学会に参加しました。
- 日本行動計量学会(BMS)
- 日本心理学会(JPA)
どちらの学会も数理統計に関わる研究者も参加する学会ですが、BMSは産業やマーケティング業界からも多数の参加者がおり、数理統計の理論と実務の両方の観点から議論が行われます。JPAは日本で最大の心理学系学会ですので、教育系に限らず、実験・認知・臨床などの様々な分野の研究者が参加します。 どちらかと言えばJPAの方が大学等の学術機関からの参加者が多い印象があります。
学会発表のスタイル
学会発表には大きく3種類の方式があります。
- 口頭発表
- 1〜2時間で区切られたセッションの中で、複数の研究者が発表スライドを元に発表する。一人あたりの持ち時間はおよそ20分程度で後半の5分程度は質疑応答に充てられることが多い。ひとつのセッションの中では原則として類似したテーマの発表者が固まるが、(応募数やテーマの関係で)必ずしもそうならないこともある。
- ポスター発表
- 口頭発表と同様に1時間程度で区切られたセッションの中で、B0サイズ程度の大型のポスターを掲示し、その付近で発表者と参加者(聴衆)が自由に議論する。必ずしもポスター前に張り付いている必要もなければ、聴衆も流動的に動く。質問をせずに立ち去る人も多い。
- シンポジウム
- 特定のテーマについて複数の研究者が議論し、参加者がそれを聴くスタイル。指定討論者と呼ばれるディスカッションを活発にする役割の人が割り当てられたり、会場からの公開質問などを受け付けることもある。公募と運営側の企画の二種類がある。
私が発表したのはポスター発表です。ポスターだと時間制限が緩いため参加者との議論に集中できます。今回は共通したテーマについて、異なる切り口からのポスター発表をしました。
発表内容
共通するテーマは「多肢選択式問題の誤答選択肢を踏まえた分析」です。
多肢選択式問題とは、いわゆる3択、4択問題といったもっともポピュラーな問題形式です。リード文や問題文と呼ばれる文章を読み、そこに当てはまる選択肢を(通常であればひとつ)選ぶ形式の問題です。この問題形式は正解が明確で、採点が容易、かつ学習者にとってもなじみが深い形式であるため、教育テストの場面ではもっとも多く用いられています。
G-P分析
ところで、皆さんは良い問題と悪い問題をどう見分ければ良いと思いますか。作問者や教科の専門家が問題文や選択肢を目で見て判断する方法も良いと思いますが、客観的に判断する指標として項目分析と呼ばれる手法があります。項目分析とは受験者の項目(問題)への回答データから難しさや選択肢の適当さを統計的に評価する手法です。代表的な項目分析のひとつがG-P分析と呼ばれる、選択肢ごとの選択率を学力層別に表にまとめ、可視化する方法です。
下に、SAT12という科学の学力テストの回答データから算出したある項目のG-P分析の例を示します。棒グラフは受験者をおおよそ四等分した時の人数割合を表しています。横軸の位置は群平均得点です。折れ線が各群の選択肢ごとの選択率を表しています。特に、正答選択肢に関しての選択率の折れ線が右上がりになっていると、一般的には品質の良い問題だと判断されます。
この問題は正答選択肢が5番目のはずなのですが、データからみると3番目の選択肢が正答選択肢のような挙動をしているように見えます。5番目もわずかに右上がりになっていますが、品質としては微妙な印象です。

G-P分析はよく用いられる手法ですが、いくつかの課題があります。
まず、学力層の分割点や数が恣意的であり、決めにくいという点です。上の図では正答数得点によって人数がおおよそ等しくなるように4つの群に分割していますが、得点の分布によっても適切な分割は変わります。また、分割数は3~5程度がよく用いられますが、サンプルサイズや分布によって経験的に調節しなければならず、客観的に決めにくいです。
次に、データ数が少ないケース(小標本)で選択率の推定値が不安定になり、グラフから項目の品質を判断しにくくなってしまう点です。データ数が少ないと、各群の人数も必然的に小さくなり、結果として選択率の推定値が不安定になります。経験的に300人を下回ってくると、非常に読み取りにくいグラフになる傾向があります。
最後に、多肢選択式における重要な要素である「当てずっぽうの回答行動」の影響を考慮できていない点です。受験者は何かしらの選択肢を選ぶはずなので、正解が分からない場合でもランダムに回答する可能性があります。そうした当てずっぽうの影響はG-P分析図では考慮されていません。
多肢選択信号検出理論モデル
本研究で用いるモデルは、これらの課題を解決するために信号検出理論の枠組みを拡張した確率モデルです。これを多肢選択信号検出理論モデルと呼びます。 信号検出理論とは、不確実な状況下で人がどのように意思決定を行うかを説明する理論です。このモデルではその理論を応用し、教育テストの多肢選択問題において、受験者が複数の選択肢の中から正答を選ぶ過程を数理的に表現します。 多肢選択信号検出理論モデルでは、受験者が選んだ選択肢に関する回答データから自動的に正答率の高い受験者とそうでない受験者を分類し、その分類情報に基づいて選択肢の選択傾向を数値化します。 さらに、多肢選択信号検出理論モデルはベイズ推定により小標本への適用も現実的になります。
下図はG-P分析図と同じデータ・同じ項目を多肢選択信号検出理論モデル分析した結果です。多肢選択信号検出理論モデルでは各選択肢の「正答らしさ(plausibility)」の分布を推定できるので、それを描画しています。推定された当てずっぽう解答による正答確率は0.14でした。この項目は選択肢が5つであり、完全にランダム回答だった場合の正答確率は0.2のはずですので、そこまでランダムな回答の影響は大きくないようです。

多肢選択信号検出理論モデルでは正答率の高い受験者層(仮に、K(Know)群とします。)と正答率が低い受験者層(こちらをDK(Don't Know)群とします。)を自動的に分類し、両群において正答選択肢についてのみ「正答らしさ」の分布が異なると仮定しています。通常の試験問題に対しては、K群は正答選択肢を見抜ける確率が高く、DK群は正答選択肢以外の選択肢を選ぶ確率が相対的に高くなるような結果が得られます。先ほどの当てずっぽうでの正答確率とは、実はこのDK群が正答選択肢を選べる確率、つまり「本当は答えを知らない人が他の選択肢と見比べたときに正答選択肢を選べてしまう確率」に対応しています。
このグラフではDK群に関しての正答選択肢の分布が紫色の実線(Choice 5)で、K群に関しての正答選択肢の分布は黒の破線で示されています。それ以外の色つきの実線はすべて誤答選択肢の分布であり、K群とDK群で共通しています。
実はこの「Item32」というのは様々な分析結果から品質が悪い項目であると指摘されており、特に、正答選択肢のキーが不適切だった可能性が高いことが分かっています。G-P分析図と同様に、多肢選択信号検出理論モデルでも黒い破線よりも緑の実線(Choice 3)の方が「正答らしさ」が高いと推定されています。
また、G-P分析図では正答選択肢の選択率の直線の傾きを識別力(そのテストにおいてある問題が能力の高い人と低い人をどれくらい見分けることができるかの程度)の強さの指標と見なすことができますが、多肢選択信号検出理論モデルではK群とDK群の正答選択肢の分布のズレが識別力の強さを表しています。上の図では、K群とDK群の分布あまり大きく離れておらず、識別力が低いことが分かります。
加えて、誤答選択肢の選ばれやすさも分かります。この場合、Choice 4がもっとも「正答らしさ」が低く、惑わしとして機能していない可能性があります。
このように、多肢選択信号検出理論モデルでは選択肢に関する分析や識別力といったG-P分析図と同様の項目の品質に関する分析が可能であり、さらに、当てずっぽう解答の影響や誤答選択肢の質の評価なども可能となっています。この例に加えて、ベイズ推定により作問者や専門家による事前の知識を反映させることで、理論的には小標本でも信頼できる推定結果を得ることが可能です。
今回は、上記手法に関して理論面と応用面で次のような研究発表を行いました。
- (理論面)ベイズ推定が実行しやすいように再定式化を行い、推定方法の具体的なアルゴリズムを提案ました。
- (応用面)実際にZEN Study上での英語の課外試験データを活用して、G-P分析などの古典的な手法との類似点・相違点を調べました。
反響
理論面からの研究内容を発表したBMSでは、計算機統計やベイズ推定法に興味関心のある研究者から多くのコメントをもらいました。特に、提案したアルゴリズムに関して一部パフォーマンスが微妙な点があったのですが、そこについても改善に資するコメントをもらうことができました。
応用面の研究として実データ解析の結果を提示したJPAでは、企業などでテスト研究に携わっている方から高い関心があった印象です。既存手法との相違点やメリットをもっと明確にしていくことで、研究の価値をさらに’高めていけると考えています。
聴講してきた内容
両学会とも非常に多くのセッションがありました。特に、私個人の観点からは以下のような発表が興味深く、今後ドワンゴでも注目していきたい観点だと感じています。
- 近年、教育現場での応用事例が増えつつある、診断分類モデル(Diagnostic Classification Model, DCM)の適用事例
- グラフ理論や因果推論を応用したテストデータの依存関係の可視化
どちらのテーマも、従来の項目分析では捉えきれなかった要素を捉えることができるため、今後の教育テストの分析において重要な役割を果たすと考えられます。
発表を終えて
どちらの学会でも多くの大学・企業の研究者の方と議論でき、非常に有意義な時間を過ごせました。今後は、今回の発表内容をより発展させて、実務への応用を進めていきたいと考えています。
We are hiring!
株式会社ドワンゴの教育事業では、一緒に未来の当たり前の教育をつくるメンバーを募集しています。 カジュアル面談も行っています。 もし、ここで紹介した取り組みに興味を持たれた方がいらっしゃいましたら、お気軽にご連絡ください!
カジュアル面談応募フォームはこちら。
開発チームの取り組み、教育事業の今後については、他の記事や採用資料をご覧ください。
