その教育政策議論、ランダム化比較試験(RCT)をすればいいだけじゃん。というセリフを耳にする頻度が増えてきたように感じます。確かに、勘や経験に基づく議論に比べればマシなのは間違いないですし、単純な使用前・使用後の比較と違い厳密さも高いです。
しかし、最近あまりにもエビデンスのゴールドスタンダードとしてのRCTという言葉だけが独り歩きしたせいか、実際にRCTを教育セクターで運用することがどういう事か全くイメージできていない意見も目にするようになりました。
そこで今回は、教育セクターでRCTを用いた中でも有名で、理解しやすいランダム化を実施した、オンライン教育の効果を検証した下の論文を紹介することで、実際にRCTを運用するとはどういった事なのか説明しようと思います。
1. なぜRCTが必要なのか?
紹介する研究は、大学で行う授業が、オンライン(録画がメイン)のものに置き換えられても、生徒の成績に悪影響が出ないかを検証するのが主な目的です。
既に多くのアメリカの大学では、オンラインでの授業と普通の授業が並行して行われているのですが、この2群の成績を比較することで普通の授業がオンラインに置き換わるとどうなるかを検証することはほぼ不可能です。
なぜなら、この2群に指標に現れない明らかな違いが存在していて、単純に回帰分析をかけると結果にバイアスがかかってしまうからです(恐らく、オンラインの授業を取る学生よりも、普通の授業を取る学生の方が指標にしづらいやる気が高く、普通の授業の相対的な効果の高低にかかわらず、より高い成績を残しそうな感じがします)。
RCTを実施するのは、この結果にかかるバイアスを取り除いて、真の結果を把握するためだと言えます。裏を返すと、このようなバイアスが全く無いと考えられる場合は(まずありえませんが)、わざわざRCTを実施する必要性はほぼほぼ無いとも言えます。
2. 対象群をどうやって選ぶか?
この研究は、どこかの博士号が出せるアメリカの大きな大学の学部生向けのミクロ経済学の授業を対象にRCTが行われました。この授業の受講者は約1600人いて、授業が始まる前に全ての学生にメールでRCTに参加しないか呼びかけたそうです。
インセンティブとして、このRCTに参加する学生の成績をhalf of a letter grade(例えば、A-をAにするといった感じで、約5点分だとみなすことができます)上げることにしたそうです。この結果327名の学生がRCTに参加しても良いと名乗り出ました。
ここでまた一つ問題が発生します。このインセンティブに反応してRCTに参加することを表明した学生群(n=327)の特徴が、参加しないことにした学生群(n=1280)の特徴とあまりにも異なる場合、RCTが特定の結果を導き出したとしても、それが学生全体に当てはまるのかかなり微妙になります。言い換えると、ボランティアに参加することを決めた学生が持つ何らかの特徴がその特定の結果を導き出しただけに過ぎない場合、そのような何らかの特徴を持たない学生にオンライン教育をしても同様の結果が得られるかどうか分からないからです。そこでこの研究では、この両方の学生群について観測可能な指標を基に比較したのですが、特に系統だった違いがあるわけでもないし、違いの程度もそれほど大きくないので問題なしと結論付けました(論文中のTable1)。
因みに、この問題は些細なものに見えるかもしれませんが、かなり重要な意味を持ちます。例えば、研究者主導で日本でタブレットを使用した学習効果を測定するために、RCTを実施したとします。対象者に関して最初にやることは各教育委員会に参加を呼び掛けることになると思いますが、立候補した教育委員会(or地区)と呼びかけに応じなかった教育委員会で学力に影響を及ぼすような系統だった差が生じると私は考えます。例えば、何かイノベーティブな事や研究に乗ってくる地域は、住民のSESや教育意欲が高いことが考えられますし、翻っては教育委員会のキャパも高いのではないでしょうか。このような地区でタブレットを使用した学習の効果をRCTで測定して良い結果が得られたときに、果たしてそれはそれ以外の地区でもあてはまるでしょうか?言い換えると、住民のSESや教育意欲が低く、教育システムのキャパも低い所で、同様にタブレットを使いこなして子供の学習を促進できるのか?、ということになります。
この具体例で分かると思いますが、紹介している研究が実施した両群の学生の比較はとても重要なものになります。これをもう少しフォーマルかつ数式で理解したのがRubinの因果モデルになるのですが、これの解説はかなり字数を喰う上、やや内容も難しくなるので、興味がある人はルービンの因果モデルでググってみてください。
3. 対象者に偏りはないか?(Ex-anteの話)
RCTに参加を表明した学生群と、表明しなかった学生群の比較が終わったら、次はいよいよランダム化です。乱数を使ったりくじを使ったりして、ランダムに参加を表明した学生群をオンライン学習グループと普通の授業グループに分けていきます。確率割り当てなど色んなテクニックもあるのですが、詳細過ぎる話になるのでここでは割愛します。
ではいざプロジェクトの実施と行きたい所なのですが、その前にもう一つチェックしなければならないことがあります。それはオンライン学習グループと普通の授業グループの間に系統だった大きな違いが無いかのチェックです。
1章のなぜRCTか?の所で、RCTを実施する理由として、対象群と非対象群の間に指標に表れない違いの存在が結果にバイアスをかけるのを防ぐためと説明しました。しかし、ランダムに対象群と非対象群を分けたとしても、対象群と非対象群の間に差が出てしまうこともあります。なので、それが起こっていないかチェックする必要があります。
紹介した研究はTable2でこれを確認しています。2群の間に差が無いか、指標ごとにt-testをかけたり、2群間でカイ二乗検定をかけても悪くはないのですが、RCTで推計するモデルをY=a0+a1x1+a2X2+eとし、x1で対象群・非対象群をダミー変数で取って、X2をコントロールの変数とした時に、X2をYにして、x1で回帰分析をかけて、統計的に有意な影響をx1が持たないかチェックするのが一般的です。
Table2の左側を見ると、いくつかの指標で統計的に有意な差が存在していますが、その程度があまり大きくない事、第一種過誤の可能性を考慮すると(指標全体で統計的検定をかけた場合、指標が20個あれば、本来全て統計的に有意な差が無かったとしても、一つぐらいでは誤って統計的に有意な差があると検知してしまいます)、まあうまくバランスが取れているのではないかと結論付けています。
4. プロジェクトの実施1ー脱落バイアス(Ex-postの話)
さて、いよいよプロジェクトの実施です。ここで素直に結果がイイ感じに出てくれれば良いのですが、様々な困難が研究者を待ち受けています。第一の困難は脱落バイアス(attrition bias)です。全ての人がプロジェクト終了まで付き合ってくれれば良いのですが、引っ越しや死亡(先進国では稀ですが、国際教育協力ではよくある)などによって、途中でデータベースから人が消えることがあります。
これが対象群・非対象群でランダムに起こっていれば問題はないのですが、どちらかだけで系統だって発生している場合、結果がある施策を実施したことではなく、この脱落によって生じることがあります。
例えば、今回のような普通の授業とオンラインの授業を比較した場合、オンラインの授業からの脱落は比較的ランダムに起こりそうですが、普通の授業の場合、成績の低い生徒が授業中に先生に指名されてドギマギしてしまってもうこの授業を取るのを止めようと考える学生が出てきても不思議はありません。この場合、オンラインの授業と比較して、普通の授業からの脱落者は成績の低い生徒に集中することになります。この場合、普通の授業の方が成績が良かったという結果が出てきても、それが普通の授業の効果に拠るものなのか、成績の悪い生徒が最後まで残らなくて優秀な生徒の成績だけが最終的にカウントされた結果なのか、良く分からなくなってしまいます。
このようなことがあるので、脱落者をチェックする必要があります。対象群・非対象群で同じ理由で脱落が発生しているのであればこの問題の影響はありませんし、仮に理由が違っていても、それが成績に影響を与えるようなものでなければ、それもOKです。紹介した研究では普通の授業から15名の脱落者が出たので、Table2の右側でこれを検証しています。ここでも筆者はランダムに脱落が発生していると考えられるし、両群にも大きな差はないので大丈夫ではないかと結論付けています。
3章はプロジェクトを実施する「前」に偏りが無いか、この章はプロジェクト実施中に脱落が発生した「後」に偏りが無いか見ているので、それぞれEx-ante・Ex-postで偏りが無いという言い方をします。
5. プロジェクトの実施2ープロジェクトは適切に運用されたか?Contamination Effectの問題
実は教育でのRCTの実施は思った以上に失敗に終わるケースがあります。具体例で考えていきましょう。
例えば、日本の岐阜県で教員研修の効果を検証するために、県内の教員をランダムに研修を受ける群・受けない群に分けたとします。1年後の学力テストで研修を受けた群の教員の生徒の成績が、そうでない群の生徒の成績よりも高いか検証したら、多分、効果はないという結果が間違って出てくるはずです。
日本の教員たちの多くは協同性があり、授業研究やインフォーマルな研究グループなどを通じて常日頃から情報交換をしています。検証しようとしている教員研修が効果的であればあるほど、研修を受けた教員が研修を受けていない教員に、研修で習得したことを伝えてしまうので、両群を比較した時に差が無くなってしまう可能性が高いです。こんな感じで、効果がある研修でもRCTで検証すると効果が無かったと誤った結論を導いてしまうことがあります。
このように、本来対象群しかアクセスできないはずのものに、非対象群もアクセスできてしまい、結果がおかしくなってしまうことをcontamination bias(effect)と呼びます。日本の教育セクターの特徴を考えると、このcontamination effectがかなり発生しやすそうなので、外から見ているとかなりRCTを実施するのは難しいだろうなという印象を持っています。
ちなみに、これを逆に利用して波及効果(spillover effect)を計測することも出来ます。例えば、ケニアで行われた条件付き現金給付のプロジェクトでは、まず学校レベルでランダム化をした後に、その中で生徒をランダム化しました。つまり、①対象群学校の対象生徒、②対象群学校の非対称生徒、③非対象群学校の生徒、の3種類の生徒が存在することになります。本来、②のグループの生徒はプロジェクトの効果を受けないはずですが、②と③の生徒を比較した時に、②>③という結果が統計的に有意に出てきた場合、②の生徒に対してプロジェクトは波及効果を持っていたと考えることができます。
紹介した研究でも、このcontamination effectはかなり難しい所で、776Pから始まるこれに関する記述を見ても、かなり厳しいやり取りが研究者と査読者の間で行われたことが読み取れます。具体的には、普通の授業を受けたグループがオンライン学習のリソースにアクセスしていたのではないか(友達に見せてもらうことを防止するのはほぼ不可能ですよね)、オンライン学習のグループが授業に潜り込んでいたのではないか?(これは上手くやれば防げるかもしれません)・普通の授業を受けたグループの友達からノートを見せてもらっているのではないか(これは防げないですよね)?、といったcontaminationの懸念が持ち上がります。
紹介した研究ではP779で、普通の授業を受けた生徒の方が、オンライン学習の生徒の成績よりも良かったという結果は、普通の授業の生徒がオンライン学習の生徒から何らかの影響を受けた、つまり普通の授業の生徒がオンライン+普通の授業を受けられたからだということを示す証拠はないと結論付けていますが、正直かなり厳しいdefenceになっています。私はこの研究がどれだけcontamination biasから逃れられているのかは、怪しい所があるなと考えています。
6. プロジェクト結果の妥当性ーExternal Validityの話
RCTの結果が、他の文脈にも当てはまるか疑問が生じるのは、「幼児教育無償化から考えるーアメリカの研究結果は日本にとって妥当なのか?」という記事でも紹介しました。
今回の研究も様々な点で解釈に注意が必要です。まず、この研究が実施されたのは博士号を出せる大規模な大学となっています。恐らくR1の大学でしょう(R1、R2、R3とそれ以外の大学については、List of Research Universitiesでググると詳細が出てきます)。R1の学生とResearch Universityではない大学の学生では明確に様々な点で違いがあります。R1の学生と比べると、オンラインで授業をさせると最後まで完走できない学生が多そうですし、逆にR1のようには普通の授業が成り立たない可能性もあります。このように、R1の大学で行った教育分野のRCTの結果が大学全体に広く当てはまるとは限りません。
また、当然ですが、大学レベルで実施した施策がそれ以下の教育段階、即ち小学校や中学校には当てはまらない可能性が高いです。
さらに、RCTで検証されたのが学部レベルのミクロ経済学の授業である点も重要です。多分、この研究の結果はR1の大学のミクロ経済学の授業については当てはまると思います。しかし、それ以外の授業についてはどうでしょうか?例えば、私は今学期なぜか社会学部の9番台で始まる博士課程の学生を対象にした質的調査法の授業を受講させられていますが、受講してみてミクロ経済学の授業と全く性質が異なるという感想を持ちました。ミクロ経済学程には系統だっていないですし、徒弟制度のように事細かにフィードバックを受ける必要があるので、もし仮にこの授業をオンラインで私が受講したら余裕でCを取る自信があります(ちなみにですが、質的調査は専門から外れますし、そもそも英語がかなり苦手なので、現状Bで御の字だと考えています…)。このように、この研究結果がミクロ経済学以外の授業でどれだけ妥当性を持つのかは大きな疑問が生じます。このペーパーでも第三章でこの点が詳細に議論されているので参照してみてください。
7. 結果の解釈
さて、上記の6つの点をクリアしてようやく結果の解釈に移れます。紹介した研究ではTable3がこれに該当します。普通の授業群とオンライン学習群を比較すると、普通の授業を受けた学生の方が、オンラインの授業を受けた学生の方が統計的に有意に平均点が高くなっています。この結果を見て、オンライン学習はやはりダメなんだ!、と考える人が多いと思います。しかし、Table3の内容をよく見てみましょう。確かに星が二つ付いていて5%水準で統計的に有意な差が生じていますが、値は2.5点となっています。
ここで2章を思い出してみましょう。このRCTへの参加を促すために、生徒にインセンティブとして5点加点しています。普通の授業とオンライン学習の差は約2.5点と、インセンティブの半分程度に過ぎません。Statistically SignificantでもPractically Significantとは言えないんじゃないかなと私は感じます。サンプルサイズをデカくすればStatistical significanceは得やすくなるので、統計的に有意だからと言って大騒ぎする前に、その差のサイズをチェックするのは必要なプロセスです。
実際に、教育関係の施策で標準偏差0.2分の向上が起こると結構効果が大きいなと感じますが、スケールを変えると、何か教育関係の施策をして偏差値で2程度学力が改善すると、教育政策の研究としては効果が大きいなということです。多分ですが、このブログの読者の大半は、何か教育施策をしてもその程度しか学力が改善しないの?、そしてそのためにこんなにも大変なRCTを実施するの?、と疑問に思ったのではないでしょうか。あまりこの点が意識されることは少ないのですが、エビデンスに基づく教育といった場合、そのエビデンスを生み出すための労力やリソースが、本当にそれに見合っているのか、というのはもう少しよく考えられても良いのかもしれないですね。
最後に費用対効果・費用便益分析についてです。この点も見過ごされることが多いのですが、よくチェックする必要があります。例えば、生徒全員にタブレットを配る、学級規模を半分にする少人数学級を導入する、というそれぞれの施策がどちらも標準偏差0.2分だけ学力が向上したとします。どちらもきっとSNS上で、「学力向上に少人数学級が効く!」とか「学力向上にタブレットが良い!」とバズッたり、ひょっとすると新聞で取り上げられたりするかもしれません。
しかし、コスト面で大きな違いがある事は往々にして見過ごされます。タブレットの価格は数万円ぐらいでしょうから、30人学級で配備したとしてもコストは100万円程度で納まるでしょう。その一方で、学級規模を半減させて少人数学級を実現するということは、端的に言うと教員を一人新たに雇うということになります。教員給与に福利厚生、退職金や年金を考えれば、教員を一人新たに雇用するコストは1000万程度にはなることが予想され、文字通りタブレットの配布とはケタが違うコストがかかります。特に、教育セクターは予算の7割から8割近くを人件費が占める労働集約的なセクターなので、少人数学級のために教員の人数をX倍させるということは、教育予算をX倍させるということと近い意味を持ちます。しかし、この手の教育施策がバズって世間の耳目を集め教育政策に影響力を持つとき、この辺りの話は見過ごされるので、教育政策が望ましい姿から歪んでいくことになります。
紹介した研究でも、普通の授業とオンライン授業のコストについて結論の所で議論しています。オンラインの授業と言っても、システムを維持するためにIT系の人を雇う必要がありますし、採点のためのTAを雇う必要もありますし、なんだかんだでコストは結構かかります。具体的には、生徒1000人当たりで135,000ドルかかると見積もっています。これに対し、普通の授業では教員が1.5人いれば200人のクラスを5つ教えられるし、Instructor一人当たりの給与は65,000ドル程度に過ぎないと見積もっています。そして、この二つを比較して、オンライン授業が普通の授業よりも効率的であるためには、オンライン授業でのTAなどのサポートを減らす必要があるし、教員の給与が高いか教員の授業負担が少ない大学でしか効率的でない、と結論付けています。
ここで注意深い人なら気が付くかもしれませんが、普通の授業でもTAは使いますし、その他のコストも発生してくるにも拘らず、それを普通の授業のコストでは勘案せずに、オンラインでの授業については勘案して、両者を比較しているので、フェアなものになっていません。この点について、章を改めてもう少しお話しようと思います。
8. RCTによる教育政策評価は本当に科学的なのか?
今回紹介したペーパーを読むと、何か所かで研究者の主観的評価が入り込んでいるのが読み取れると思います。第一は対象者の偏りです。確かに対象群と非対象群で系統だった違いは無いし、違いも大きくないと主張していますが、これを客観的に証明するほどの強い記述は認められません。第二に、Contamination Effectです。この論文のこの部分の記述は、contaminationによって左右されていないと主張するには弱過ぎる感じがします。特に、普通の授業の効果は僅か2.5点とかなり小さなものですから、僅かなcontaminationが効果の全てを説明していたとしても不思議はありません。第三に効果量の小ささです。RCTに参加することに対して与えたインセンティブの大きさと比べると、効果量の小ささが際立ちます。しかし、この点を重視することなくオンライン授業は普通の授業と比較して劣っているという論を展開しています。第四に費用対効果です。オンライン授業の費用と普通の授業の費用の見積もりが比較検討が可能と言えるレベルのものにすらなっていません。
オンラインでの授業が主流になると、大学教員のポストが削減されるはずなので、その辺りの主観が入り込んでいるのではないかなと見受けられます。これほど直接研究者と利害関係がある教育施策でなくても、研究者がこの施策が良いという思い込みがあった場合、上で指摘したような箇所で研究者の主観的な判断が入ってくることは十分にあり得る話です。RCTが完璧な科学的な評価手法かと言われると、確かに他の手法よりはそうである可能性が高いものの、完璧とは言えない可能性がそれなりにあり得ることが分かるかと思います。
9. 最後に
ここまでの議論で、特に日本の教育セクターでRCTを使ってエビデンスを生み出そうとすると、意外と難しいことを理解して頂けたかと思います。さらに話がややわき道にそれた感もありますが、エビデンスに基づく教育政策というと劇的に子供の学力が向上するような印象を持つかもしれませんが、教育政策の効果量を考えるとほぼそんなことはあり得ないことにも言及しました。また、RCTが完全に科学的かというとそうでもなく、一般的に思われているよりは研究者の主観が入る余地があることも重要な点です。
それでもRCTなどを用いてエビデンスを蓄積していくことは重要かと問われると、RCT以外の因果推論の方法などのより費用対効果の高い「費用対効果の測定方法」を常に模索していく必要はあると考えますが、私はYesと答えます。イチロー選手も「小さいことを積み重ねることが、とんでもないところへ行くただ一つの道」という言葉を残されていますが、教育政策も同じで、何か必殺技を繰り出して学習成果を劇的に改善させるなんてことを夢見ず、小さくても効果があるとされることを積み重ねていくことが、素晴らしい教育へと辿り着くただ一つの道だと私も考えるからです。あと、教育政策はイデオロギー闘争の場に堕落しやすいので、エビデンスを固めてトンデモが入ってくるのを未然に防いでおくというのも重要かなと思います。
最後にですが、論文にしても良いという条件で、RCTなどを用いた教育施策のインパクト評価のご相談に乗りますので、お気軽にご連絡ください。
---------------------------------------------------------------------------------------------
サルタックは無料メルマガを開始しました。
・本ブログ記事の更新情報
・編集後記
・日本でのイベント情報
・インターンやボランティアの募集告知
などをお送りいたします。
下記のリンクにあるようなメルマガを配信しています。
ご興味がある方は下記のリンクよりご連絡ください。
またサルタックでは常時会員と寄付を受け付けています。
サルタックと共に多くの子どもたちに有意義な教育を届けるパートナーになりませんか。
ご関心がある方は下記のリンクより会員・寄付のオプションについての詳しい説明にお進みください。
---------------------------------------------------------------------------------------------