エビデンスに基づく政策のためのランダム化(RCT)のような実験は、言うほどには教育セクターで必要ないかもしれない話

早くも雪の降り始めたミシガンからこんにちは、畠山です。私の前回の記事で、ランダム化比較試験(RCT)を教育セクターで実施することが意外に難しいし、コストをかけてわざわざRCTのような実験をしても明らかにできる事は意外に小さいというお話をしました。

RCTのような政策実験はエビデンスの黄金律なので、教育政策・教育経済学者の中には、これを実施することを大いに推奨している人も多く見受けられます。そして教育政策関係者の中には、これを額面通りに真に受けて、エビデンスに基づいた教育政策は重要だからRCTのような実験をどんどん実施しよう、と考えてしまう人も見受けられます。何を隠そう、私が前職で勤めていたユニセフの教育専門官の多くがこれに該当するのですが…。

しかし、こと教育セクターに限って言えば、言われるほどにはわざわざ大金をはたいてRCTのような実験を実施する必要はないという訳ではありませんが、少なくとも国際教育協力の世界では明らかにRCTの必要性が過剰に訴えられている感じがします。

なぜRCTのような実験が教育セクターにおいて言われるほどには必要ないのかというと、意外と自然に、疑似的なランダム化状況が発生するので、その際にはわざわざ実験をする必要がないからです。

ここで回帰不連続デザイン(RDD)の話かと思った人はその通りなのでどうぞお帰り下さい苦笑。実験をしなくても疑似的なランダム化が発生するとはどういうこと?、という方には以下で話をしていこうと思います。計量経済学や因果推論は学んでいないけどユニセフやINGOで働きたいという人は、子供達のための貴重な資金を悪い人に騙されずに賢く使うために、よく読んでいってください苦笑。

1.意外と発生する疑似的なランダム化状況
2.教育政策において疑似的なランダム化状況が発生する場面
3.意外と難しい回帰不連続デザイン
4.疑似的なランダム割り振りは結果の解釈が少し難しい件
5.実験でランダムに割り振るか、疑似的にランダムに割り振るか?

1.意外と発生する疑似的なランダム化状況

疑似的なランダム化状況とはどういうものかを説明するために例を出そうと思います。例えば、東京大学の教育効果がどれぐらいあるのか理解したいとします。前回も言及しましたが、これを観測データで東京大学の卒業者とそれ以外の人の賃金の差をもって計測すると、正確な教育効果を測定することは出来ません(教育の成果は賃金だけでは表せないというのはその通りですが、これを考慮すると話が複雑になり過ぎるので、今回は疑似的なランダム化状況を説明するために、教育の成果は賃金に現れるものと仮定します)。なぜなら、数値に現れない系統だった違いが東京大学の卒業生と、それ以外の人の間に存在することが考えられ、これが賃金の差に影響を与えてしまうからです。例えば、東京大学の学生の保護者の平均年収は日本の大学の中で最も高いのですが、別の角度から見ると強力なコネを持っているとも考えられます。東京大学の卒業生の賃金が高いのは、ひょっとすると東京大学の教育効果ではなく、親のコネ(数値化できない・ないしはしづらい)をただ単に引き継いだ効果かも知れません。

こういった指標化しづらい要因の影響を取り除くために行われるのがランダム化実験だというのは前回の記事で説明しました。東京大学の一学年当たりの学生数は3000人と充分な数がいますから、全国の高校三年生からランダムに3000人を選んで東京大学で学ばせれば、東京大学の学生とその他の間には指標化できない系統だった違いは存在しなくなるので、両グループの間の賃金差を見れば、東京大学の教育効果を測定できます(真面目にこれをやると脱落バイアスの影響で上手くいかないような感じもしますが…)

しかし、恐らくこのような実験を実施することは各所からの圧力で出来ないでしょう。では東京大学の教育効果を測定することは出来ないのでしょうか?実は、データをキチンと取れればこのような実験をしなくても、東京大学の教育効果をある程度は測定することが出来ます。ここで、東京大学の入学試験を思い浮かべてください。入学試験の結果を見ると合格最低点が記載されているケースがしばしばあります。合格者全体と不合格者全体を比較すると確かに両者の間には系統だった指標化できない違いが存在しそうですが、合格ラインのすぐ上側とすぐ下側のグループの間を見ると、両者を分けたのは本当に僅かな運の差で、集団として差があるとは考えづらいのではないでしょうか。それこそ合格ラインの僅かに上側になるか下側になるか、つまり東京大学の教育を受けられるのかは、この両群の間ではランダムに発生している、と考えてもほぼ差し障りが無いはずです。これが件の疑似的なランダム化状況です(私も学生時代に友人達と一緒に成績開示をしてみたら、合格最低点から小数点の差でしか離れておらず、二次試験で一問でも落とすどころか、センター試験で3点問題をあと一問落としていたら不合格という結果だったので、このランダムさは強く実感する所があります、友人達は大爆笑していましたが)。

2.教育政策において疑似的なランダム化状況が発生する場面

教育政策にはこの合格最低点のような閾値の僅か上か下かで、ある教育施策を受けられるのか受けられないのかが疑似的にランダムに決まってしまう場面というものが比較的良く見受けられます。ここではいくつか事例を紹介しようと思います。

米国は、ある施策を実施する時にターゲティングを厳しく絞る国なのでテストの結果によって閾値が設定されて、ある教育政策が受けられるか受けられないかが決まるものがよく見受けられます。具体的な例として、閾値を下回った時に受けれるものとしては夏休みの特別補習、特別学級、英語を母語としない子供たちのための英語学習クラス、などが挙げられます。閾値を上回った時に受けられるものとしてGifted教育やエリート学校での教育などが挙げられます。特にボストンやNYにはテストで良い点を取らないと入れない高校がいくつもあったりします。先の東京大学の事例のように、このエリート学校の入学試験でギリギリ合格した人達とギリギリ不合格になった人達の間で発生した、疑似的にランダムにエリート学校の教育を受けられる人が決まるという状況を利用して、エリート学校の教育効果を検証したのが、Abdulkadiroğlu, Angrist, & PathakのThe elite illusion: Achievement effects at Boston and New York exam schoolsという論文です。この論文ではエリート学校へ出願して合格した人達、不合格になった人達のデータを継続的に取得しました。この疑似的に発生するランダム化を活かした研究がどのようなものであるのか理解するために、結果を紹介します。

f:id:sarthakshiksha:20181116172224j:plain

まず、本当に閾値の所で入学するかしないかが綺麗に分かれているかを確認する必要があります。きっちりと〇か×かに分かれている必要はありませんが(合格しても入学を辞退する人もいるでしょうし、なぜか合格していないのに入学してしまうケースもないわけではないですが、内容的にやや難しくなるので詳細は省略しますが、Fuzzy RDDという手法を使うことで問題を回避することができます)、後述しますが、ここで奇妙な動きが見られる場合は、疑似的にランダムに割り振られていない可能性が疑われます。上の図は入学試験での点数と入学確率の関係を示しています。合格最低点よりも下の学生はほぼほぼ入学しておらず、奇妙な動きはないと言っても良いでしょう。

f:id:sarthakshiksha:20181116172312j:plain

上の図は、入学した学校の同級生の学力を示しています。ここでも合格最低点を綺麗な切断点として、エリート学校への合格最低点以上の得点を記録した学生の同級生は、合格最低点を下回った学生の同級生よりも、高い学力を有していることが示されています。

f:id:sarthakshiksha:20181116172411j:plain

上の図はさきほどの図とほぼ同じことを、黒人とヒスパニックの同級生の割合で示しています。この二つの図を併せれば、合格最低点という閾値のすぐ右とすぐ左で全く違う学習環境、つまりエリート学校での学習がこの閾値のすぐ右側と左側の学生の間で疑似的にランダムに割り振られたと考えることが出来ます。

f:id:sarthakshiksha:20181116172432j:plain

そして、上の図は入学してから1年後の学力を示しています。閾値のすぐ右側、すなわち疑似的にランダムにエリート学校での教育を受けられた学生の学力は…低くなっています苦笑。論文のタイトルにElite Illusionという単語がある事からも分かるように、この論文は疑似的にランダムにエリート学校での教育が割り振られた環境を利用してエリート学校の教育効果を測定したところ、エリート学校は学力向上には対して意味が無いことを発見したのです。アメリカでは東・西の海岸で多様化が叫ばれる割に、実際に自分の居住区や子供の学校に有色人種が入ってくると逃げ出す白人が大勢いるのですが、こういったエリート学校や大学でのHonors Collegeなんかは合法的に白人が有色人種と交わることから避けるためのシステム、という一側面もあると言われています。この研究はボストンやNYでのエリート学校はそれである可能性が高いことを示唆しています。

学力テスト以外にもこのような疑似的なランダム化が発生する教育政策はいくつもありますが、最も有名なのは、少人数学級政策だと思います。単純に観測データで一学級辺りの生徒数と学力の関係を眺めると、一学級辺りの生徒数が少ない所は裕福な親が意図的にそのような学校を選び取っていたり、優秀な教員がより良い労働環境を求めてその交渉力を活かしてそのような学校で教えていたりするので、少人数学級の子供の成績が良かったとしても、それが本当に少人数学級の効果に拠るものなのか、それともそういった要因によるものなのか、識別しきることが難しくなります。

しかし、国や地域によっては一学級辺りの生徒の上限人数が法律で決まっていて、それを偶然超える場面が発生すると2学級に分けなければならない場面が出てきます。例えば、一学級辺りの上限人数が30人であるにもかかわらず、入学希望者が31人いた場合、この学校は15人と16人の2クラスに分けなければならなくなります。この入学希望者が30人になって大規模クラスになるか、それとも31人になって小規模クラスになるかは、ほぼほぼ偶然発生するもので、この両グループを比較すると少人数学級が疑似的にランダムに割り振られたという状況が発生します。このメカニズムを活用して、イスラエルで少人数学級の効果を分析したのが、Angrist and LevyのUsing Maimonides' rule to estimate the effect of class size on scholastic achievementという論文です。

他にも多くのアカウンタビリティが絡む教育政策でこの手の疑似的なランダム化が出現するのですが、ちょっと記事が長くなってきたので、この辺りで話を止めようと思います。

3.意外と難しい回帰不連続デザイン

前回の記事で教育分野でのRCTの実施は意外と難しいことを解説しましたが、この疑似的にランダムに割り振る回帰不連続デザインも教育分野では特有の難しさを孕んでいます(統計的に回帰不連続デザインが成り立つための条件も存在するのですが、字数が長くなりすぎているのでそこは省略します)。

教育分野特有の難しさとは、この閾値を超えるために何かしらの手段を講じる人達の存在です。ここで再び話を東京大学の入学試験に戻してみましょう。一般的な模試で出てくる合格判定は、模試の内容と、大学ごとに存在する出題傾向にズレがあるので思ったほどには模試での合格判定が当てにならなかったりします。しかし、東京大学に限って言うと、今もあるのか分かりませんが、私が高校3年生の時には東京大学の入試問題とよく似た問題を出題する東大模試が存在していました(私の高校があった大垣市ではあまりにも田舎過ぎて受験できず、わざわざ岐阜市や名古屋市まで出ていって受験していたのは良い思い出…なわけはありません)。このため、こと東京大学に限って言うと比較的合格ラインが見えやすい大学入試だったと言えます。このため、合格ラインから遠く離れている場合はまだしも、合格ラインのすぐ下にいる生徒であれば、家庭教師を付けるなり、より多く予備校の授業を取るなり、参考書をより多く買うなり合格するためにより一層必死になるでしょう。この結果何が起こるかと言うと、合格ラインという閾値のすぐ上とすぐ下のグループを比較した時に、すぐ上のグループはすぐ下のグループよりも教育意欲が高くなっている、といった系統だった計測できない違いが存在してしまったりします。こうなると、もはや疑似的にランダムという条件から遠くかけ離れてしまうので、因果推論が成り立たなくなってしまいます。

この手の閾値が明示的であるがために手段が講じられてしまうというのは何も大学入試に限った話ではなく、条件(閾値)を付けた奨学金プログラムを実施すると、それを得るために何らかの手段を講じてくるというのはよくある話だと思います。また、ある内申点(閾値)以下の学生を退学・留年させる場合も、先生が温情で閾値よりも上の成績を付けるという事は普通にあり得ます(NYでこのようなプログラムが実施されて、回帰不連続デザインで留年の効果を分析しようとしたところ、先生の温情で分布がおかしなことになっていたという話を聞いたことがあります。アメリカの教員はドライなのかなと思いきや、こういった温情をかけたり、教員間で競争するような給与システムを嫌ったり、意外と日本の教員と近いところもあるんだなと驚きましたが)。これらのような場合、もはやある政策的な介入を受けるかどうかが閾値の前後で疑似的にランダムに割り振られているとは言えないので、やはり因果推論が成り立たないことになります。

基本的にこのブログの読者は教育に関心がある方達だと思っているので、教育政策を事例にお話をしていますが、この問題で日本でも大変分かりやすい事例があります。それは、配偶者控除の103万円の壁です。これを超えないようにパートの時間を調整している人の存在はかなり知られていると思いますが、まさにこの行為です。これがあると閾値の前後で状況がランダムにならなくなります。

4.疑似的なランダム割り振りは結果の解釈が少し難しい件

ここまでの話だけだと、特定の教育的介入を実験的にランダムに割り振ったRCTと、疑似的にランダムに割り振った回帰不連続デザインの間には違いが無いように見えますが、そうではありません。

ここで、東京大学の合格者と不合格者に関する話で最初の方に言及した点を思い出してください。合格者と不合格者の全体を比較すると、系統だった観測できない違いが存在している可能性が高いものの、合格最低点のすぐ上とすぐ下の二つの群に関して言えば、前章で言及したような状況が出現していなければ、ほぼほぼ東京大学で教育を受けることがランダムに割り振られていると言及しました。

つまり、RCTにより東京大学で教育を受けることを完全にランダムに割り振った場合は、東京大学で教育を受けることについての平均的な効果が分かるのですが、合格最低点の前後で疑似的ランダムに東京大学で教育を受けることが割り振られた場合、その効果はあくまでのその合格点付近での局所的な効果に過ぎなくなり、解釈が難しくなります。もし仮に東京大学での教育の効果が全ての人に対して等しくでるのであれば、この局所的な効果が平均的な効果と等しくなります。しかし、この仮定が満たされることはあまり多くありません。例えば、少人数学級の効果なども、低学力層の子供により効く傾向がありますが、このような傾向が存在する場合、局地的な効果をもって少人数学級導入の平均的な効果ということが出来なくなります。

ではこの回帰不連続デザインは局所的な効果しか示せないので意味がないのかというと、議論が割れる所なのですが、純粋な経済学でどうなのかは分かりませんが、教育政策においては意味があるのではないかと考えます。そもそも何もエビデンスが無いよりは、少なくとも局所的には効果が見られるというエビデンスは遥かに有効なのではないかと考えます。また、政府が実施するような教育政策的な介入は、往々にして最も厳しい環境にある子供を対象にしたものなので、その層に効くことが分かれば十分であるとも考えます。

5.実験でランダムに割り振るか、疑似的にランダムに割り振るか?

恐らく最大の問題は、ランダム化の実験を行うのか(RCT)、それとも疑似的にランダム化が行われる状況を生み出すのか(回帰不連続デザイン)の選択になってくると思います(この両者の中間点があるという議論が最近出てきたのですが、まだ勉強不足で全く追えていないので、ここではその話には言及しません)。

ゲイツ財団のような所が有り余る富を研究に突っ込んでくれるのであれば、もちろんRCTの方が良いのは間違いないです。しかし、冒頭でも触れましたが、ユニセフのような資金がカツカツで、かつ介入対象が厳しい環境にある子供と限定的であるところが、回帰不連続デザインが使用可能な状況下で敢えてRCTに挑むべきかと言われると、賛否両論ある所だと思いますが、私は基本的には違うと思います。もちろん、この回帰不連続デザインが使えない、そしてその他の因果推論的な手法も使えない(気が向いたらこれ以外の手法についても記事を書いてみようと思いますが、気が向かなければ途上国の教育の話をメインにしていこうと思います)、さらにその介入が完全に真新しいもので効果があるか分からない、という三条件が揃った時に限りユニセフのような団体もRCTを実施すべきだと私は考えます。

国際教育協力の文脈だと、イギリスやアメリカのようなお金もあって口も出すドナーがエビデンスの圧力をかけて、不必要なRCTをやらせていることが多いという問題が存在しています。これは、ドナー側・国連機関側、双方の教育分野の職員のキャパが不十分なために、エビデンス＝RCTとなってしまっているために発生します。この手の疑似的にランダムに割り振る方法や、他の因果推論の手法が存在していることを知って、それらの手法とRCTを天秤にかけた上でRCTを実施しているのであれば全く問題はないと思うのですが、単純にそれらを知らないがためにとにかくRCTを実施しているというケースは国連機関の教育分野のインパクト評価においてしばしば見受けられる印象があります。

さらに悪いことに、アカデミアの立場からすると、回帰不連続よりもRCTの方がやはり学術的に評価されやすいため、よりよいジャーナルへの投稿が目指せたりしますし、コンサルタントとしてもRCTの方がヘッドコストを多く稼げたりもします。このため、アカデミアや半アカデミア(ジャーナルに論文を投稿するようなコンサルタントやシンクタンク)がその他の手法がある事を明示せずにRCTを売り込んできて、教育分野の国連職員がまんまと騙されるというケースも見てきました(リトリートの際に、セミナーの一つとしてRCTを売り込みに来るアクターを何か所か知っています。RCTばかり売り込むので、なぜこういった回帰不連続デザインのようなものに言及しないんだとツッコんだらあからさまに顰蹙を買った＆上司に私を黙らせるよう注意を促したので、確信犯的にやっているんだなと思いました)。

教育分野の人が最も勉強していない、というのは世銀時代にとあるエコノミストが言っていたセリフですが、私の実感としても国際開発金融機関はまだしも国連機関についてはやはりそうで、ちょっと何とかしないとなと感じているところです。とは言え私に何ができるのか、卒業後の進路選択までもう少し時間があるので、じっくりと考えたい所ですね。

畠山勝太
HP: Sarthak Shiksha | Quality Learn
FB: https://www.facebook.com/SarthakEd/