これからの「エビデンスに基づく教育」の話をしよう（２）：RCTはどこまで「理想的」か

オックスフォードからこんにちは！

前回の記事では、「エビデンスに基づく教育」に関して、エビデンスの階層性・レベル（LOE）という概念を紹介しつつ、精緻な因果推論を行う上でランダム化比較試験（RCT）が一つの有用なアプローチであることを確認しました。同時に、

「RCTによって得られたデータこそが理想的なエビデンス」と簡単に考えてしまうことに対する危機意識から、RCTも常に「理想的」というわけではないこと、他方で「信頼性が低い」と思われがちな記述的なデータなども有用なエビデンスになり得ることを、一般論として指摘しました。そこで今回は、「どのような観点から考えると、RCTの結果は理想的なエビデンスと言える／言えないのか」という点を特に意識しながら、エビデンスの有用性を判断する際の視点を考えていきたいと思います。

f:id:sarthakshiksha:20180120065005j:plain

１．RCTが「得意な問題」とは

前回の記事でも触れたように、RCTに関する技術的・倫理的な課題については、中澤氏の論文で分かりやすく整理されていますので、ここではその詳細は割愛します。代わって、今回まず考えてみたいのは、RCTが「得意な問題」と「苦手な問題」です。何だか学校の定期テストや受験勉強のような言い方ですが、RCTが答えを出しやすい「得意な問題」とは、①特定の環境・対象において、②何らかの教育施策や実践を行った場合、③予め設定した施策・実践のゴールに対して、④どの程度の効果があるか／ないか、といった性質のものです（少し単純化していますが・・・）。例えば、①日本のA小学校・6年生に対して、②少人数学級を導入した場合、③児童の学力（テストの成績）向上が、④どの程度促されるか、といった問に対する答えを導きたい場合、A小学校で少人数学級に関するRCTを実施することで、学力向上に与える影響を精緻に検証することが可能となります。

しかし、前回の記事や畠山勝太の記事でも指摘しているように、個別のRCTには「①特定の環境・対象において」という前提条件が付いて回るため、同じような「②教育施策や実践」を行う場合であっても、違う環境においてどの程度当てはまるか（外的妥当性）については慎重に検討する必要があります。とりわけ、これが国境をまたぐ場合、より慎重なアプローチが求められることになります（畠山勝太の前回記事）。

さらにここで特に注目したいのは、RCTが得意とするのは「③予め設定した施策・実践のゴールに対して、④どの程度の効果があるか／ないか」を検証することであって、その他の重要な問に必ずしも答えられない（＝「苦手な問題」がある）、という事実です。つまり、何らかの教育施策・実践の是非を判断する際、「予め設定したゴールに対する効果」を重視するのであればRCTは非常に有効なアプローチですが、より広い視野に立って施策・実践の方向性を考えようとした場合、RCTでは抜け落ちてしまう観点が少なからずあるのです。

2．RCTが「苦手な問題」とは

では、その「苦手な問題」とはいったい何か。様々な観点がありますが、一つのフレームワークとして経済協力開発機構（OECD）の開発援助委員会（DAC）が提唱する「評価基準（Criteria for Evaluating Development Assistance）」が参考になります。これは、もともと開発援助を評価する際の視点で、日本の教育を前提としたものではありませんが、政策・施策レベルから具体的な実践に至るまで、何らかの取組を評価して有用なエビデンスを導出する際の枠組みとして、国や分野を越えて広く参照されています。具体的には、この「評価基準」では、以下のとおり「妥当性（relevance）」「有効性（effectiveness）」「効率性（efficiency）」「インパクト（impact）」「持続可能性（sustainability）」の5項目が提示されており（「DAC評価5項目」などと呼ばれることが多い）、RCTの「得意」「苦手」な問題を理解する上で非常に有用です。

f:id:sarthakshiksha:20180120064219j:plain

（出所）OECDのページを基に、今回の記事テーマにあわせて一部意訳・加筆

上記5項目を見るとわかるように、RCTが特に得意とするのは「有効性」です。そのため、しばしばRCTは有効性を検証する際の「黄金律（Gold Standard）」などと呼ばれたりします（例えば、The Oxford Handbook of Multimethod and Mixed Methods Research Inquiry）。また、検証対象となる取組に関わる費用や人的リソース等を勘案することで「効率性」を、施策・実践の対象組織・対象者を長期的に追跡することで「インパクト」を精緻に捉えることも可能です（実際には、こうしたリソースに関するデータ収集や長期間に渡る追跡調査などは非常に難しいのですが・・・）。

他方、RCTがあまり得意ではないと考えられるのが「妥当性」と「持続可能性」です。これらの具体的な解釈・適用については、この評価基準を用いるケースによって様々ですが、両者に共通している重要な要素は、「外の世界」との接点に配慮していることです。つまり、評価対象とする施策・実践それ自体の効果（「内の世界」）だけでなく、そもそもの目標（RCTによって計測したい効果）や取組の設計自体がどの程度妥当なのか、関連する制度や取組とどの程度整合が取れているのか、今後同じような取組を維持・拡大していこうとした場合に十分なリソースを確保できるのか、といった問が重要になってくるのです。この視座を踏まえると、RCT結果から導かれた答えを「理想的」と判断する前に、少なくとも以下2点については慎重に検討する必要がありそうです。

（１）予め設定していないゴールに対する影響

まず一つ目は、「予め設定していないゴールに対する影響」です。これは、先ほど紹介した評価基準のうち「インパクト」とも一部重なりますが、例えば、少人数学級の効果をRCTで検証した結果、仮に「学力向上に効果があった／なかった」と言えたとしても、他の教育・学習目標に対する効果は（予め調査デザインの中で考えられていない場合）検証することができません。これは同時に、「学力向上」というゴールに即して考えれば少人数学級の是非を考察することができますが、その結果のみを強調した場合、他の重要な教育・学習目標への影響が捨象されてしまう危険性があることを意味しています。

もう少し卑近な例として、「子供が勉強するようにご褒美でつる（例えば、テストで良い点数をとったら／自発的に勉強するようになったら、お小遣いをあげる／何か買い与える）」ことの是非を、A小学校・6年生の学力・学習習慣に着目したRCTを通じて考えてみることにしましょう。この場合、「ご褒美でつる」ことの効果はA小学校・6年生の学力・学習習慣の変化で検証されることになり、例えば昨今その重要性が指摘されている非認知能力（忍耐力やコミュニケーション能力等）に対する影響や、長期的な学習習慣へのインパクトが捨象されたまま、「ご褒美でつる」ことの是非が論じられることになります。

もちろん、この制約については、横断的な手法はもちろん、他の縦断的な手法にも少なからず当てはまりますので、必ずしも他の定量的な手法と比較した場合のRCTの劣位性を意味するわけではありません。また理論的には、調査デザインの段階で様々な教育・学習目標を想定してデータを収集することで、多面的な観点から「ご褒美でつる」ことの効果を検証することは可能です。実際、RCTを用いた研究で国際的に注目されているものの中には、長期間に渡って複数の効果を分析した例もあります。しかしここで強調したいのは、そうした多面性に対して十分に配慮しないまま（＝RCTから導かれる結論は予め設定した調査枠組みに大いに依存しているという内省を欠いた状態で）、何らかの「効果」がRCTによって実証されたという事実をもって、特定の施策・実践が「良い」「悪い」などと断じるのは、非常に近視眼的で危うい議論であるということです。

f:id:sarthakshiksha:20171214192028j:plain

（２）他の諸施策・実践との整合性、実現可能性

RCT結果を考える際に気をつけたい二つ目の要素は、他の諸施策・実践との整合性、もう少し敷衍すると実現可能性の問題です。改めて指摘するまでもなく、教育分野は様々な制度やステークホルダー（学習者、保護者、教職員、地域住民、行政など）が複雑な関係を構築している世界です。そのため、再び少人数学級の例をとると、RCTを通じた検証の結果、当該施策が「効果あり」「効果なし」と結論付けられたとしても、いざそれを実際の施策・実践に落とし込もう（学級規模を小さく／大きくする）と考えた場合、教室等のインフラ整備、学級規模にあわせたカリキュラムや指導方法の開発・普及、教員配置（養成・研修含む）、家庭・地域との連携など、少人数学級の導入／廃止に伴って同時に考えなければいけない課題が山積しています。ここが、RCT先進分野である医療（処置）と教育の大きな違いの一つと言えるかもしれません。

こうした実態を踏まえると、一つのRCT結果をもって「〇〇は効果あり／なし」と主張できたとしても、関連して必要となる諸制度・施策の方向性や整合性・実現可能性と併せて論じられなければ、最終的にRCT結果は有用なエビデンスとならず、単に研究者の論文執筆のネタとして、あるいは既に意思決定が為されている政策・施策を後から正当化するための材料として使われるに過ぎなくなってしまうでしょう。

f:id:sarthakshiksha:20180120070003j:plain

3．RCTが「得意な問題」にも落とし穴が・・・

さて、本論はこれからです（！）。というのも、RCTを「理想的なエビデンス」とみなすことに対して筆者が慎重なスタンスである理由は、RCTに上記のような「苦手な問題」があるからというだけでなく、むしろ「得意な問題」であるはずの「有効性」を検証する上で、（とりわけ現実社会の施策・実践に援用しようと考えた場合に）気をつけるべき重要な要素が少なからずあるからです。そして、RCTの「苦手な問題」と併せて、こうした「落とし穴」を考えた時、RCTを最上位に据えるLOEの観点からは「信頼性が低い」と思われがちなデータも、重要なエビデンスとしての価値を帯びてくるのです。

では、RCTを通じて「有効性」を検証し、その結果をエビデンスとして実際の施策・実践を考える際に留意すべき要素とは何か。その詳細は次回に譲りますが、少し議論を先取りすると、往々にしてRCTを通じて「有効性」を検証する際、特に意識されるのは「何らかの取組によって統計的に有意な効果があったのか／なかったのか」という問で、二極思考になりがちです。しかし、現実社会への貢献を考えるのであれば、より重要なのは単なる効果の有無（〇〇をすることは良い／悪い）を拙速に断ずることではなく、①何らかの施策・実践のうちどのような要素が、②どのような対象者・組織に対して、③どのような環境下で、④どの程度、⑤どのように／なぜ、効果をもたらしたのか／もたらしていないのか、という点をきめ細かく捉えていくことではないでしょうか。

この観点から、次回はRCTが「得意な問題」を解く際に抱える課題と、それらを踏まえた上でより有用なエビデンスを慎重に導出・活用するためのアプローチに焦点を当てて、筆を進めていきたいと思います。

荒木啓史

---------------------------------------------------------------------------------------------

サルタックは無料メルマガを開始しました。

・本ブログ記事の更新情報

・編集後記

・日本でのイベント情報

・インターンやボランティアの募集告知

などをお送りいたします。

下記のリンクにあるようなものをメルマガで配信しています。

sarthakshiksha.hatenablog.com

ご興味がある方は下記のリンクよりご連絡ください。