サルタックの教育ブログ

特定非営利活動法人サルタック公式ブログ。教育分野の第一線で活躍するサルタックの理事陣らが最先端の教育研究と最新の教育課題をご紹介。(noteへブログを移行しました。新しい記事はnoteにアップされます→https://note.mu/sarthakshiksha)

これからの「エビデンスに基づく教育」の話をしよう(3):複合的なエビデンスの重要性

エビデンス(科学的根拠)に基づく教育を!このスローガンを出発点に、前々回の記事では「エビデンスに基づく教育」という考え方が日本においても市民権を得始めてきていること、他方で「そもそもエビデンスとは何か」という点について十分な共通理解が醸成されていないことを指摘しました。同時に、「エビデンスの階層性・レベル(LOE)」という概念を参照しつつ、有用なエビデンスを導出する上で、ランダム化比較試験(RCT)が有力なアプローチであることを確認しました。


しかし、確かにRCTは定量的に精緻な因果推論を行う上では一つの望ましいアプローチである(そのため、昨今の日本ではRCTを神格化して捉えてしまう風潮すら一部にある)ものの、実際の政策・実務改善に役立てる観点からは、RCTの結果が必ずしも「理想的」なエビデンスになり得ない(RCTには苦手な問題がある)ことを前回の記事で紹介しました。

この流れを引き継いで、今回はまた別の角度から、RCTの結果を妄信するのではなく健全に評価し、その強みを活かし、弱みをできる限り克服するための視点を考えていきます。それを通じて、LOEでは低階層に位置づけられてしまう「使えない」データなども重要なエビデンスとなり得ること、そしてより有益な示唆を導く上では多様なエビデンスを複合的に活用する必要があるということを、お示ししていきたいと思います。

 なお、今回の構成は以下のとおりです。

1.RCTが「得意」だけれど「苦手」な問題

2.ケース・スタディ(少人数学級導入の効果をRCTで考える)

3.なぜ「合理的なアプローチ」では不十分なのか

4.「使えない」データが「理想的」なエビデンスに変わる時

(※全体的に少し長いため、テクニカルな話題や主題から少し逸れた内容は少し小さく薄い文字で示しました。お時間のない方は、この部分を読み飛ばしていただいても全体の論旨には大きな影響はありません。)

 

f:id:sarthakshiksha:20171223160055j:plain

 

1.RCTが「得意」だけれど「苦手」な問題

 RCTは「何らかの介入によって統計的に有意な効果があったのか/なかったのか」という問に対して、質の高いエビデンスを提示するのが非常に得意です。例えば、少人数学級は学力向上に効果があった/なかった(→だから少人数学級は導入すべき/見送るべき)、ICTの活用は学習意欲向上に効果があった/なかった(→だから、ICT活用は推進すべき/抑制すべき)、といった論を展開したい場合、RCTによって得られた分析結果は、しばしば有力なエビデンスとして見做されます。

しかし、何らかのエビデンスを基に実際の政策・実務改善に結びつく示唆を得ようと考えた場合、「統計的に有意な効果があった/なかった」というRCTの結果(有効性の検証)をもって、「だから〇〇は導入すべき/見送るべき」といった結論を導くのは安易な議論と言わざるを得ません。前回の記事で紹介したように、少なくとも「妥当性」や「持続可能性」なども併せて検討することが大切ですし、「有効性」一つとっても、単に効果の有無だけでなく、①何らかの施策・実践のうちどのような要素が、②どのような対象者・組織に対して、③どのような環境下で、④どの程度、⑤どのように/なぜ、効果をもたらしたのか/もたらしていないのか、を慎重に検証することが重要です。中でも、実際の政策・実務に対する示唆を得る観点からは、「⑤どのように/なぜ」という問が肝要ですが、RCT(及び教育分野における多くの計量経済学的アプローチ)は必ずしもそれに対して上手に答えることができません。

このように言うと、大きく二つの反論をしばしば聞くことになります。一つ目は、RCTだって「どのように/なぜ」という問に答えられる(むしろ得意)!というもの。二つ目は、そもそも「どのように/なぜ」という問は重要じゃない(効果の有無こそが重要)!というものです。

一つ目については、少し単純化して言えば、創出したい効果(例えば、学力向上や学習意欲向上)に対して影響を与え得る潜在的な要因(例えば、少人数学級やICT活用だけでなく、学級内での具体的な教授・学習方法、児童生徒の家庭環境や学校・地域の諸条件、学校外での学習状況など)を予めすべて定量化してデータを収集し、それらの影響を併せて分析することで、非常に細かいレベルで学力向上等を規定している(と考えられる)要素を抽出することができる、という主張になります。これは、確かに理論的には否定できませんが、現実的には、何らかの施策・実践とその効果の関係性が「どのように/なぜ」生じているのかを説明できるほど細かな変数を予め設定することは不可能に近いと言えます。実際、事前に潜在的な因子をすべて定量化して「どのように/なぜ」という問に答えた教育分野の研究をこれまでに見たことがありませんし、恥ずかしながら自分自身もそうした研究を行ったことはありません。。。

二つ目については、こちらも少し単純化すると、RCTによって様々な条件を適切にコントロールした上で、何らかの施策・実践を行ったグループでは効果が見られた/見られなかった、ということさえ分かれば、「どのように/なぜ」に拘わらず、当該施策・実践を展開していけば同様の効果が期待できるのだから良いではないか、という主張です。これも確かにそうだよな、と感じる方も多いかもしれません。しかし私がここで強調したいのは、既に畠山の記事などで指摘されている「外的妥当性」の問題とは別に、「効果が見られた/見られなかった」という点を判断する際、よく使われるのは平均値であり、これを「どのように/なぜ」という視座抜きに受け止めると、そこから導かれる示唆は有用ではない(場合によってはネガティブなインパクトをもたらしかねない)可能性があるという点です。少し話が抽象的過ぎる気がしますので、具体例で考えてみましょう。

 

2.ケース・スタディ(少人数学級導入の効果をRCTで考える)

ここでは一つの例として、「少人数学級が学力向上に与える効果」を検証するため、複数の小学校に在籍する6年生を、少人数学級を適用するグループ(介入群)と適用しないグループ(統制群)にランダムに割り振り、少人数学級導入前後で各グループの学力水準(テストの点数)がどのように変化したかを見ることにしましょう。その結果、詳細は割愛して結果部分だけを非常に単純化して見てみると、テストの点数が介入群では20ポイントアップしたのに対し(導入前の平均20点→導入後の平均40点)、統制群では5ポイントアップにとどまり(同時期に平均20点→平均25点)、この15ポイント差(20ポイント ー 5ポイント)は統計的に有意(この差が偶然発生した確率は非常に低い)と判断されたとします(下図1)。ここから導くことのできる最も簡単な結論は、「少人数学級は学力向上に効果がある」→「だから同施策を他でも展開すべきだ」ということになりそうです。

 

f:id:sarthakshiksha:20180225073322j:plain

図1:少人数学級導入に関するRCTの例(効果が認められたケース)

 

しかし、ここで注意したいのは、この分析結果から見えるのは、先述のとおり各グループの「平均値」に過ぎず、各グループ内の「バラつき」が反映されていないという事実です。例えば、介入群で平均して20ポイントアップした場合、①児童全員が一様に20ポイントアップを達成した、②半数程度の児童が40ポイントアップを達成した一方で他の半数はほとんど学力に変化がない、③飛躍的に50ポイントアップした児童から10ポイントほど低下してしまった児童まで様々、など色々な可能性が考えられます(下図2)。しかし、①~③いずれの場合であっても、平均値を算出して統制群と比較すると(上図1)、単に「少人数学級を導入したグループでは20ポイントアップ(統制群より15ポイントも伸びしろが大きい)」という結果のみがクローズアップされることになります。

 

f:id:sarthakshiksha:20180225073425j:plain

図2:介入群における学力変化(テスト点数の増減)に関する様々な分布例
(いずれも平均値は+20ポイント。一つのドットが一人の児童を示す)

 

ここまで見てくると、やはり「どのように/なぜ」という問に答えることが重要と言えそうです。というのも、図2パターン①のように、介入群ではみんなそろって20ポイントアップ!ということであれば、恐らく少人数学級導入そのものによる効果として考えるのが妥当かもしれませんが、仮にパターン②や③のように介入群の中でも大きなバラつきが見られる場合、平均値としての20ポイントアップは、必ずしも少人数学級導入によるものとは言えない可能性が大いに考えられます。もしかすると(あくまで仮のケースですが)、これは少人数学級導入と児童の性別が掛け合わさることによって生じている差かもしれませんし(例えば、少人数学級を導入すると女子は飛躍的に成績が高まるが男子は変わらない)、事前に成績の良い児童はさらに伸びる一方で事前に成績が芳しくなかった児童は伸び悩んでいるかもしれません。また、児童の学校外学習の状況によって少人数学級の効果に差が出ているのかもしれませんし、単に学級規模の問題ではなく教員の教授方法や授業外での児童とのコミュニケーションによって差が出ているのかもしれません(例えば、介入群のうちAクラスでは教員が少人数学級に適した教授法を採用しつつ授業外でも児童をきめ細かくケアしていたが、Bクラスでは従来と同じ教授法を採用した)。この4つのケースのうち、最初の3つであれば、先ほど少し触れたように予め変数を設定・測定して分析することで、その該否を検証することは可能ですが、4つ目のようなケース(教授法や教員児童間のコミュニケーションが少人数学級の効果に介在している)は、事前に定量的な変数を想定しておくことは非常に困難で、「どのように/なぜ」という観点で事後的に検討していかないと正確に捕捉できないことが多いのが実態です。

以上のような実態を精緻に検証することなく、介入群と統制群の平均値の差を見ることで「少人数学級に効果があった」→「当該介入を推進すべき」と結論付け、他の場所でも同様の施策を展開した場合、やはり平均値としては上昇するかもしれませんが、例えばパターン②や③で伸び悩んでいる児童と同じような状況下にある子供は、逆に不利益を被ってしまいかねません。

同様の状況は、RCTによって「効果がなかった」と結論付けられる場合にも当てはまります。例えば、介入群と統制群ともに、少人数学級導入前後で学力水準(テストの点数)が10ポイントアップしたとしましょう(下図3)。この結果から導ける簡単な結論は、「少人数学級は学力向上に特に効果がない」→「だから同施策を展開するのは止めよう」ということになりそうです。

 

f:id:sarthakshiksha:20180225073559j:plain

図3:少人数学級導入に関するRCTの例(効果が必ずしも認められないケース)

 

しかし、既に読者の皆さんはお気づきのとおり、介入群・統制群いずれについても、平均値だけでは見えてこないバラつきが実際には存在するはずです。再び分かりやすさのため、介入群のみ取り出して考えてみると、平均値として10ポイントアップした場合、①児童全員が一様に10ポイントアップを達成した、②一握りの児童が25ポイントアップを達成した一方で、大多数は10ポイントアップ、残りの少数は5ポイント低下、③30ポイントアップした児童から10ポイントほど低下してしまった児童まで様々、など色々な可能性が考えられます(下図4)。

 

f:id:sarthakshiksha:20180225073639j:plain

図4:介入群における学力変化(テスト点数の増減)に関する様々な分布例
(いずれも平均値は+10ポイント。一つのドットが一人の児童を示す)

 

このうち、例えばパターン②や③を見てみると、少人数学級は一概に効果がないわけではなく、何らかの諸条件と合わさると高い効果を示す可能性(他方で他の諸条件と合わさると学力にネガティブな影響を与える可能性)が想起されます。これを踏まえれば、バラつきに配慮しつつ「どのように/なぜ」ということに注意を払わないまま、特定のRCT結果をもって「少人数学級導入は(平均的には)効果がない」→「当該施策・実践を展開すべきでない」と結論付けてしまうと、(パターン②や③の上方に位置するケースが物語っているような)少人数学級がもたらし得るポテンシャルを十分に明らかにしないまま、その可能性を安易に捨象してしまうことにもなり得るのです。

なお、統計に詳しい方は、「介入群と統制群で統計的に有意な差があった/なかった、というときは、単純に平均値の差の大きさ(15ポイント差があった、5ポイント差があった、差は0だった、など)だけではなく、各グループにおけるバラつきも考慮しているはずだから、改めてバラつきを気にしなくてもよいのでは」と思われるかもしれません。確かに、介入群と統制群の平均値の差が有意かどうかを検証する際、統計的には両者の差の大きさだけでなく、各グループにおけるバラつき、さらにサンプルサイズ(今回の例の場合、実験対象となった児童数)も考慮されるため、仮に平均値の差が大きくても各グループにおけるバラつきが大き過ぎる場合には、そもそも当該平均値の差が有意であると判断されないこともあります。しかしこれは同時に、例えばサンプルサイズが十分に大きい場合、仮にバラつきが大きく且つ両グループの平均値の差が小さくても有意であると判定されてしまうことを意味しています。またそもそも、ここでの問は「バラつきを勘案してもなお平均値の差が有意か否か」ではなく、「有意差があったとして、その背景にある個人レベルのバラつきが「どうして/なぜ」生じているのか」というものであることに留意が必要です。

 

3.なぜ「合理的なアプローチ」では不十分なのか

ここまできて、一つの(極端な)反論として、このようなものが想定されます。「平均値として上昇しているのだから、わざわざ細かなバラつきに着目して、「どのように/なぜ」に拘る必要はないではないか。むしろ、バラつきや具体的なメカニズムを気にしていたら迅速に新たな施策・実務を展開するのが難しくなるだけである。そもそも平均値・予測値から大きく外れたデータ(例えば図4パターン②の上方・下方に位置する少数のケース)は「外れ値」であり、そうした「平均的ではないケース」「例外」に心を奪われないで意思決定していくことこそが「科学的」なアプローチであり重要だ。しかも、昨今の厳しい公財政事情を踏まえ、より効率的に資金を投入していく観点からは、やはり平均的な効果に着目するのが合理的なアプローチではないか」。しかし筆者としては、大きく二つの観点からこうした見解には与しません。

第一に、上図1~4のような結果では、ドットやバー(棒グラフ)で各データが描かれており、これを単純に統計的に処理するのであれば平均値から外れたデータは「例外」として無視することも一つの合理的なアプローチではありますが、実際にはこのデータの背景には一人の人間がいるという事実です。往々にして、定量的なアプローチを使って分析をしていると、自らが非常に「科学的」で「客観的」なことをしているように感じられ、一定の法則から外れたデータについては「外れ値」として過度に意識を払わないことが「正しい」と思いこんでしまうことが少なくありません。しかし、上述の例のように教育分野における研究の場合、統計ソフトの中では単なる1レコードであっても、そこには一人の児童の人生が反映されているわけです。この事実を考えると、少なくとも筆者個人としては、安易に平均値から導かれる結論に流されるのではなく、できる限り一つ一つ(一人ひとり)の「例外」にも目を向け、「どのように/なぜ」そうした人たちには「平均」とは違う効果が見られたのかを丁寧に見極め、他のケースへの援用も含めて具体的な政策・実務への示唆を考えたいと思うのです。

第二に、よりプラクティカルな点として、「どのように/なぜ」という観点からバラつきを検証していくことは、短期的にはコストが大きくかかる(効率性が低い)かもしれませんが、長い目で見るとむしろ低いコストで大きな効果を生むことにつながるのではないかと考えています。というのも、仮に少人数学級の効果が特定の教授法を伴う場合に非常に大きな効果をもたらすことが明らかになった場合、単に少人数学級を導入するのではなく、当該教授法を教員養成・研修等で主流化することによって、より大きな効果の創出が期待されるからです。同様に、仮に何らかの取組が少人数学級の効果を相殺してしまうことが明らかになった場合、当該取組を抑制することで、少人数学級の効果を顕在化させることにつながるかもしれません。

こうした点を鑑みると、前々回の記事で紹介したLOEの最上位に位置している「RCTのシステマティック・レビュー」を行う視点も変わってきそうです。例えば、RCTを用いた研究結果(論文)を20本レビューする際、ありがちなパターンは、「関連論文20本のうち、14本はポジティブな効果あり、4本は有意な影響なし、2本はネガティブな効果ありだった。だから、基本的には「ポジティブな効果あり」と考えて良さそう」といった流れです。しかし上記も踏まえると、システマティック・レビューで重要なのは、単純に「効果があった/なかった」とする論文が何本か(どちらがマジョリティか)ではなく、「ポジティブな効果あり」となったケースでは「どのように/なぜ」そうなったのか、また効果が見られなかった・ネガティブな効果が見られたケースでは「どのように/なぜ」そうなったのか、という点を丁寧に見極めていくことではないでしょうか。そうすると、そもそも効果の有無に辿り着く前提として、RCTの設計自体に不備があって適切に効果を測定できていなかった、という事実が明らかになることも、実は少なくないのです。。。(先日、リテラチャー・レビューの記事を書いてくれたインターンの石川さんも、実際にRCTを用いた研究のレビューを行い、こうしたケース(設計自体が怪しいRCT)を明らかにしています)

 

4.「使えない」データが「理想的」なエビデンスに変わる時

では、以上を踏まえて「どのように/なぜ」を明らかにするにはどうすればよいのでしょうか。ここで重要性を帯びてくるのが、LOEでは低階層(有用性の低いエビデンス)に分類されていたデータです。この中には、例えば「同じ施策等を経験した人たちのみに関する調査・分析結果」や「批判的検討を伴わない専門家の意見」などがあり、確かに科学的な根拠に何ら基づかない「意見やアイデア」であれば参照すべきではないでしょう。

しかし、仮にこれが、例えば少人数学級を導入した学校で長期間に渡って参与観察をしたり、関係者(児童や教員、保護者、地域住民)へのインタビューを行うなどして収集した定性的なデータから導かれた「意見やアイデア」だった場合、単に「定量的ではない」というだけで「使えない」エビデンスと見做すことは、あまり合理的な判断とはいえません。むしろ、RCT等では見極めることのできない細かな実態を暴き出すことに成功しているのであれば、これは間違いなく「理想的」なエビデンスとなり得ます。さらに、こうした「意見やアイデア」だけでなく、一見「非科学的」と断じられそうな児童や教員の日記、PTAの資料、教育委員会や学校運営協議会等の議事録、さらには近隣の社会教育施設や福祉分野の専門職・施設の活動状況に関する資料など、定性的な情報を丹念に読み込んでいくと、必ずしも定量化が容易ではないが実際には重要な働きをしている要素を詳らかにできる可能性もあります。例えば、少人数学級の効果が児童の出身家庭の経済水準によって大きく異なる(他の要因も相俟って、経済的に豊かな家庭の児童は少人数学級のメリットを十分に享受できている一方で、経済的に厳しい家庭の児童には少人数学級の効果が十分に見られない、など)ものの、経済的に厳しい家庭の児童であっても、地域の福祉機関・専門職と学校が連携して(チームとなって)学校外学習の支援を丁寧に行っている場合、経済的に豊かな家庭の児童と同様に少人数学級の効果が認められる、といったケースがあり得るかもしれません。

このように、特定の手法に偏ったエビデンスに傾倒するのではなく、様々なタイプのエビデンスを繋ぎ合わせることで、単に「効果があった/なかった」だけでなく、それが「どのように/なぜ」生じているのかをバラつきも含めて明らかにすることができれば、結果的により有用な示唆を導けるのではないかと筆者は考えています(これは、「教育分野のことは定量化できないから、すべて定性的に見ていくしかない」といった意見とは完全に異なる見方であることは、念のため付言しておきます!)。また、今回は紙幅の都合もあり詳細は割愛しますが、定量的な調査・分析の質を高める上で、リサーチ・デザインからデータ収集、分析、結果の解釈に至るまで、異なるステージで様々な定性的な手法を織り込むことも効果的です。実際、以上のようなアプローチは、Mixed Methods(混合研究法)とも呼ばれ、その重要性が広く指摘されているところです(例えば、The Oxford Handbook of Multimethod and Mixed Methods Research Inquiry)。

しかし残念なことに、(これはあくまで感覚的で、全く科学的なエビデンスに基づいていませんが)社会科学分野の研究者の中には、自分自身を「量の人」(定量的なアプローチの専門家)、「質の人」(定性的なアプローチの専門家)と決め打ち、場合によっては他方のアプローチを頭から否定してしまうケースも少なからずあるように見受けられます。しかし、実際の政策・実務への貢献を考えた場合、重要なのは「量か質か」ではなく、「量も質も」適切に活用することで、真に答えるべき命題に迫っていくことではないでしょうか。もちろん、「量」といっても具体的な手法やその背景となる理論は恐ろしく広範かつ深遠ですし、「質」についても同様ですので、それぞれ(の一部)をしっかりとマスターするだけでも非常に大変です。そのため、もし一人で「理想的な」エビデンスを導くことが難しければ、異なる専門性を有する人(研究者に限らず、様々な立場にある人)で協力し合いながら、複合的な視点・アプローチで教育・社会課題に立ち向かっていくことが求められるのではないかと思います。(その意味で、非常に多様なバックグラウンドを有する人材を備えたサルタックは、一つの「理想的」な集団ではないかと自負しているところです!)

繰り返しになりますが、私は基本的にRCTを活用して質の高い定量的なエビデンスを導出・活用していくことに対して肯定的です。とりわけ国の財政が芳しくなく、所与の限られた経済資源をより「効率的」に使おうとした場合、平均的な効果に着目して意思決定を行う、あるいは各個人が自らの判断で教育戦略を選び取ることは否定する類のものではありませんし、それに対してRCTは非常に有効なツールとして機能し得ます。そしてこのアプローチは、個々人の感覚や特定の人の偏った経験談などに基づく意思決定よりも、はるかに望ましいのは間違いありません。しかし、RCTの結果を無批判に解釈・援用してしまうことは、以前の記事から書いてきたように様々なリスクを抱えることにつながり、場合によってはネガティブな影響すらもたらしかねないと考えています。その意味で、「使えない」と断じられてしまいそうな定性的な情報も含めて、複合的なエビデンスを有効に活用することで、できるだけ丁寧な意思決定プロセスを踏んでいくことが大事ではないかと思うのです。

それでは、複合的なエビデンスに基づいて導かれた結論は、以前の畠山の記事で指摘されていたような「文脈」を越えて通用するのでしょうか。より実践的な言い方をすると、特定の文脈から導かれたエビデンス及び結論を異なる文脈に援用しようと考えた場合、具体的にどのような要素に気をつけて、どのように検討すればよいのでしょうか。次回は、その一方法を「Theory of Change(セオリー・オブ・チェンジ)」という枠組みを活用しながら紐解いていきたいと思います。

荒木啓史

  

 ---------------------------------------------------------------------------------------------

サルタックは無料メルマガを開始しました。

・本ブログ記事の更新情報

・編集後記

・日本でのイベント情報

・インターンやボランティアの募集告知

などをお送りいたします。

下記のリンクにあるようなものをメルマガで配信しています。

sarthakshiksha.hatenablog.com

ご興味がある方は下記のリンクよりご連絡ください。

無料メルマガを受け取る | サルタック・ジャパン

またサルタックでは常時会員と寄付を受け付けています。

サルタックと共に多くの子どもたちに有意義な教育を届けるパートナーになりませんか。

ご関心がある方は下記のリンクより会員・寄付のオプションについての詳しい説明にお進みください。

私たちにできること | サルタック・ジャパン

---------------------------------------------------------------------------------------------