メモ
Psychometrics
- 平滑化スプラインと加法モデル [外部サイト] (2017.10.19)
- ストレスと自律神経の科学 [外部サイト] (2017.10.19)
- Malouf, D. B., & Taymans, J. M. (2016). Anatomy of an evidence base. Educational Researcher, 45(8), 454-459.
WWCによる系統的レビューは、①eligible/ineligible、②eligibleであった場合、介入効果を評価するのに利用できるだけの基準を満たしているか、の2段階で対象となる研究が絞られる。最近550レポートのうち、②をクリアした研究(RCTおよび準実験に相当するもの)が1つでも含まれていたものは、全体の3割にも満たなかった。また、WWCの定義する改善指標にもとづくと、介入効果の大きさは政府が政策決定において目標としているレベルに届くと考えられるものは1割程度しかなかった。筆者は、RCTへの偏重がレビューに含まれる研究の数が絞られすぎる大きな要因である(Education Sciences Reform Act of 2002 では、RCTによる因果推論の重要性が強調されている)とし、学校現場により適応的な単一事例実験やランダム化されていないデザインを系統的レビューにおいて積極的に採用すべきではないかと述べている。 (2017.01.06)
- American Educational Research Association (2015). AERA statement on use of value-added models (VAM) for the evaluation of educators and educator preparation programs. Educational Researcher.
付加価値モデル (value-added models: VAM) を用いた教員評定、教員養成プログラムや研修の効果測定について、利用にあたってはその科学的・技術的限界を十分踏まえるよう喚起する公式声明がアメリカ教育研究学会 (AERA) から出された。この中では、付加価値モデルに標準化された学力テストのデータを組み込んだとしても、教師・管理職・スタッフの貢献度合いを十分に分離することは難しいという指摘や、教員養成プログラムの評価に付加価値モデルが利用できるというエビデンスがほとんどないといった指摘がなされている。また、付加価値モデルが機能するのに必要な8つの条件を提示しながらも、これらの条件をクリアするのは現実的に難しいこと、またこれらの条件を全てクリアしたとしても付加価値モデルにもとづく推論が妥当であるとは保証されないとも述べられている。以上のことから、付加価値モデルの結果は評価の1つの側面でしかないことに留意することや、これに代わる手法の研究開発が行われるべきであると結論づけられている。(2015.10.12)
- American Educational Research Association, American Psychological Association, & National Council on Measurement in Education (2014). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
アメリカ教育研究学会 (AERA)、アメリカ心理学会 (APA)、全米教育測定協議会 (NCME) が合同で作成している「教育・心理テストのためのスタンダード」が2014年に改訂された。この最新版の要点を簡単にまとめておく。(2015.2.3)
- テストの公平性 (fairness) に関する章が新設された (第3章)。この章だけでなく、全編を通じて、アクセシビリティとユニバーサルデザインの観点からテストの公平性が繰り返し強調されている。受験者の特別なニーズに応じて、テスト内容や実施方法の調整 (accommodation) と変更 (modification) を行い、かつ調整や変更を経て得られた得点がもとのテストの得点と可能な限り比較可能となるよう工夫をする責任がテスト実施者にあるとされている。なお、テストの調整とは構成概念及び得点の等価性が保証された改変であり、変更とは構成概念自体の変更を伴うものと定義されている。
- 妥当性が単一の概念であり、かつて言われていたように内容的妥当性、基準連関妥当性、予測的妥当性といった異なる側面からなるものではないということが強調されている (第1章)。また、妥当性とはテストそのものの性質ではなく、テストが意図された使われ方をした場合の得点の解釈の質であるということも述べられている。また、妥当性の低さを「構成概念の代表性不足」と「構成概念の無関係な分散」の2つの概念から統一的に説明することが試みられている。
- 信頼性は、異なった測定機会に渡る観測値の一貫性を表す場合は、信頼性/精度 (reliability/precision) と表現することが提案されている (第2章)。これは、これまでの信頼性 (reliability) という語が、信頼性係数そのものを意味する場合とより広く測定の一貫性を意味する場合とがあったこと、また後者は本来その依拠するテスト理論や評価のされ方に関わらない概念であることから、前者と区別する必要が生じたためと説明されている。また、パフォーマンス評価やポートフォリオ評価といった標準化することが困難な評価手法について、これらの評価手法を採用することによって信頼性/精度が犠牲にされる場合でも、構成概念を過不足なくカバーできることが担保できるならば、妥当性はむしろ改善されるともされている。
- Jennings, J. L., & Bearak, J. M. (2014). "Teaching to the test" in the NCLB era: How test predictability affects or understanding of student performance. Educational Researcher, 43(8), 381-389. [Abstract]
NCLB法が施行されてのち、米国での「テストのための指導(teaching to the test)」がどのような現状にあるのかを量的に明らかにしようとした論文。ニューヨーク、マサチューセッツ、テキサスの3州のテストデータを用いた比較分析である。各州の標準テストで出題される範囲がカリキュラムスタンダードのどれくらいの領域をカバーしているのか検討したところ、例えば中学2年生の数学では、ニューヨーク州の統一テストで5割正答するには、マサチューセッツ州におけるスタンダードを4つマスターしていれば良いのに対し、テキサス州の統一テストで5割正答するためには、同スタンダードを11程度マスターしている必要があった。つまり、ニューヨーク州の数学の統一テストで出題されている領域は、相対的に狭いということになる。さらに、州の統一テストの項目は、前年度出題されたのと類似性の高いものほど正答率が高くなる傾向があった。また、この傾向は出題内容の範囲と関係があり、例えば中学2年生の数学ではニューヨーク州で特に強い関係が見られた。このことは、出題領域が予測できるような統一テストが用いられている場合は特に、教師がテスト対策の指導をしがちになる傾向を反映しているものと推測される。また、本論文では「テストのための指導」をその志向性の強さから4段階に分類することも試みている。(2014.12.19)
- Makel, M. C., & Plucker, J. A. (2014). Facts are more important than novelty: Replication in the educational sciences. Educational Researcher, 43(6), 304-316. [Abstract]
教育分野の研究では、テーマの新規性にばかり注意が向けられて、先行研究の追試が極めて少ない。また、異なる研究グループによる追試は結果の再現性が低いことも指摘されている。他の研究分野では、研究データや手続きの開示など結果の再現可能性を高める様々な取り組みがすでに行われている。新規性を追い求めることよりも、より真実に迫ることに注意を向けるべきだと著者は主張している。 (2014.10.10)
- OECD and Pisa tests are damaging education worldwide (The Guardian, May 06, 2014)
- McClarty, K. L., Way, W. D., Porter, A. C., Beimers, J. N., & Miles, J. A. (2013). Evidence-Based Standard Setting Establishing a Validity Framework for Cut Scores. Educational Researcher, 42(2), 78-88. [Abstract]
NAGBによって設定されたNAEPの到達基準は、エビデンスに欠けているとして非難された。NCLB法も、各州に弾力的な到達基準の設定を任せたために改革がうまくいかなかったとされる。本論文は、そのテストで選抜することで何を保証したいのか明確にし、その根拠となるデータを収集して分析し、その分析結果にもとづいて妥当な到達基準や合格点を設定する、というEBSS (evidence-based standard setting) の手続きが取られるべきであると主張する。EBSSによる到達基準の策定の手順が、ADP Algebra II EOC Examに即して説明されている。もちろん、これを実施するには妥当な外的基準 (大学教育へのレディネスなど) が用意されている必要がある。(2013.7.31)
- Does the Implicit Association Test (IAT) really measure racial prejudice? Probably not. (by Dr. Scott B. Kaufman, in Psychology Today) (2012.12.26)
教育政策
英語
Copyright © 2009- Taichi Okumura All rights reserved.