So-net無料ブログ作成
検索選択

パソコンの「技能(能力)」とは一律に測れるものなのでしょうか?

最近、関西在住の両親宅(要するに実家)にあるパソコンが壊れました。修理に出すとハードディスク交換になってしまい、工場出荷時のまっさらの状態で帰ってきました。うちは姉夫婦が米国にいる関係で、E-Mailは非常に重要なコミュニケーション手段なのです。ライフラインと言っても過言でありません。しかし、うちの両親は姉が数年前に米国に行くまでパソコンはほとんどさわったことがない状態でしたので、E-Mailやインターネット接続の設定、ブラウザの使い方やメールの送受信のやり方などは、私が東京から実家に帰ったときを利用してほとんどやっていました。時々、予期せぬことが起こって親が慌てて電話をかけてきても、一通りの設定が既に終わっているパソコンであったので、大抵の問題は電話で2~3分話せば解決するものでした。

しかし今回は完全に白紙の状態で、ほとんどWindowsXPとMS-Officeインストールされただけのものが帰ってきたので、さてどうやってサポートするかと困りました。修理にあたっては、購入もとの電気屋さんと色々行き違いがあった関係で、向こうの人がお詫びのしるしに直ったパソコンのインターネット接続の設定までは実家でやってくれましたが、E-Mailの設定やウィルス対策ソフトの設定まではお願いできませんでした。さらに悪いことに、ウィルス対策ソフトは90日間トライアルのパッケージがプリインストールされていたり、最初に覚えてもらったE-Mailのソフトは某国産メーカーのものをダウンロード購入したものだったために、再度ダウンロードしてインストールしなおしたり、Webからユーザ登録を再度行って利用期間を延長したりといった様々なことをやらないと元の状態に戻らないという状況なのです。とりあえずメールについてはWebからプロバイダーのメールボックスを確認できるサービスで読んでもらっていますが、ここでも「送信方法がわからない」といった話になって、電話で延々説明したりしています。

 昔、パソコンも自動車のように免許制にすべきだ、といった論調が一部にあったかと思います。インターネットが家庭にも普及して、「無免許」パソコン運転手が多数出現し、あちこちでトラブルが起こりました。ちょっとパソコンに詳しい人はいろんな家に招かれてソフトのインストールや接続の設定に大忙しになるとういものでした(実際私はそうでした)。うちの親が電話をかけてくるときなど、一番こまるのは実家のパソコンで起こっていることが目では見えないことで、向こうから口で状況を説明してもらうのですが、なんのことを言っているか分からないことが多々あります。よくよく聞いてみると、「ああオプション設定ダイアログが今なぜか出ているのだな」とか「ウィルス・チェッカーが警告を発しているようだ」といったことが分かり、対処法を説明するといった具合です。

最近では小学校でもパソコンを使った授業があるようですが、我々の時代にはそんなものはありませんでしたし、もちろん両親の時代には教室にテレビすらなかたたでしょうから、パソコンのいろはを丁寧に教えてもらったことはないわけです。そうなると、向こうがどこまで理解していて、どこから分かっていないのかが分からないので、説明にも四苦八苦するわけです。

考えてみれば、パソコンといえばWindowsやMS-Officeがデファクト・スタンダードになってからまだ10年ぐらいしか経っていないわけで、その初歩の初歩からどうやって学んでいくかの指導法(インストラクショナルデザイン)の王道はまだ出来上がっていないのではないでしょうか。自分も大学から本格的にパソコンやワークステーションを使い始めましたが、なにから学んでいったかは全く覚えていませんし、初めてパソコンをさわる人に何から覚えてもらうべきかわかりません。

さてようやく試験問題の話です。試験は「能力」を測るモノサシですが、パソコンの「技能」というのは、それではどうやって測ればいいのでしょう?ワードやエクセルの使い方には「技能」というのがはっきりありそうですが、パソコンを使った一般的なリテラシーの「技能(能力)」というのは何できめればいいのでしょう?また、各「能力」レベルにあわせて、どうやって指導されていくべきなのでしょう?うちの親の「能力」レベルがはっきりして、そこではどのような専門用語まで使った指導が可能なのかといったことが分かれば、もっと電話でも説明がしやすくなると思います。今の小・中学生にはパソコンの教科書(あるいはそれに代わるもの)があるのでしょうから、その教科書にそって指導し、「能力」を測るうえではその教科書にそって試験問題を作成すれば良さそうです。一方で、我々のように義務教育課程でパソコンを習わなかった世代には標準的な教育プロセス(インストラクショナルデザイン)が無かったので、その「能力」を一律で測るのはなかなか難しいかもしれません。このように試験問題で測るべき「能力」というのは、その対象分野においてどのような教育を受けてきた人が受験対象であるか、ということと密接に関係します。明日からは、インストラクショナルデザインと試験問題の関係について考えていきたいと思います。


将棋でも野球でも試験問題でも勝率5割には意味がある

先日、アマ将棋の瀬川さんがプロ編入テストに合格して、晴れてプロ棋士となられました。このときのテスト規程をニュースで聞いて、なるほどと思いました。それは6番勝負で3勝すれば合格、すなわち勝率5割で合格ということでした。野球でも勝率5割をクリアするかどうかが、しばしば「目標」とか「最低ライン」のような言い方がされると思います。このように勝負の世界では勝率5割に重要な意味があるようです。

実は試験問題も同じで、テスト理論の本によれば、試験で使われる問題の正答率(正解者数/総受験者数)が5割であることが「最適」であるとされています。これは、正答率(をあらかじめ計算した結果)が5割の問題に、ある受験者が正解したか、不正解であったかという「事実」が最も多くの情報量を持つとされているからです。ここで、「情報量」という言葉は、情報理論をやった方にはわかりやすいと思いますが、一般的には、なんのことか分からないと思います。「情報量」というのは、ある事実(試合結果や試験問題の正解/不正解情報など)が分かる前と後で、どれだけ情報が増えたか(不確実性が減ったか)、言い換えれば、その「事実」を知らせる情報がどれだけの重みを持っているかを、数字で表したものです。

 野球でも、日本シリーズやパリーグのプレーオフで、3勝3敗あるいは2勝2敗の状態、すなわち勝率が互いに5割の状態で迎えた最終戦において、いずれが勝つかは最大の関心事で、最終戦の試合結果という「事実」が持つ情報の重みは非常に大きいものです。このような状況では、多くの人が最終戦の結果情報を何とか得ようと、早く帰宅して中継を見たり、携帯Webサイトのプロ野球速報を頻繁にチェックしたりします。なぜなら、それまでの戦績は全くの五分なので、最終戦でいずれが勝つかは全く予断を許さない(ほとんど事前の情報量はゼロに近い)状況だからです。一方で、今回の日本シリーズのように3戦3勝したロッテが4戦目においても勝ちそうであるというのは、阪神ファンですら薄々気づいていたことでありまして、4戦目の試合結果という「事実」が伝えられても、その情報の持つ重みは、互いに5割の状態で迎えた最終戦と比べると小さいといえるでしょう。つまりロッテの勝率10割の状況下での、4戦目の試合結果が持つ情報量は、互いに5割で迎えた最終戦の結果が持つ情報量よりも少ないということです。

試験問題でも、正答率5割の問題にある受験者が正解したか不正解であったかは、その人の「能力」を測るうえでは非常に重要な情報となります。言い換えれば正解/不正解の確率が五分五分の問題に対して、その正解/不正解の「事実」が持つ情報量は最大になります。一方で、正答率9割の問題には、ほとんどの受験者が正解するわけですから、その問題にある受験者が正解したという「事実」が分かっても、その情報は、その人の「能力」を測るうえでは大した重みを持たないということです。同じように、正答率1割の問題では、ほとんどの受験生は不正解になるのがあらかじめ分かっていますから、その問題に対する正解/不正解の「事実」から得られる情報量は小さくなります。

試験は、1問1問の正解/不正解の積み重ねで、受験者の「能力」を判定しますから、個々の問題の持つ情報量はできるだけ大きいほうがいいわけです。資格認定試験の場合、多くの試験がある一定のところで合否ラインを設けます。できるだけ正確に合否判定ができるように、あらかじめβテスト(事前確認テスト)を行うのが一般的ですが、ここで正解率が5割付近になった問題を多く実際の試験で出せば、その結果得られる受験者の「能力 」に対する情報量も多くなり、より適切に「能力」および合否の判定ができるといことになるわけです。

今回、プロ棋士入りを果たした瀬川さんの目下の勝率は5割ですから、この次の対局で瀬川さんが勝つか負けるかは、大きな情報量を持つといえるでしょう。今後の瀬川さんの活躍に期待しましょう。


弱点補強を前提とするアセスメント(試験)システムはまだ無い?

昨日、試験結果から弱点診断が行われて、補修教材が提案されるといいというお話をしました。このような教材は今や、紙のテキストブックとして提供されるだけでなく、Webからオンラインで、e-Learning教材として提供されてくるのが便利かもしれません。最近では大学でも積極的に e-Learning を取り入れようとしています。そこでは、BlackboardWebCTmoodleといった、コースマネジメントシステムが多く利用されていますが、これらのシステムにはアセスメント機能としてアンケートや小テストを行う機能もついています。このように、e-Learning を前提として、その学習効果を測るために試験を実施する例は多いのですが、逆に試験(アセスメント)が先にあって、この結果から学習を進めようという動きはどのぐらいあるのでしょうか?

というような疑問をもって少しWebの情報を調べてみると、「テスト指向ラーニングを簡単かつ素早く実現する」という謳い文句でテストオーサリングツール「 楽々てすと君 」といったものも売られていることがわかりました。しかし、中身を読んで見ますと「一問ずつ判定できる"ドリル型"、合格するまで間違えた問題を繰返し実施できる"トレーニング型"など、目的に応じてテスト形式が選択できます。」とあるので、昨日から考えているような「治療(弱点補強)を前提とするアセスメント(テスト)」とはちょっと違うようです。また、「WEBベースの試験機能を提供」する、「未来ドリル」というシステムもあります。この特長としては、「全ての受験者の成績はデータベースに蓄積され、Web上でいつでも自分の成績を確認することができます。」ということが挙げられていますが、これはあくまで受験者の自己診断であって、弱点診断をして補強教材を提供するような流れではないようです。また最近では、インターネット・ベース・テスト (IBT) という言葉もしばしば聞かれるようになってきましたが、このようなIBTシステムも、「IBTサービスの簡便性は、期末試験等はもちろんのこと、スキルチェックや本番に備えた模擬試験の実施にも、有効なツールとしてご利用いただけます。」といったことで、その簡便性から、試験を手軽に作成できることは謳っていても、試験後の弱点補強(治療)教材へのアクセスポイントについては言及されておりませんね。

 「試験結果から弱点診断」についての言及として一つみつけたのは、UMLモデリング技能認定試験に関して、「先にテストに挑戦して自分の能力を確認し、それに応じた範囲のみを学習することも可能です」というものです。しかしここでも、試験結果から弱点を診断するのは受験者自身のようです。ちょっと別の視点では、アルクさんが、「TOEIC(R)730点攻略ゼミ~Listening編~」などのオンラインセミナーをやっているようです。ここではTOEIC試験が先にあって、これに合格するための通信教育(弱点補強も含む?)ということで、本ブログで考えているような試験とラーニングの融合に近いような気もしますが、学習のカリキュラムをカスタマイズして提供するようなことはしていないようです。

さてe-Learning については、近年、日本でもかなり話題になってきており、教材(コースウェア)作成における標準規格SCORMなどを利用した教材の流通、共有なども促進されておりますが、同時に、「e-learning時代のテストスタンダード」が議論されていたり、WebCTのユーザ会がテストをテーマに開催されたりするように、そこでどのように試験を実施していくか、教材と試験の関係をどう位置付けるかについての問題意識は徐々に高まっているようです。

 


コーチング的な要素を持った資格認定試験があってもいい

先週CASECのお話をした後に、「せっかく能力を診断してもらったのですから、お医者さんが診断のあとで薬を出すように、私に必要なサプリメント教材を教えてくれるとありがたい」と申しあげました。この考え方は、今後、より良い資格認定試験を考えていくうえで重要だと思っています。受験者の弱点を見つけて、それを根拠にふるい落とすための試験ではなくて、弱点が見つかったらそれを直していけるような道筋を示す、コーチング的な要素を持った資格認定試験があってもいいということです。

なぜこのようなことを考えるようになったかというと、先月末10/29(土)に開催された日本テスト学会第5回研究会において、東大の丹野先生の講演を聞いたのがきっかけです。丹野先生は、臨床心理学の立場から、治療と心理テストの関係についてお話をされたのですが、イギリスにおいてはアセスメント(テスト)は治療を前提として行われるということでした。つまり、テストのためのテストは無駄で、テストは治療に役に立たなければ意味が無い、ということです。

この考え方には少々感銘をうけました。私のもともとの専門は視覚聴覚の心理学なので、このような臨床心理学の現場のお話を聞くのはほとんどはじめてだったのです。なので実際この考え方の背景や位置付けを十分知っているわけではありませんが、丹野先生のお話によれば、日本における臨床心理学の世界では「テストは治療のためにある」という考え方はあまり浸透していないということでした。

もちろん心理テストと資格認定試験を同列には語れないと思いますが、あえて言いますと、資格認定試験の世界でも、試験実施関係者の試験の意義に対する理解では、同じような状況があると思います。日本では試験というと人を篩いにかけて落とすためのものという認識が今でも強いのではないでしょうか?一方で、試験は弱点を見つけて直すために(まずは現状の「能力」を測ってみるために)あるのだ、という考え方はあまり浸透していないと思います。本ブログでテーマとしている、試験は成長(能力)を測るためのモノサシであって、試練(ハードルのようなもの)ではない、ということにも通じると思います。

CASECを開発した、教育測定研究所さんでも、おなじようなことをおっしゃっています。 ここではテストの役割が「自分の能力を客観的に把握するためのツール」へと変わってきている、とされておりますが、この考え方をさらに進めて、能力を客観的に把握したら、弱点を補強する改善アクションへとダイレクトにつながるようにしていきたいということです。多くの資格認定試験は前提となる知識範囲があり、それにそってテキスト販売やセミナーが開催されています。それらの教材で勉強してから、試験を受けるのが普通ですが、受けた後、スコアレポートを見て終わりではなく、弱点補強の補修テキストや(e-learning等を応用した個別の)セミナーなどが案内されると便利だとは思いませんか?そのようなことをCASEC受験と先日のテスト学会の研究会を通して感じました。

 

 


英語コミュニケーション能力判定テストCASECを受験してみました

先日ご紹介したCASEC-Gの親玉である、CASEC受験してみました。CASECは「英語コミュニケーション能力判定テスト」なのですが、インターネット経由で(受験環境が許せば)自宅で手軽に受験できるところが最大の売りでしょう。私も、夜遅い時間に、子供が寝静まった後で受験してみました。所要時間は30-40分で、3時間程度かかるTOEFLなどと比べるとかなり手軽に英語技能をチェックすることができます。

この試験の詳しい内容はCASECのホームページをみていただけば分かるので詳しくは申しあげませんが、CASECは本ブログで理想とするところの「視力検査のような試験」にかなり近いものです。それは、はじめに出題された問題が(不正解となった時など)個々の受験者にとって難しい(難易度が高すぎる)と判断された場合、次に出題される問題はより難易度の低い問題が出題され、逆に先に出題された問題が受験者にとって易しいと判断されると、次に出題される問題は、より難易度が高いものへとインタラクティブに出題される問題が調整されるからです。つまり、受験者の能力によって出題される問題が変わってくるということです。

この仕組みを「アダプティブ・テスト」などと呼ぶのですが、これはまさに視力検査の要領と同じです。視力検査では、はじめに提示されたランドルト環の切れ目の方向を正しく言い当てられなかった受験者に対しては、次はより易しい、もっと切れ目の幅が大きいランドルト環が提示されます。これも不正解となった場合、さらに大きいランドルト環へと移っていきます(最後は前に進んでいきますね)。逆に、はじめに提示されたランドルト環で正解した場合は、より難しい、もっと切れ目の幅が小さいランドルト環が提示されます。このようにして受験者の能力、すなわち「視力」の限界点を判別して、検査結果の数字で出ます。CASECも同じように、四つのセクション(語彙の知識、表現の知識、リスニングによる大意把握、具体情報の聞き取り能力)ごとに、それぞれ15問ないし10問の問題が提示され、その結果各セクションごとの能力が数字で出ます

私の結果を公開すると英語力が露呈してしまうので、それは遠慮させていただいて、受けてみた印象だけ申しあげます。前の問題に自分が正解したか不正解であったかは教えられない仕組みですが、次に提示された問題が、前の問題より易しいと感じた場合は、前の問題に不正解だったのでレベルを下げられたのかなと思い、ちょっと悲しげになります。逆に、わりと回答に自身がある場合で、次に提示された問題がより難しくなったと感じると、ちょっとうれしくなります。このようにCASECのようなアダプティブ・テストでは、自分の正解/不正解がリアルタイムで透けて見えてくるので、なかなか一喜一憂しながら受験していくことになります。このあたりは視力検査で、次により大きいランドルト環を提示されてしまい、ちょっとがっかりするのと同じ感覚ですね。

各セクションは15問程度なので、試験自体はわりとすぐに終わってしまいます。最後に出るスコアレポートには、今後鍛えなおすべき弱点などのコメントも入りますので、これは自己診断型のテストとしては重宝するでしょう。また、TOEFLやTOEIC、英検と比較して「目安」の数字/ランクの予測値が出ますので、今後の英語学習の努力目標設定にも役立つでしょう。あとさらにあればいいなと思ったのは、「弱点」を指摘した後で、ではどんな教材で鍛えなおすのがいいのかをリコメンドしてくれることですね。私の場合「語彙力をより豊かにするには、、、新聞に出てくるような頻度の低い単語も身につけていきましょう。」といたコメントが入っていたのですが、だからといって今日から英字新聞を取り始めるのも手数です。そうではなくて、「あなたにぴったりな語彙力強化教材はこれです!」といったように紹介してくれるといいと思います。せっかく能力を診断してもらったのですから、お医者さんが診断のあとで薬を出すように、私に必要なサプリメント教材を教えてくれるとありがたいですね。


最近の視力検査はCマークではなくてEマークが出されるんですね

今朝、渋谷のとあるクリニック健康診断を受けてきました。驚いたのは、視力検査のときに提示されたマークはあのランドルト環(Cマーク)ではなく、アルファベットの大文字Eでした。「Eの切れている方向を答えてください」と言われ、自動車免許センターにあるような、箱の穴から中を覗き込むタイプの検査機で測定されました。

片方の目で3回ぐらいしか試行(問題)がありませんでしたので、回数の面だけで言うと検査結果の「信頼性」に不安が残りますね。実際には、小さいほうから「これはどうですか?」と聞かれて、「わかりません」と答え、次に「これはどうですか」と聞かれて、また「わかりません」と答えました。次に提示されたものについては、ぼんやりとしかEの切れ目が見えなかったのですが、ヤマを張って答えたら、それが当たっていたようで、そこで片方(右)の目の検査は終わりました。結果の視力は右0.8と出ました。このとき、穴から覗いた先には、万国式試視力表のように、Cマークならぬ、Eマークが立て横に大きいものから小さいものへと順にならんでおりました。それを、小さいほうから順に指定されて、答えていったのですが、「わかりません」と言うたびに、あたりまえですが、だんだん大きいEマークの方に進んでいきました。そして二つ進んだところで終了となりました。

測定結果の「信頼性」に向こうが自身をもっているならいいのですが、はたして「モノサシとしての測定結果の再現性」はあるのでしょうかね?あの直後に、仮に再度別のパターンが並んでいる万国式試視力表を提示されて測定をやり直しされたら、今度は0.8のEマークのところで不正解になって、次の0.7のEマークで正解したかもしれません。これだと測定結果は1回目0.8、2回目0.7となってしまい、再現性は低いということになります。まあ、視力がものすごく悪いわけでもないし、他の健康診断の人たちも順番を待っていますし、なるべく短時間で視力の目安がわかればいいのでしょうが、もう少し丁寧に測らないと、せっかく「妥当性」は高いのですから「信頼性」が下がってはもったいないと思いました。

視力検査が終わってから、落ち着いて考えたのですが、自分は検査がはじまってすぐの、ぼやけて見えないEマークを見ているときは、それがEであるかCであるかすら分からなかったので(過去の経験から)無意識にCマークの切れ目を探していたように思います。その後、より大きいEマークを示されたときに、「あ、そういえばCじゃなくてEだった」と思いました。ひょっとすると、このような「過去の経験」が測定の誤差要因となっていたかもしれないと思いました。つまり、最初からCではなくEマークであると、強く意識していたら0.8よりも、より小さいEマークで正解できたかもしれません。

資格認定試験においても、問題文の書き方がややこしかったり、これまでの経験からくる「暗黙の常識」がそこでは変えられていたりして、問題の意味を誤解したりすることがあると思います。結果として正解できるはずの問題に不正解になると、このようなファクターも「能力」測定の誤差として総得点に跳ね返ってくることになりますので、要注意なんですね。


146試合も戦えば誤差の影響は小さくなって本来の「能力」で差がはっきり出ます

昨日プロ野球セリーグの成績について、セパ交流戦とレギュラーシーズンの結果の「信頼性」、すなわちセリーグの各チームの「能力」を測るうえで、(セパ交流戦とレギュラーシーズンという)二つの測り方の「モノサシとしての測定結果の再現性」を数値だけ提示いたしました。この結果では、セパ交流戦は-0.07、レギュラーシーズンは0.69という値が出ましたが、さてこれはどういう経緯で算出され、その数字はどいういう意味を持つのでしょうか?

昨日、上記数字のクロンバックのα信頼性係数は、最大値が1で、値が大きいほど「信頼性」が高いということだけ申しあげましたが、つまりはレギュラーシーズンの方が結果の「信頼性」は断然高いということになります。ここで計算のプロセスについて説明します。交流戦については、以前セパ交流戦を題材に、セリーグの各チームの「能力値」を算出した時と同じ基準で、受験者としてのセリーグのチームが、試験問題としてのパリーグのどのチームに勝ち越し(試験問題でいえば「正解」)して、どのチームには負け越し(不正解)したのかについての情報を元にします。このとき、以前と同様に、パリーグの各球団との6回戦で3勝以上した場合を便宜的に「正解(1)」とし、逆に勝ち星がこれに満たない場合を「不正解(0)」としました。

レギュラーシーズンについても、同じようにセリーグの他のどのチームに勝ち越し(正解)し、どのチームに負け越し(不正解)したのかを用います。ここでは他球団との22試合中に11勝すれば便宜的に「正解(1)」とし、これに満たない場合「不正解(0)」とするのですが、問題は交流戦と違って全てのセリーグのチーム(受験者)が全て同じ対戦相手と戦う(同じ試験問題を解く)わけではないということです。レギューラーシーズンではセリーグの各球団は自分自身以外の5チームと戦うわけで、もちろん自分自身とは戦えない(自分自身という問題は解けない)わけです。テスト理論では、基本的に全ての受験者が同じ問題を解くという前提を必要とするので、ここでもう一つ便宜的に自分自身との対戦についても勝ち負け(正解/不正解)を出しておかないと、交流戦と比べるうえで不都合が生じます。そこで、自分自身との対戦は負け越し(不正解)としておきます。こうした時点で、科学的には正しくないことをやっていることになりますが、ここでは分かりやすさを優先しておりますので、ご容赦ください。

 

ここで、クロンバックのα信頼性係数の式を(辛抱して)見てみると、Sjの2乗の和とSyの2乗の比をとっていることがわかります。「Sjの2乗の和」というのは、上記の表における、対戦相手別の勝敗から計算した(列ごとの)「分散」の和です。「Syの2乗」は合計点(右端の列)の分散を表します。つまり、各対戦相手ごとの勝敗のばらつきを総合したものが、総合点のばらつきよりも大きい場合に信頼性係数は小さくなることがわかります。交流戦、レギューラーシーズンいずれも対戦相手(列)ごとの分散にはそれほどの差はありませんが、合計点の分散は交流戦が1.000で、レギュラーシーズンが2.889となっており、かなり差があります。ここがこの二つの「能力」測定手法の「信頼性 」の差を生んだということです。

交流戦の合計点をみると、パリーグの各球団と6試合した結果は、広島以外あまり差がないので、分散も小さくなっています。一方で、レギュラーシーズンでは、各球団と22試合戦った結果、総合点に差が出て分散が大きくなっています。つまり、交流戦のような「短期決戦」では本来の「能力」以外の誤差要因で合計点に差がつかなくなりましたが、レギュラーシーズンでは、146試合戦ううちに、本来の「能力」でだんだん差が開いてきて、最終的な成績(合計点)の「信頼性」はセパ交流戦よりもかなり高いものになったということです。

先に申しあげたとおり、この結果は科学的に正しいとはいえません。しかし、レギュラーシーズンを制してリーグ優勝を果たした阪神タイガースは、たとえ日本シリーズという「短期決戦」で本来の「能力」が出せなくても、2005年セリーグ・チャンピオンという結果に対する「信頼性」は高いものです。これは誇っていいということになりますね。来年こそは目指せ日本一!

 


セパ交流戦よりもレギュラーシーズンのほうが「信頼性」は高い

先週、試験問題の品質を語るうえで重要な指標となる「信頼性」について、今日は毎度の、プロ野球の例で再度説明を試みようと思います。

プロ野球の場合、ペナントレースでもセパ交流戦でも、複数の対戦相手に、複数回対戦しますが、最終的には各試合の1勝1勝の積み重ねが成績となります。これは、資格認定試験における、1問1問の正答の積み上げの結果から「能力」を判定する仕組みと同じですね。プロ野球において、結果の「信頼性」を確保するために必要となる前提は、各1試合1試合の勝敗は、常に同じ「能力」の発揮度合いと、対戦相手(を倒すため)の「難易度」で決まるかたちになっていることです。この前提が成り立てば、「能力」が対戦相手チームの「難易度」を上回っている場合、普通勝てるはずです。

しかし実際のところは、同じ相手と複数回対戦してみると、勝ったり負けたりします。ではでは、プロ野球チームでいうところの、「能力」の中身とはいったいなんでしょう?よくプロ野球の試合結果が出た後の選手や監督の談話で、「投打ががっちり噛み合って快勝でした。」といったことを言っています。野球の場合、投手が悪ければ大抵負け、投手が良くても打線がつながらなければ勝ちにつながりません。つまり投手力と打撃力、両方備わったチームでなければ他よりも多く勝って優勝することはできないわけで、優勝するような「能力」の高いチームというのは、概してチーム防御率もチーム打率も1位か2位に入っているものですよね。 だとすると「投打の噛み合わせ」という一つの「能力」の発揮度合いと勝敗は密接な関係があるはずです。

このことからして、防御率もチーム打率も上回るチームAが、いずれも下回るチームBと対戦した場合、すなわち「能力値」が対戦相手(チームB)の「難易度」を上回るチームAが、その相手であるチームBと対戦した場合に、普通に「能力」が発揮されればチームAは勝てるはずです。しかし試験問題についても、同じ「難易度」の問題を複数解いた場合、必ずすべての問題に正解あるいは不正解するわけではないのと同じく、チームAとBが複数回対戦した場合に、全ての試合で必ずAがBに勝つとは限りません。試験問題と同様に、本来の「能力」とは別の、メンタル面など、なんらかの要因で負けたり、逆に、本来の「能力」を十分発揮できなくても、相手のエラーや天候など、なんらかの好都合で勝利する場合があります。

セリーグのレギュラーシーズンであれば他のセリーグの各チームとそれぞれ22試合戦います。一方で、交流線ではパリーグの各チームとそれぞれ6試合しか戦いません。当然ながら、交流戦の方が試合数が少ない分、本来の『能力』とは別のなんらかの要因」や「なんらかの好都合」、すなわち「誤差」に支配された試合で、「能力値」が相手の「難易度」を上回るチームがなぜか負ける、あるいはその逆の結果が起こるといった波乱要因の影響が大きくなります。結果として、最終的な勝ち星の誤差の影響による変動幅も、試合数が少ない方が相対的に大きくなります。

 もう少し直感的に言えば、セパ交流戦(や日本シリーズ)のような「短期決戦」では、試合の途中で霧がかかってコールドゲームになるとか、片一方のチームがたまたま試合間隔があいてしまったために初戦で本来の「能力」を発揮できないといった誤差要因が、勝敗に大きく影響を与え、結果として優勝の行方すら左右します。しかしレギュラーシーズンのような各チームと22試合もする場合には、シーズン開幕当初は本来の「能力」を発揮できないような場合があったり、降雨コールドの試合が何試合かあったとしても、それは146試合の中の数試合でしかないので、このような誤差要因が総合成績に与える影響は小さくなります。

実際に2005年のセリーグの成績で、セパ交流戦とレギュラーシーズン(交流戦は除く)の信頼性係数(クロンバックのα係数)を比較してみると、セパ交流戦は-0.07、レギュラーシーズンは0.69となります。ここで、クロンバックのα係数は、最大値が1で、値が大きいほど「信頼性」が高いということになります。

さてさて、今日はずいぶん長文になってしまったので、この値が出てきた経緯など詳しい説明は明日にしたいと思います。


「能力」を常に同じ基準で測れる試験問題がそろえば「信頼度」は上がるはずです

試験問題の品質を語るうえで重要な指標となるのが「信頼性」の数値なのですが、昨日お話したように、同じ受験者に複数回同じ試験を受けてもらって、結果に再現性(つまり信頼性)があることを証明するのは困難なことです。そこで、1回限りの試験で「信頼性」の数値を出すのが一般的なのですが、算出式はいくつか種類があります。そのなかでも一番利用頻度が高いと思われるのがクロンバックのα係数というやつです。

資格認定試験では、なにがしかの「能力」を測って、その「能力」が一定レベル以上であれば資格認定するわけですが、その「能力」というのはほとんどの場合、50問とか一定数の試験問題を受験者の皆さんに回答してもらって1問1問の正答の積み上げの結果から判定されます。過去にお話してきたように、できれば視力検査のごとく、ある「難易度」の問題(視力検査であれば一定の切れ目の幅を持つランドルト環)まで正解できれば、その人の「能力値」(視力検査であれば「視力」)はいくらというように限界値を測りたいわけです。ここで重要になるのが、出題された問題の1問1問は測りたい「能力」を常に同じ基準で測れているのか、ということです。視力検査の場合、一連の測定の過程で、大小、大きさの違うランドルト環しか提示しないとすれば、その違いは「視力」という「能力」に直結した、「ランドルト環の切れ目の幅」だけが個々の問題の「難易度」の差を生みます。これであれば、出題された1問1問は「難易度」が違うだけで、常に同じ基準で「能力」を測っているということになります。資格認定試験の場合も、できればこのように一定の基準に沿って様々な「難易度」の問題を出題し、「能力」を測定していきたいのです。そうすれば、同じ「難易度」の問題においては、正解/不正解の再現性は高まるはずで、結果として試験全体として、「モノサシとしての測定結果の再現性」すなわち「信頼性」は高まります。

とはいえ、同じ「難易度」の問題を複数解いた場合でも、必ずすべての問題に正解あるいは不正解するわけではなく、(本来の「能力」とは別のなんらかの要因で)不正解になったり、(なんらかの好都合で)正解できたりする場合があります。ですから、たった1問の正解/不正解で合否が決まることがないのが普通です。一定の「難易度」を持った問題を複数、様々な「難易度」において用意し、一つの試験問題を構成することで、「信頼性」の高い資格認定試験をつくろうとするのです。

さてさて上記、「本来の『能力』とは別のなんらかの要因」や「なんらかの好都合」というのは、いわゆる「誤差」と呼ばれるものです。「誤差」が多い分だけ「信頼性」係数は下がります。「誤差」を無くす一番の解決策は、試験問題自体から、このような「誤差」を生む要因を徹底的に排除することですが、それはなかなか難しいものです。現実的な対策としては、このような「誤差」による各問題の正解/不正解のばらつきを、総合点で吸収してしまうことです。問題数が少なければ少ないほど、「なんらかの好都合」で正解した場合の1点のインパクトが総合点に大きく影響します。逆に、ちょっとしたミスなど「本来の『能力』とは別のなんらかの要因」で不正解となってしまった場合の失点は、総合点に大きく響きます。このような影響をできるだけ小さくする一番の近道は問題総数を増やすことです。一般的に、問題数が増えれば「信頼性」係数は上がると言われています。そのようなわけで、国家資格試験を中心に、問題数がかなり多い試験が多数みられるのかもしれません。問題作成を担当している方々も、問題数を多くしたほうが、結果の「信頼性」が高まることを実践的に知っておられるのでしょう。

 しかし、、、やっぱり難しい説明になってしまった感じです。来週はまたプロ野球の例を用いて信頼性係数の実際の計算結果で、もっとわかりやすい説明を試みたいと思います。


阪神は負けましたが、日本シリーズという仕組みの「信頼性」は高そうです

阪神はあっさりと負けてしまい、今年のプロ野球は全日程が終了してしまいまいました。4連敗は歴史的大敗といえますが、せめても最後の試合が1点差ゲームであったのは救いです。昨日の第4戦のような戦い方を阪神が第1戦からやれていれば、少なくとも4連敗は避けられたかもしれません。

さて仮に、今日からもう一度阪神にチャンスをやるということで、日本シリーズを第1戦からやり直したとすると、結果は変わってくるでしょうか?先週サッカー・ワールドカップの決勝トーナメントを例に「テストの信頼性」のお話をしましたが、もし仮に今度は阪神がロッテに勝ち越して日本シリーズ制覇したとすると、日本シリーズという仕組みは、(試験になぞらえると)「モノサシとしての測定結果の再現性」が低いということになります。つまり「信頼性」が低いということになりますね。ただ現状ではロッテの「難易度」はセパ交流戦の時よりもかなり高くなっており、阪神の「能力値」は交流戦当時のレベルには(昨日の試合を見た限り、特に打線は)戻っていないと思われますので、おそらく、今日から日本シリーズをやり直してもまたロッテが優勝することでしょう。ということで、日本シリーズの結果はサッカーワールドカップ・決勝トーナメントの結果よりも「信頼性」が高いということがいえそうです。

 資格認定試験についても、仮に同じ人が時間をおかずに、同じ試験を複数回受験したとして、その結果がほぼ同じになれば(すなわち再現性が高ければ)、その試験は「信頼性」が高いということになります。しかしながら、プロ野球と違って資格認定試験の場合、同じ試験を同じ人に複数回受験してもらって、試験問題の「信頼性」を証明するというのはかなり難しいです。なぜなら、一度解いた問題というのは、一般的に、ある程度問題の内容を(短期的に)記憶しますから、あまり時間をおかずに再受験すれば、2回目のほうが少なくとも回答所要時間の面では有利になるはずです。また、1回目の試験結果を正解も含めてレポートしてから2回目を受験させれば、学習効果がほぼ確実に2回目の試験に反映されますから、普通は2回目の方が成績が良くなるはずです。

 例えば視力検査であれば、何回受験しても、検査手続きが適切であれば「記憶」や「学習効果」を発揮して、2回目以降良い成績を出すことは難しいですし、視力は練習で良くなったりはしないので、同一受験者の複数回受験で「信頼性」を(統計的に)証明することは比較的簡単です。しかし、資格認定試験の場合は、同じ人に複数回受験してもらうこと自体、受験者に与える負荷、記憶、学習効果の排除など様々な課題があり、この結果を多数あつめて「信頼性」を定量的に証明することは難しいです。

テスト理論的には、1回の試験結果だけからこの「信頼性」を算出する式がありますので、多くの場合これを利用します。明日からはそのあたりを説明していこうと思いますが、これをわかりやすく、身近な話題をおりまぜてやるのはなかなか難しいので、さてどうしたものか。プロ野球も終わってしまったし。


この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。