測定は重要だが、過剰な測定は破壊的な問題を引き起こす

ダイヤモンド社と共同で行なっていた「海外投資の歩き方」のサイトが終了し、過去記事が読めなくなったので、閲覧数の多いものや、時世に適ったものを随時、このブログで再掲載していくことにします。

今回は2021年4月16日公開の「「測定され、報酬が与えられるものはすべて改竄される」 測定への過剰な執着が生む「測りすぎ」の時代の弊害とは?」です(一部改変)。

eamesBot/Shutterstock

****************************************************************************************

近代ヨーロッパの知性史、資本主義の歴史を専門とする歴史学者ジェリー・Z・ミュラーが『測りすぎ なぜパフォーマンス評価は失敗するのか?』( 松本裕訳/みすず書房)を書いたのは、私立大学で学科長を務めた経験からだった。

アメリカの大学は10年ごとに「米国中部高等教育委員会」のような認定組織によって評価を受けなければならないが、その測定基準を増やすようにという報告書が発表された。それによってミュラーは、「もっと多くの統計的情報を求めるアンケート」に応えるため、研究や教育、職員の指導といった仕事に使える時間を取られてしまった。そればかりか、卒業生の実績を評価する新しい尺度のために、それまで以上に多くのデータ専門家を雇わなければならなくなった(その後、評価専門の統括責任者を任命するまでになった)。

これだけの努力とコストをかけたにもかかわらず、大量のデータの大部分はこれといった使い道もなく、実際、誰も見ていなかった。「実績の文書化という文化がいったん定着してしまうと、学科長たちは一種のデータ競争のようなものに巻き込まれていった」のだ。

この体験をきっかけに、ミュラーは「時間と労力の無駄遣い」を生み出す力についてもっと深く調べてみようと思った。本書の原題は“The Tyranny of Metrics(測定の専制)”で、「今の時代に広まっている、そしてますます多く組織に浸透しつつある実績の測定とそれに対する報酬という文化」がテーマだ。

救急医療の待ち時間に厳罰を科すと、患者が救急車で放置される

ミュラーは「測りすぎ」の時代を象徴するものとして、HBOの連続ドラマ『ザ・ワイヤー』を取り上げる。ボルティモア(メリーランド州)を舞台に、警察、学校、市政府、報道機関などの仕組みや機能不全を描いて大きな反響があったという。

ドラマでは、警察署長は解決件数、麻薬関連逮捕件数、犯罪率などの数値目標を達成するために、効率を犠牲にするさまざまな手段を用いる。政治家は、警察が犯罪を抑制できていることを証明する数字を要求する。すると警察は、自分たちの管轄内で殺人事件が起こるのを極力避けるようになる。こうして、「麻薬密売ギャングが廃屋に死体を捨てていることが判明すると、殺人課の刑事たちは死体の発見を阻止しようとする。殺人解決率の指標である「検挙率」が下がるからだ」という本末転倒な事態になる。

同様の混乱は学校でも起きている。貧困と薬物乱用、家庭崩壊に苦しむ地域の中学校では、生徒の成績が悪く、テストの点数が上がらなければ学校が閉鎖されるおそれがある。そこで英語の読解と作文の共通テストが行なわれるまでの6週間、教師たちは授業のすべての時間をテストの補習に充て、ほかの科目は完全に無視するよう指示される(この戦略は婉曲に「カリキュラム調整」と呼ばれる)。組織の存続がかかっているため、数値目標の達成以外はどうでもよくなってしまうのだ。

同じような実態は、イギリスの医療ドラマシリーズ『ボディーズ』でも描かれている。着任したばかりの外科医が複雑な併存疾患を抱えた患者を手術して死なせてしまうと、ライバルの外科医から、「上級外科医というものは、自分の上級能力を脅かしそうなどのような状況も、上級の判断力を使って避けるものだ」とアドバイスされる。

実績にマイナスの影響を及ぼしそうなリスクを避けるのは「上澄みすくい(クリーミング)」という古典的戦略で、医療現場では、成功率を維持するために難しい症例を避けることが常態化している。

これはたんなるフィクションではなく、イギリスでは保健省が、救急医療への苦情に対処するため、待ち時間が4時間を超えた病院に罰則を科すことにしたところ、患者を救急車に乗せたままにして、4時間以内に確実に診察できると病院職員が判断するまで待たせる病院が現われたという。

このようなことが起きるのは、わたしたちが「測定された説明責任の時代」「測定された実績に対する報酬の時代」に生きているからだとミュラーはいう。「説明責任は本来、自分の行為に責任を負うという意味のはずだが、一種の言語的トリックによって、説明責任は標準化された測定を通じて成功を見せつけることに変わっていった」のだ。

もちろんミュラーは、アカデミズムに身を置く者として、科学や統計を否定するわけではない。「個人的経験や専門知識に基づく判断よりも標準化された測定に基づく意思決定のほうがすぐれている状況は数多くある」ことも認めている。

だが、「判断=主観的で利己的」、「測定=確実で客観的」とする一種の善悪二元論にとらわれ、経験に基づく判断をすべて標準化された測定で置き換えようとすると、さまざまな問題が噴出する。これが測定への過剰な執着、すなわち「測りすぎ」だ。

「私たちは測定の時代に生きる宿命にあるが、同時に測定ミス、過剰測定、誤解を招く測定、非生産的な測定の時代にも生きている」のだ。

測定され、報酬が与えられるものはすべて改竄される

「測定基準への過剰な執着(測定執着)」は、次のような(誤った)三段論法によって正当化される。すなわち、「測れないものは、改善できない」「測定されるものは実行される」「測定できるものはすべて改善できる」。

このうち最初(大前提)と2つ目(小前提)は正しいとしても、最後の結論(測定できるものはすべて改善できる)には根拠がない。

しかしいまではこれが常識となり、すべての組織はアカウンタビリティ(説明責任)を求められるようになった。accountabilityには、「責任をとる」と「カウンタブルである(カウントできる)」という二重の意味がある。成功をカウントするときに重要になるのが「透明性」で、「可能なかぎり多くの情報を明らかにし、可視化する」ことだ。

「説明責任」と「透明性」によって異形のものとなった測定執着の病理を、ミュラーは次の3つにまとめている。

・個人的経験と才能に基づいておこなわれる判断を、標準化されたデータ(測定基準)に基づく数値指標に置き換えるのが可能であり、望ましいという執念

・そのような測定基準を公開する(透明化する)ことで、組織が実際にその目的を達成していると保証できる(説明責任を果たしている)のだという信念

・それらの組織に属する人々への最善の動機づけは、測定実績に報酬や懲罰を紐づけることであり、報酬は金銭(能力給)または評判(ランキング)であるという信念

アメリカの社会心理学者ドナルド・T・キャンベルは、「定量的な社会指標が社会的意思決定に使われれば使われるほど、汚職の圧力にさらされやすくなり、本来監視するはずの社会プロセスをねじまげ、腐敗させやすくなる」と述べ、のちに「キャンベルの法則」と呼ばれるようになった。

イギリスの経済学者がつくった「グッドハートの法則」では、「管理のために用いられる測定はすべて、信頼できない」とされる。これは、「測定され、報酬が与えられるものはすべて改竄される」ということだ。それにもかかわらず測定に執着することには、どこか「カルト的な要素」があるとミュラーはいう。

「測定の専制」に直面したとき、それにどう対処しようとするのか。これをミュラーは7つにまとめている。

(1)一番簡単に測定できるものしか測定しない
もっとも簡単に測定できる要素に焦点を絞ることで問題を単純化する。求められる成果が複雑なものなのに、簡単なものしか測定しない。

(2)成果ではなくインプットを測定する
努力の結果を測定するのではなく、プロジェクトに投入された金額やリソースを測定する。

(3)標準化によって情報の質を落とす
本来の概念、歴史、意味をはぎとって無理やり比較可能にする。

(4)上澄みすくいによる改竄
もっと簡単な目標を見つけようとしたり、それほど困難ではない状況の顧客を好む。これによって成功の達成が難しい事例は排除される。

(5)基準を下げることで数字を改善する
高校や大学では卒業率の目標達成のために合格点を下げている。

(6)データを抜いたり、ゆがめたりして改善する
警察は重罪を軽犯罪として記録したり、通報された犯罪をそもそも記録しなかったりすることで犯罪率を「引き下げる」ことができる。

(7)不正行為
測定の結果が重大なほど不正の発生頻度が増える。「落ちこぼれ防止法」で生徒のテストの点数によって学校の存続が左右される状況になったとき、多くの都市の教師や校長が生徒の解答用紙の答えを差し換えるという行為に及んだ。

どうだろう。同じような経験をしたひとも多いのではないだろうか。

教育に予算を投入すると格差が拡大する

ミュラーは「測りすぎ」のケーススタディとして、教育、医療、警察、軍、ビジネスと金融、慈善事業と対外援助を取り上げている。いずれも過剰な測定執着によって本来の目的が歪められたり、組織が機能不全に陥ったりしているが、ここではそのなかから、アメリカの教育現場でなにが起きているのかを見てみよう。

アメリカではリベラルな知識人から保守派の政治家まで、「もっと多くの国民が大学に行くべきで、そうすれば生涯賃金が増えるだけでなく、国の経済成長も生みだすことができる」との信念が共有されている。実際、大卒と非大卒では生涯収入に2倍ちかくの差があり、これが拡大する一方の経済格差の背景にある。

「高等教育こそがゆたかさ(幸福)への道」という教育神話によって、大学が熾烈なランキング競争に放り込まれただけではなく、「大学に行ける備え」ができていない若者までが四年制大学への進学を望むようになった。ACT(American College Test)は英語、数学、読解、化学の4科目からなる適性試験だが、2016年には、受験した高校生の3分の1が、4科目のどれひとつとして基準に到達しなかった。3科目以上で基準をクリアしたのは38%で、「大学に行きたいと思う生徒のほとんどは、大学に行けることを証明できるだけの能力がなかった」とされる。

いまでは多くのコミュニティ・カレッジ(公立の二年制大学)や四年制大学に「開発」コースが設けられ、高校で習ってきたはずの内容を教えている。コミュニティ・カレッジに入学する学生の3分の1が読解の開発コースに、59%以上が数学の開発コースに入れられているという。これが大学に余分な負担をかけさせ、大学教育の費用を引き上げる要因になっている。

大学レベルの学業ができない学生がどんどん入学してくれば、単位をとれずに中退する者が増えてくる。アメリカでは大学生が6年間で卒業する割合が6割程度で、3人に1人が学位を取れずに挫折していることが大きな問題になっているが、これは経済的な問題(学費が高すぎる)というより、大学に入ろうとする学生が多すぎることに原因がある。

「レジャーランド化した日本の大学とちがって、アメリカの大学は学生にきびしく、卒業が難しい」といわれるが、これはアイビーリーグなど一部のトップスクールだけだ。それ以外の大学では、卒業率が低いとランキングが下がるため、教員にはできるだけ寛大になるようにという強いプレッシャーがかけられている。

このあたりの事情は日本のFラン(Fランク大学)と大差ないようだが、それでも中退率が圧倒的に高い(日本の大学の中退率は7%程度)ところにアメリカの高等教育の特殊性がある。

ミュラーによれば、教育における「測りすぎ」は、大学よりも中学・高校などの公教育で大きな問題を引き起こしている。アメリカ社会では長年、「民族や人種グループ間での学業成績の差異」こそがすべての元凶とされ、ブッシュ政権の「落ちこぼれ防止法」やオバマ政権の「すべての生徒が成功する法」につながった。教育こそが「格差解消工場」だと信じられてきたのだ。

だがミュラーは、「何十年にもわたってこうした測定を収集・公表してきてもなお、結果がほとんど変わっていないというのは衝撃だ」という。「落ちこぼれ防止法」が2001年に鳴り物入りで施行されて以来、小学生のテストの点数はほんのわずかしか上がらず、高校生の成績への影響はさらに限定的だった。

アメリカでは、小学4年、中学2年(8年生)、高校3年(12年生)のときに全米学力調査(NAEP)という読解と数学のテストを受ける。全米教育統計センターが『人種および民族グループごとの学業成績の現状と傾向』でその「相対的達成率」を毎年発表しているが、それによると、高校3年のテストで白人とヒスパニックの読解力の差は、1992年と2013年でさほどちがいがなかった。白人と黒人の差にいたっては、同じ期間でかえって広がっていた。――数学についても、白人、黒人、ヒスパニックの差はほとんど変わらないままだった。

この結果は、学校教育の理想主義的「改革」が、成果をより均等にすることにはつながらなかったことを示している。「学校の質の向上は教育的成果全般を引き上げることはできるかもしれないが、人口のさまざまな階層から集まる子どもたちの間では学力格差をなくすどころかむしろ拡大させる可能性が高い」とミュラーはいう。

なぜこんなことになるかは、かんたんな理屈で説明できる。政府が教育に予算を投じ、質の向上を追求すれば(これ自体はもちろん悪いことではない)、その恩恵を真っ先に受けるのは貧困層の子どもではなく、中・上流階級の子どもたちなのだ。――日本の「高校無償化」や「少人数学級」でも同じことが起きるだろう。

「測れないものは、改善できない」のだから、生徒の学業成績を測定し、学校教育や勉強法の改善につなげていくことには大きな価値がある。だがこの原則は、いつのまにか「測定できるものはすべて改善できる」に変わってしまった。

「測定によって問題が見出されたのだから、政府・教育者はその問題をどのように解決するかの“説明責任(アカウンタビリティ)”を負っている」というのは、いまやアメリカだけでなく日本の教育行政でも当然の前提になっている。だが「測定できること」と「改善できること」は別の話であり、「教育格差」が測定によって発見されたからといって、それを「教育」で解決できるとは限らない。ミュラーが示すデータを見るかぎり、「不都合な真実」は、教育にちからを入れれば入れるほど逆に「格差」が広がっていくということのようだ。

下方比較の効果は感謝と軽蔑、上方比較は希望と嫉妬

ペーテル・エールディはハンガリー出身で、アメリカの大学で教鞭をとる物理学者兼心理学者。専門は計算論的神経科学、計算社会科学で、『ランキング 私たちはなぜ順位が気になるのか?』(高見典和訳/ 日本評論社)で、ランキング(順位づけ)とレイティング(評価)について論じている。原題は“Ranking; The Unwritten Rules of the Social Game We All Play(ランキング 私たちがみなプレイしている社会ゲームの書かれざるルール)”。

ランキングとは何か? これについては「まえがき」を寄せている経済学者(複雑系)のスコット・E・ペイジ (『「多様な意見」はなぜ正しいのか 衆愚が集合知に変わるとき』水谷淳訳/ 日経BP)が簡明な説明をしている。ランク(順位)とは、「完備(complete)で、非対称的(asymmetrical)で、推移的(transitive)な関係)」のことだ。

完備は、「すべての項目の中から任意の2つを取り出したとき、その優劣が決定されていること」、非対称は「2つのものが同等ということがないこと」、推移的とは「AがBより好まれ、BがCより好まれるなら、AはCよりも好まれなければならない」という規則で、この3つがすべて満たされたとき、集合内の要素をランキングすることができる。

エールディは、「ランキング」と「レイティング」のちがいについて、レイティングは「対象に、他の対象とは独立に評価(一般には数字の点数)を付与すること」で、ランキングは「各要素に関する体系的評価にもとづいて順位づけること」と定義している。レイティングはランキングの準備作業になることもあるが、レイティングはしてもランキングしない(成績評価はレイティングだが、それによって必ずしも順位を決めるわけではない)とか、ランキングしてもレイティングがない(「一生のうちに行きたい観光地」などのベスト10ものは数値化された評価に基づいているわけではない)ことも多い。

ネットの記事では「5つの理由」や「10の方法」といったリスティクル(list=箇条書きとarticle=記事を組み合わせた造語)がよく使われるが、これをランキングするとさらに注目度が上がる。

なぜわたしたちはこれほど「序列」に惹きつけられるのか。その理由をエールディは、「上方比較」と「下方比較」で説明する。「自分よりも優れた(劣った)人と自分を比較すること」だ。

「下方比較の積極的な効果は感謝であり、消極的な効果は軽蔑」「上方比較の積極的な効果は希望や刺激、消極的な効果は嫉妬心」とされ、「満足を感じたいなら自分に有利な比較を探しなさい。自分を追い込みたいなら、自分に不利な比較を探しなさい」などのルールがある。社会的比較をする性向は止められないが、自分の利益になるようにうまく利用することはできるという。

他者との比較は、脳科学のレベルでも研究されている。

脳の画像化を用いて上方比較および下方比較と関係する部位や神経メカニズムを探ると、下方比較では副内側前頭前皮質が活発化し、上方比較では前帯状皮質背側部の活動が増加することがわかった。副内側前頭前皮質は金銭的報酬を考えるときにも活発になり、前帯状皮質背側部は身体的苦痛や金銭的損失のような負の出来事を処理する部位だ。

これをわかりやすくいうと、わたしたちは下方比較を得(報酬)、上方比較を損(罰)と無意識に感じているらしい。その結果、不愉快な上方比較を避け、下方比較によって一時的にでも気分よくなろうとするのだ。このことは、ネット記事で「貧困もの」がよく読まれる理由を説明するだろう。

「絶対に11位になってはいけない」理由

複数の人間が集まれば自然にランキングが生じる。これがヒエラルキー(階層)だが、これには生物学的ルーツがある。序列と命令系統のはっきりした軍隊のような組織は、平等な個人の集まり(烏合の衆)よりずっと強力で生存に有利なのだ。

生得的にヒエラルキーが決まっているのが身分制だが、生まれによって「できること」「できないこと」を決めてしまえば、個人同士の無駄な争いを避けられる。なんの序列もなければ、より大きな利益を求めて殺し合うしかなくなる。

ところが社会がゆたかで安全になると、身分による秩序は差別として否定されるようになった。こうしてすべてのひとが平等な機会をもつようになると(もちろんこれは素晴らしいことだ)、社会は複雑になって利害調整が困難になる。これが、リベラル化が進むほど社会がシステム化され、閉塞感が強まる(ひとつの)理由だろう。

社会的比較でやっかいなのは、低くランク付けされることを極端に嫌うようにヒトが進化してきたことだ。ヒエラルキーの下層に落とされることは重大な脅威で、脳は特大のアラームを鳴らす。他者からの批判は、たとえそれがささいなものであっても、生死を分かつような攻撃と感じられる。

党派的な議論では、証拠(ファクト)を見せられても信念が変わらない。反対証拠を見せられても政治的信念を変更しなかったひとの脳画像を調べると、恐怖や情動的反応を司る脳の部位である扁桃体や島皮質が活性化していた。信念を変えることが敗北=死と同じなら、どんな理屈も通じないのは当然だ。

しかしこのひとたちも、政治とは関係のない話題であれば、証拠に基づいて柔軟に意見を変えることができる。党派性はやっかいな問題だが、エールディは、「簡単には他人に操られない」というよい面もあるという。

わたしたちの判断は、ランキングに強く影響される。19.99ドルが20ドルよりかなり安く思えるのは、最上位桁の1と2を無意識に比較しているからだ。同様に、「業界9位」の代わりに「ベスト10以内」のほうが効果的だ。トップグループのなかにあるという事実を、「他のトップブランドと同列」と誤認させるのだ。こうしたヒトの認知バイアスを考えると、「絶対に11位になってはいけない」とエールディはアドバイスする。

ランキングがもたらす二次的反応には、「自己成就的予言」と「尺度の一元化」がある。

自己成就的予言(self-fulfilling prophecy)は小さな変化が増幅されるメカニズムで、「評判がバイアスをもたらすことでランキング自体が次回以降のランキングに影響を及ぼす」ことをいう。ランキングが上がれば、それがなんらかの偶然であっても、それに合わせて他者の評価も上がる。

尺度の一元化(commensuration)は、質的特徴を比較可能な数量に変換することだ。数値化できないものはランキングできないからだが、ここで「指標を選択することによるフレーミング(枠付け)プロセス」が生じる。そのフレームが自分にとって有利か不利かでランキングは大きく変わる。逆にいえば、いくらランキングを上げようと努力しても、フレーミングの時点で勝負は決まっているのだ。

フレーミングは数字に変換できない質的特徴を無視し、計測可能なものに対して過剰な注意を向ける。これはミュラーの「過剰測定」への批判と重なる。

デジタル社会では、評判は一種の通貨のようなものとして機能するようになった。そのような「評判社会」で成功するには、ますますマーケティングが重要になっている。エールディは、成功のための3つのルールを挙げている。

  1. 努力を惜しまない
  2. 8割の時間をマーケティングに使い、残りの2割を本来の活動に用いる
  3. 上の2つを両立させる!

評判社会におけるランキングがますます重要になるにつれて、誰もが「ランキング強迫(obsession with ranking)」に追い立てられる時代がやってくるようだ。

禁・無断転載