2.4 解釈可能性の評価
機械学習における解釈性に関しての総意はありません。 それを測定する方法も明確ではありません。 しかし、これに関するいくつかの先行研究や、評価のための定式化の試みが行われているため、以下ではそれについて紹介します。
Doshi-Velez と Kim (2017) は解釈可能性を評価するための3つの主要なレベルを提案しています。
アプリケーションレベルの評価 (真の作業) 製品に説明書を同梱して、エンドユーザーに試用してもらいます。 機械学習によってX線画像から骨折箇所を見つけて印をつける骨折検出ソフトウェアを想像してください。 アプリケーションレベルでは、放射線科医が骨折検出ソフトウェアを直接試用してモデルを評価します。 これには優れた実験設定と品質評価の方法に関する理解が必要とされます。 そのための適切な基準は、同様の決定を人間が説明する際に毎回どのくらい優れているかということです。
人間レベルの評価 (単純な作業) は単純化されたアプリケーションレベルの評価です。 これらの実験間の違いは、人間レベルの評価実験が分野の専門家によってではなく、素人によって行われることです。 これによって実験が(分野の専門家が放射線科医の場合は特に)安価になり、さらに多くの試験者を探しやすくなります。 実験の例としては、ユーザーにそれぞれ異なるいくつかの説明を見せて、一番良いものを選んでもらう方法があります。
機能レベルの評価 (代理的な作業) は人間を必要としません。 これは、使用されるモデルのクラスがすでに誰かによって、人間レベルで評価されている場合に最もいい方法です。 例えば、エンドユーザーが決定木を理解していると分かっている場合があります。 この場合、評価の質を表すのは木の深さかもしれません。 より短い木はより説明可能性の数値を高めるでしょう。 木の予測性能が良好なままで、より大きな木と比較してもそれほど性能が低下しないという制約を追加することには意味があるでしょう。
次の章では、機能レベルでの個々の予測に対する説明の評価に焦点を当てます。 説明に対する評価を検討する上で関連する性質は何でしょうか?