8.2 解釈性の未来

機械学習の解釈可能性の未来について見ていきましょう。

モデル非依存の解釈可能なツールにフォーカスされていくでしょう。

解釈可能性の自動化は元の機械学習モデルから分けて考える方が簡単です。 モデルに依存しない解釈性の利点にはモジュール性があります。 基盤となる機械学習モデルを簡単に置き換えることができます。 解釈方法も同様に簡単に置き換えることができます。 これらの理由から、モデルに依存しない手法にははるかに優れた拡張性があります。 長期的にはモデルに依存しない手法が主流となるでしょう。 しかし、本質的に解釈可能な方法にも居場所はあるでしょう。

機械学習は自動化され、それに伴い解釈性を持つようになるでしょう。

すでに目に見える傾向として、モデルの学習の自動化があります。 これらには自動化されたエンジニアリングや特徴選択、自動化されたパラメータ最適化、異なるモデルの比較、モデルのアンサンブルまたはスタッキングが含まれます。 その結果、可能な限りの最良な予測モデルが得られます。 モデルに依存しない解釈モデルを使用した時、自動化された機械学習のプロセスから作成された任意のモデルに対して自動的に適用できます。 ある意味では、この2番目のステップも自動化できます。 これらのすべての解釈を自動的に行うことを止める人はいません。 実際の解釈では、依然として人が必要です。 想像してみてください。あなたがデータセットをアップロードし、予測目標を指定すると、ボタンを押すだけで最高の予測モデルが学習され、プログラムはモデルの全ての解釈を吐き出します。 すでにこれが実現可能な最初の製品は存在し、多くのアプリケーションではこれらの自動化された機械学習サービスで十分だと考えます。 今日ではHTMLやCSS、Javascriptを知らなくてもWebサイトを作ることができますが、周りにはまだ多くのWeb開発者がいます。 同様に、プログラミングの知識がなくても機械学習モデルの学習が行えるようになり、機械学習の専門家も必要とされるでしょう。

データではなくモデルを分析します。

生データ自体は常に役に立ちません。 (これは意図的な誇張です。意味のある分析のためには、データを深く理解する必要があるというのが実際のところです。) 私はデータ自体は気にしません。 関心の対象はデータに含まれる知識です。 解釈可能な機械学習は、データから知識を発見するための優れた手法です。 あなたはモデルを広範囲に調査でき、モデルがその特徴について予測に関係するかやどのように関係するかを自動的に認識し(多くのモデルには特徴選択機能が組み込まれています)、関係性がどのように表現されるかを自動的に検出できます。 そして、もしモデルが正しく学習されたのであれば、最終モデルは現実の非常によい近似となります。

多くの分析ツールは既にデータモデルに基づいています(それらは分布の仮定に基づいているためです)。

  • スチューデントのt検定のような単純な仮説検定
  • 交絡因子を調整した仮説検定(通常はGLM)
  • 分散分析(ANOVA)
  • 相関係数(標準化された線形回帰の係数はピアソンの相関係数と関係があります)

ここで私が言っていることは何も新しいことではありません。 それではなぜ、仮定に基づいた透明性の高いモデルの分析から、仮定のないブラックボックスモデルの分析に切り替えるのでしょうか? なぜなら、これらの仮定をすることには問題があるからです。 これらは通常間違っていて(世界のほとんどがガウス分布に従っていると信じない限り)、チェックが難しく、非常に柔軟性に乏しく、そして自動化が難しいものです。 多くの領域では仮定に基づくモデルの場合、通常、ブラックボックスの機械学習モデルよりも、未知のテストデータに対する予測性能が劣ります。 これは、大きなデータセットに対してのみ当てはまります。 なぜなら、良い仮定をもつ解釈可能モデルは、ブラックボックスモデルよりも小さなデータセットでよりうまくいくことが多いからです。 ブラックボックスモデルをうまく機能させるためには、多くのデータを必要とします。 デジタル化によってデータセットがさらに大きくなるため、ブラックボックスモデルはより魅力的になります。 私たちは、仮定を立てることなく(学習データの過適合を回避しながら)現実を可能な限り近似します。 私は、統計学で使われている全てのツールを開発し(仮説検定、相関、相互作用、可視化ツール、信頼区間、p-値、予測区間、確立分布)、それらをブラックボックスモデル用に書き直す必要があると主張します。 ある意味では、これはすでに起きていることです。

  • 古典的な線形モデルを考えてみましょう。標準化された回帰係数はすでに特徴量重要度の尺度です。permutation feature importance measureを使えば、任意のモデルで機能するツールが得られます。
  • 線形モデルでは、係数は予測された結果に対して1つの特徴量の影響を測定します。この一般化されたバージョンは、partial dependence plotです。
  • AとBのどちらがよいかをテストしたい場合にも、partial dependence functionを利用できます。(私の知る限り)まだ持っていないのは、任意のブラックボックスモデルの統計的検定です。

データサイエンティストは自身のタスクを自動化するでしょう。

私は、データサイエンティストは、最終的には多くの分析や予測の仕事から開放され、自分自身の仕事を自動化すると信じています。 これを実現するには、タスクを明確に定義し、その周囲にいくつかのプロセスとルーチンが存在する必要があります。 今日では、これらのルーチンやプロセスは揃っていませんが、データサイエンティストはそれらのことに取り組んでいます。 機械学習が多くの業界や機関で必要不可欠な役割を負うようになるにつれ、多くのタスクは自動化されるでしょう。

ロボットやプログラムが自身を説明するでしょう。

私たちは、機械学習を多用する機械やプログラムに対する、より直観的なインターフェースを必要としています。 例えば、突然停止した理由を報告する自動運転車(「子供が道路を横断する確率70%」)や、 クレジットの申請が却下された理由を銀行の従業員に説明するクレジットデフォルトプログラム(「申請者は非常に多くのクレジットカードを所有しており、不安定な仕事に就いている」)、 アイテムをベルトコンベアからゴミ箱に移動した理由を説明するロボットアーム(「アイテムの底にひび割れがある」)などです。

解釈可能性は機械知能研究を後押しする可能性があります。

プログラムや機械がどのように自身を説明できるかについて更なる研究を行うことで、私たちの知能の理解が深まり、より知能の高い機械をつくれるようになるでしょう。

最後に、これらの予測は全て推測にすぎません。 未来が実際に何をもたらすのかについて見極めていく必要があります。 自身の意見をもって学習し続けましょう!