はじめよう実験計画

実験を早く終わらせるための技術

ガウス過程回帰の外挿問題を解決する:セミパラメトリックベイズ入門(数式&Rコード)

はじめに:前回記事のおさらいと外挿問題

前回の記事では、ガウス過程回帰(GP)の予測平均・分散を計算する方法を詳しく解説しました。
www.doe-get-started.com

ガウス過程回帰GPの新しい点の予測値 y*の分布(平均と分散):

 y_*|X^*,D\sim N\bigl(\underbrace{k_*^T(K+\sigma^2 I)^{-1}y}_{\text{予測平均}},\;\underbrace{k_{**}-k_*^T(K+\sigma^2 I)^{-1}k_*}_{\text{予測分散}}\bigr)

この式は、既知のデータセット D={X, y}が与えられた時、新しい点 X*における予測値 y_*の平均と分散が、右辺のように計算できることを示しています。
ここで重要なのは  k_* です。 k_* は新しい点が既知の点に近いほど1に近く、遠いほど0に近くなるベクトルです。

課題1. 外挿に弱いガウス過程回帰

外挿範囲では、予測点と訓練点の距離が遠くなるため  k_*\approx 0 となります。すると:

  • 予測平均: k_*^T(K+\sigma^2 I)^{-1}y \approx 0(データを無視して事前平均ゼロへ)
  • 予測分散: k_{**}-k_*^T(K+\sigma^2 I)^{-1}k_* \approx k_{**} = \theta_1(事前分散に膨らむ)

実際に、ガウス過程回帰(GP)の予測グラフの外挿領域に着目してみましょう。

GP予測結果。青線が予測平均、青帯が±1SD。オレンジ縦線の外側が外挿領域。

グラフを見ると、訓練範囲内( |x|\leq 1)では真の関数(灰色点線)に近い予測ができています。しかし外挿域( |x|>1)では予測平均が事前平均のゼロ付近に収束してしまい、真の値から大きく外れています。

これはGPが与えらえたデータ付近の局所的な構造にしかフィットしないという性質によるものです。仮に人間が「全体的に右上がりのトレンドがある」という知識を持っていても、GPにはその知識を反映することが出来ないのです。

課題2. モデルの解釈

GPではカーネルを与えることで、モデルの基底を計算することなく予測値を計算できます。これにより、複雑なデータに対しても、複雑な基底関数を明示的に与えることなく、柔軟なフィッティングが可能になります。

しかし、基底関数を明示的に与えないことは弱みでもあります。
なぜなら、GPでフィッティングしても、例えば特定の入力変数xに対する回帰係数はいくつか?という問いに答えられないからです。

材料開発やプロセス開発にガウス過程回帰(あるいはベイズ最適化)を適用するとき、モデルの解釈性が高いことは非常に重要です。「解釈性が高い」=「他の人に説明できる」ということだからです。通常のガウス過程回帰ではこの解釈性が弱いです。

本記事では、これらの課題1と2を解決するセミパラメトリックベイズという手法を紹介します。セミパラメトリックベイズによって、線形モデルのようにフィッティングしたい関数を指定でき、かつガウス過程回帰のように柔軟なフィッティングが出きるようになります。

下図は、本記事で解説する、線形項および指数項を入れたセミパラメトリックベイズと、通常のガウス過程回帰(GP)との比較になります。

線形項を入れたセミパラメトリックベイズ(赤) vs 通常GP(青)の比較
指数項を入れたセミパラメトリックベイズ (茶) vs 通常GP(青)の比較

これらのグラフを見ると、線形項を含むセミパラメトリックベイズ(赤)と指数項を入れたセミパラメトリックベイズ(茶)が、通常のGP(青)と比較して外挿領域(|x|>1)において妥当な予測ができていることがわかります。また、線形項・指数項に対する係数も計算することが出来ます。

セミパラメトリックベイズとガウス過程回帰の違い

以上に説明した、セミパラメトリックベイズとガウス過程回帰(GP)を違いを表に示します。

比較項目 GP セミパラメトリックベイズ
線形係数 β の推定 ×(βが存在しない)
係数の解釈 ×(βが存在しない)  \mu_\beta で直接解釈可
ユーザーの意図した傾向を持たせる × 〇(フィットしたい関数を指定可能)
外挿性能 △(カーネルの調整でトレンドを入れること自体は可能)

また、無料アプリAutoXP3の内部モデルも、このセミパラメトリックベイズになっていますので、AutoXP3の中身が知りたいという方にもおすすめの内容です。
www.doe-get-started.com

対象読者

  • ガウス過程回帰を一度学んだことがある方(前回記事を読んだ方)
  • 回帰モデルに「自分の知識(トレンドや関数形)」を組み込みたい方
  • 回帰係数の解釈や外挿性能に関心がある方
  • AutoXP3の内部モデルについて知りたい方

有料記事を読むとわかること

ガウス過程回帰より解釈性・外挿予測性能にすぐれたセミパラメトリックベイズという手法を、Rコードと数式を通して学ぶ。

有料記事の目次

  • 1. セミパラメトリックベイズのモデル
  • 2. 計算の全体像と事後分布の導出(数式)
  • 3. Rコードの実装
  • 4. セミパラメトリックベイズとガウス過程回帰の比較:実装とグラフ
  • 5. 係数・分散・外挿の解釈
  • 6. モデルの総合比較
  • 付録A:条件付き正規分布の公式
  • 付録B:全期待値の法則
  • 付録C:全分散の法則
  • 付録D:ベイズの定理
  • 付録E:行列の平方完成
  • 付録F:全Rコード
この続きはcodocで購入