はじめよう実験計画

実験を早く終わらせるための技術

計画の予測分散の評価|分散の散布度グラフ(VDG)

最小二乗モデルによる予測値の分散

実験計画を行い、最小二乗法により線形モデルを作成することを考えます。そのモデルを

 \boldsymbol{y}=\textbf{X}\boldsymbol{\beta}

 \boldsymbol{y}=\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix}, \boldsymbol{X}=\begin{bmatrix} 1\ x_{11}\ x_{12}\ \cdots x_{1k} \\ 1\ x_{21}\ x_{22} \ \cdots \ x_{1k} \\ \vdots\\ 1\ x_{n1}\ x_{n2}\ \cdots\ x_{1k} \end{bmatrix}, \boldsymbol{\beta}=\begin{bmatrix} \beta_{1} \\ \beta_{2} \\ \vdots \\ \beta_{n} \end{bmatrix},\boldsymbol{\varepsilon}=\begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix}

とすると、ある点xにおけるモデルの予測値(平均値)の分散は

 V(\hat{y}(\textbf{x}))=\sigma^2\textbf{x'}(\textbf{x}\textbf{x})^{-1}\textbf{x}

で計算されます。したがって、実験値は実際に実験を行わないと分かりませんが、実験値の「分散」は実験前に評価することが出来ます。σ2はデータの分散なので、事前に大体の値が分かっていればその値を使えばOKです。

要因xが2つだけ(x1, x2)であれば、V(y(x))の実験空間全体のプロットを3次元のグラフyやコンタ―図として表すことができます。一例として、2要因の中心複合計画のV(y(x))のグラフを図1に示します。

f:id:Sturgeon:20200515151319p:plain

図1. 2要因中心複合計画のV(y(x))のグラフ

実験空間の中央部は分散が小さく、実験点の端の方になると分散が大きい、つまり予測が正確でなくなることが分かります。

このように、2要因であれば、分散を視覚的に評価することが出来ます。

では、要因が3つ以上ある場合はどのように分散を評価できるのでしょうか?

分散の散布度グラフ(VDG)

要因が3つ以上ある場合に便利なのが、分散の散布度グラフです。英語ではVariance Dispersion Graphというものなので、VDGと呼びます。VDGにはいくつかの種類があります。良く使われるのが以下の2つです。

  1. SPV(Scaled Prediction Variance)グラフ
  2. UPV (Unscaled)グラフ

SPVグラフとは

SPVグラフとは、縦軸に

 \displaystyle{ SPV= \frac{NV(\hat{y}(\textbf{x})) }{\sigma^2}=N\textbf{x'}(\textbf{x}\textbf{x})^{-1}\textbf{x} }

で表されるSPVを、横軸に実験空間の中心から測った"距離"をプロットしたグラフです。

図2に、4要因α=2の中心複合計画について、中心点を1個と3個としたときのSPVグラフを示します。中心点が1個の場合は中心からの距離(Distance from origin)が小さい時、SPVが非常に大きいことが分かります。一方、中心点を3個にした場合は実験空間の全域にわたりSPVは小さくなっています。つまり、中心点を多くすることで、中心付近の分散を大幅に低減できるのです。

赤色の水平線はパラメータの数で、図2では2次モデルに対するSPVをプロットしてますから、切片・1次・2次項まで含めた数p=15となります。

実験空間全体で、SPVプロットがパラメータの数p=15より小さいかどうかが、良い計画かどうかの目安になります。ここでは、中心点を3個とすれば比較的良い計画であることがわかります。

f:id:Sturgeon:20200418105010p:plain

図2.中心点が1個と3個の4要因中心複合計画(α=2)のSPVグラフ。モデルは2次のモデルとした。

UPVグラフとは

UPVグラフは

 \displaystyle{ UPV= \frac{V(\hat{y}(\textbf{x})) }{\sigma^2}=\textbf{x'}(\textbf{x}\textbf{x})^{-1}\textbf{x} }

を縦軸にプロットしたグラフです。一方、横軸にはFraction of Design Space (FDS)という値を使います。この計算方法は少しややこしいので本記事では省略しますが、図3を使ってUPVグラフの読み取り方だけ説明します。

f:id:Sturgeon:20200515152250p:plain

図3. UPVグラフ

図3は3要因中心複合計画のUPVグラフです。FDSは実験空間の何%かを示しており、図中の矢印に示したように、実験空間の60%が0.4より小さいUPVを持っていることがわかります。

UPVすなわち分散は小さいほど良いので、複数の実験計画を比較する場合は、UPVグラフの曲線が全体的に下側になっている方が「予測が正確である」という意味で優れた計画になります。

最後に

本記事では、実験計画を実施する前段階として、VDGグラフを使った予測分散の評価方法を説明しました。VDGグラフにはSPVとUPVの二種類があり、これらのグラフを使って複数の計画も比較できます。

SPVとUPVグラフの具体的な作図方法については、また別の記事でお話したいと思います。