最小二乗モデルによる予測値の分散
実験計画を行い、最小二乗法により線形モデルを作成することを考えます。そのモデルを
とすると、ある点xにおけるモデルの予測値(平均値)の分散は
で計算されます。したがって、実験値は実際に実験を行わないと分かりませんが、実験値の「分散」は実験前に評価することが出来ます。σ2はデータの分散なので、事前に大体の値が分かっていればその値を使えばOKです。
要因xが2つだけ(x1, x2)であれば、V(y(x))の実験空間全体のプロットを3次元のグラフyやコンタ―図として表すことができます。一例として、2要因の中心複合計画のV(y(x))のグラフを図1に示します。
実験空間の中央部は分散が小さく、実験点の端の方になると分散が大きい、つまり予測が正確でなくなることが分かります。
このように、2要因であれば、分散を視覚的に評価することが出来ます。
では、要因が3つ以上ある場合はどのように分散を評価できるのでしょうか?
分散の散布度グラフ(VDG)
要因が3つ以上ある場合に便利なのが、分散の散布度グラフです。英語ではVariance Dispersion Graphというものなので、VDGと呼びます。VDGにはいくつかの種類があります。良く使われるのが以下の2つです。
- SPV(Scaled Prediction Variance)グラフ
- UPV (Unscaled)グラフ
SPVグラフとは
SPVグラフとは、縦軸に
で表されるSPVを、横軸に実験空間の中心から測った"距離"をプロットしたグラフです。
図2に、4要因α=2の中心複合計画について、中心点を1個と3個としたときのSPVグラフを示します。中心点が1個の場合は中心からの距離(Distance from origin)が小さい時、SPVが非常に大きいことが分かります。一方、中心点を3個にした場合は実験空間の全域にわたりSPVは小さくなっています。つまり、中心点を多くすることで、中心付近の分散を大幅に低減できるのです。
赤色の水平線はパラメータの数で、図2では2次モデルに対するSPVをプロットしてますから、切片・1次・2次項まで含めた数p=15となります。
実験空間全体で、SPVプロットがパラメータの数p=15より小さいかどうかが、良い計画かどうかの目安になります。ここでは、中心点を3個とすれば比較的良い計画であることがわかります。
UPVグラフとは
UPVグラフは
を縦軸にプロットしたグラフです。一方、横軸にはFraction of Design Space (FDS)という値を使います。この計算方法は少しややこしいので本記事では省略しますが、図3を使ってUPVグラフの読み取り方だけ説明します。
図3は3要因中心複合計画のUPVグラフです。FDSは実験空間の何%かを示しており、図中の矢印に示したように、実験空間の60%が0.4より小さいUPVを持っていることがわかります。
UPVすなわち分散は小さいほど良いので、複数の実験計画を比較する場合は、UPVグラフの曲線が全体的に下側になっている方が「予測が正確である」という意味で優れた計画になります。
最後に
本記事では、実験計画を実施する前段階として、VDGグラフを使った予測分散の評価方法を説明しました。VDGグラフにはSPVとUPVの二種類があり、これらのグラフを使って複数の計画も比較できます。
SPVとUPVグラフの具体的な作図方法については、また別の記事でお話したいと思います。