測定のばらつき
あらゆる実験でばらつきは重要な問題です。
特に、測定のばらつきは、実験を実施する前にある程度把握しておく必要があります。というのも、せっかく計画を立てて実験をしても、そもそも測定結果が大きくばらつくとしたら、変更した因子が原因なのか、測定のばらつきによって生じているだけなのか、見分けがつかないですからね。
最近自分の仕事で、誤差をしっかり議論する必要があるシチュエーションに出くわしたので、「枝分かれ実験」を実施することにしました。
本記事のシチュエーション
以下のようなシチュエーションを考えます。
ある材料を評価するのに、実験サンプル1つにつき、測定エリア1と2が存在します。複数の実験サンプルを比較する前に、測定エリア1と2の差(面内分布)がどれくらいか知っておきたいです。
また、測定は短時間(1)で行う場合と、長時間(2)で行う場合の2パターンあり、両者に差があるか知りたいです。
さらに、同じ測定エリア・同じ測定時間でも、繰返し測定でばらつくため、この繰返しのばらつきの大きさを把握する必要があります。
まとめると、
以下の因子による測定のばらつきの大きさを把握したい。
A. 測定エリアのばらつき:エリア1/エリア2
B. 測定時間による違い:短時間(1)/長時間(2)
N. 繰返し測定のばらつき:反復1/反復2
もう少し説明すると、測定値Yは測定エリアのばらつきσA、測定時間によるばらつきσB、繰返し測定のばらつきσnをもつ分布の影響を受けると考えられます。すなわち、測定値Yは
で表されると考えます。これを絵的に表したのが図2です。
このように、いくつかのばらつきが重なっている状態で、各ばらつきがどの程度かを手解きしていくのが、枝分かれ実験のモチベーションになります。
枝分かれ実験(Nested Design)
前節で説明したシチュエーションを図に落とすと、図2のようになります。枝分かれの形になるので、枝分かれ実験(Nested Design)と呼びます。本格的な実験の前に、測定誤差などのばらつきを評価するのに、便利な実験計画法の1つの手法です。もちろん、ご自分の実験に合わせて、例えば、測定エリア→材料の種類、測定時間→処理バッチのように変更してもよいですし、階層数を増やしても減らしても良いです。
枝分かれ実験の解析方法
枝割れ実験の解析はExcelで簡単にできます。図4は解析の流れを表したもので、これに沿ってエクセルの表をつくれると思います。
① 生データYを取得して、A(測定エリア)、B(測定時間)、反復(測定繰り返し)ごとの平均を求める
② 一つ上の階層の平均値との差を計算する
③ ②の差を2乗して平方を求める
④ ③の平方を階層ごとに総和して平方和を求め、F値を出す。
実践例
前述の図3の枝分かれ実験を行い、生データ
4.24, 4.13, 4.22, 4.24, 4.62, 4.87, 4.88, 4.91
を取得しました。
以下で説明するのはExcelを使った解析方法です。必要であればダウンロードして試してみてください。図4はまず、各階層での平均を計算しています。
平均を計算したら、図6のように、一つ上の階層の平均との差をとっていきます。
そして、差の2乗を計算します。
図8からは分散分析と似たようなことをやっていきます。まず、平方を総和を階層ごとに足し合わせてください。そうすると平方和が計算できます。図4に従って平方和→平均平方→F0→P値を計算します。
図8の一番下の表に示したように、ExcelでP値を求めるにはF.DIST.RT(F0, 自由度, 自由度)とすればよいです。
計算されたP値が、設定した有意水準(例えば0.05)より小さければ、その因子によるばらつきが大きいという結論になります。よって結論は次のようになります。
- 測定時間によるばらつきは、反復によるばらつきより小さい。
- 測定エリアによるばらつきは、反復・測定時間のばらつきより大きい。
P値の考え方は大丈夫でしょうか?P値はF>F0となる確率を示します。図8の一番下の表では、「測定時間」による測定値のばらつきと「反復」によるばらつきを比較しています。「測定時間」のばらつきがゼロという仮定H0の下で、F0はF分布に従います。この仮定のもとで、F0が生成される確率が5%未満であれば、仮定H0を棄却しましょう、ということになります。分散分析の記事で解説した内容と同じです。
誤差の分解
P値で議論をしてもよいですが、表1のように、各階層の「平均平方の期待値」は分散の和になっているので、表1の一番右の列のように誤差を分解することができます。
前述の図8と表1より、誤差の分解は下の図9のようになります。
図9では、標準誤差=√(推定分散)のグラフを示しました。こうしてみると、以下の結論が一目瞭然ですね。
- 測定時間によるばらつきは、反復によるばらつきより小さい。
- 測定エリアによるばらつきは、反復・測定時間のばらつきより大きい。
参考書籍