はじめよう実験計画

実験を早く終わらせるための技術

枝分かれ実験による測定誤差の評価

測定のばらつき

あらゆる実験でばらつきは重要な問題です。

特に、測定のばらつきは、実験を実施する前にある程度把握しておく必要があります。というのも、せっかく計画を立てて実験をしても、そもそも測定結果が大きくばらつくとしたら、変更した因子が原因なのか、測定のばらつきによって生じているだけなのか、見分けがつかないですからね。

最近自分の仕事で、誤差をしっかり議論する必要があるシチュエーションに出くわしたので、「枝分かれ実験」を実施することにしました。

 

本記事のシチュエーション

以下のようなシチュエーションを考えます。

ある材料を評価するのに、実験サンプル1つにつき、測定エリア1と2が存在します。複数の実験サンプルを比較する前に、測定エリア1と2の差(面内分布)がどれくらいか知っておきたいです。

また、測定は短時間(1)で行う場合と、長時間(2)で行う場合の2パターンあり、両者に差があるか知りたいです。

さらに、同じ測定エリア・同じ測定時間でも、繰返し測定でばらつくため、この繰返しのばらつきの大きさを把握する必要があります。

まとめると、

■本記事のシチュエーション■

以下の因子による測定のばらつきの大きさを把握したい。

A. 測定エリアのばらつき:エリア1/エリア2

B. 測定時間による違い:短時間(1)/長時間(2)

N. 繰返し測定のばらつき:反復1/反復2

 

図1 1つの実験サンプルにつき、測定エリア1と2がある。

もう少し説明すると、測定値Yは測定エリアのばらつきσA、測定時間によるばらつきσB、繰返し測定のばらつきσnをもつ分布の影響を受けると考えられます。すなわち、測定値Yは

 Y=\mu+\varepsilon_A+\varepsilon_B+\varepsilon_N

 \varepsilon_A\sim N(0,\sigma_A), \varepsilon_B\sim N(0,\sigma_B), \varepsilon_N\sim N(0,\sigma_N)

で表されると考えます。これを絵的に表したのが図2です。

 

図2 各種ばらつきを足しわせた結果として測定値が得られる

このように、いくつかのばらつきが重なっている状態で、各ばらつきがどの程度かを手解きしていくのが、枝分かれ実験のモチベーションになります。

 

枝分かれ実験(Nested Design)

前節で説明したシチュエーションを図に落とすと、図2のようになります。枝分かれの形になるので、枝分かれ実験(Nested Design)と呼びます。本格的な実験の前に、測定誤差などのばらつきを評価するのに、便利な実験計画法の1つの手法です。もちろん、ご自分の実験に合わせて、例えば、測定エリア→材料の種類、測定時間→処理バッチのように変更してもよいですし、階層数を増やしても減らしても良いです。

 

図3 枝分かれ実験

 

枝分かれ実験の解析方法

枝割れ実験の解析はExcelで簡単にできます。図4は解析の流れを表したもので、これに沿ってエクセルの表をつくれると思います。

① 生データYを取得して、A(測定エリア)、B(測定時間)、反復(測定繰り返し)ごとの平均を求める

② 一つ上の階層の平均値との差を計算する

③ ②の差を2乗して平方を求める

④ ③の平方を階層ごとに総和して平方和を求め、F値を出す。

図4 枝分かれ実験の解析の流れ

実践例

前述の図3の枝分かれ実験を行い、生データ

4.24, 4.13, 4.22, 4.24, 4.62, 4.87, 4.88, 4.91

を取得しました。

以下で説明するのはExcelを使った解析方法です。必要であればダウンロードして試してみてください。図4はまず、各階層での平均を計算しています。

図5 生データ入力と平均の計算

平均を計算したら、図6のように、一つ上の階層の平均との差をとっていきます。

図6 一つ上の階層との差を計算する

そして、差の2乗を計算します。

図7 2乗する

図8からは分散分析と似たようなことをやっていきます。まず、平方を総和を階層ごとに足し合わせてください。そうすると平方和が計算できます。図4に従って平方和→平均平方→F0→P値を計算します。

図8 平方和、平均平方、F0、P値の計算

図8の一番下の表に示したように、ExcelでP値を求めるにはF.DIST.RT(F0, 自由度, 自由度)とすればよいです。

計算されたP値が、設定した有意水準(例えば0.05)より小さければ、その因子によるばらつきが大きいという結論になります。よって結論は次のようになります。

■結論■
  • 測定時間によるばらつきは、反復によるばらつきより小さい。
  • 測定エリアによるばらつきは、反復・測定時間のばらつきより大きい。

 

P値の考え方は大丈夫でしょうか?P値はF>F0となる確率を示します。図8の一番下の表では、「測定時間」による測定値のばらつきと「反復」によるばらつきを比較しています。「測定時間」のばらつきがゼロという仮定H0の下で、F0はF分布に従います。この仮定のもとで、F0が生成される確率が5%未満であれば、仮定H0を棄却しましょう、ということになります。分散分析の記事で解説した内容と同じです。

 

誤差の分解

P値で議論をしてもよいですが、表1のように、各階層の「平均平方の期待値」は分散の和になっているので、表1の一番右の列のように誤差を分解することができます。

表1

前述の図8と表1より、誤差の分解は下の図9のようになります。

図9 誤差の分解

図9では、標準誤差=√(推定分散)のグラフを示しました。こうしてみると、以下の結論が一目瞭然ですね。

■結論(再掲)■
  • 測定時間によるばらつきは、反復によるばらつきより小さい。
  • 測定エリアによるばらつきは、反復・測定時間のばらつきより大きい。

 

参考書籍