AutoXP3 · Validation Study · 2026
外挿でも使えるかを10ケースで検証する
実験計画ツール AutoXP3 が、学習データの範囲を超えた条件(外挿域)においても 妥当な次実験点を提案できるかどうかを、真のモデルが既知な合成データで検証しました。 線形・非線形・交互作用・カテゴリ変数・多目的最適化まで多様な10ケースを用意(使用したサンプルデータはこちら)し、 各ケースで AutoXP3 の提案が「正しい方向を向いているか」を評価します。
なぜ「外挿」で検証するのか
このバリデーションの目的と設計思想
検証の背景
AutoXP3 はベイズ的な半パラメトリックモデルを使い、手持ちのデータから次に試すべき実験条件を提案するツール(紹介ページはこちら)です。 実験の現場では、「まだ試したことがない条件」を提案してもらうことに最大の価値があります。 つまり、ツールの本質的な仕事は 外挿(extrapolation)——学習データの範囲外への予測です。
しかし外挿は本質的に難しく、多くのモデルは外挿域で信頼性を失います。 そこで本検証では 「真のモデルが分かっている合成データ」を使い、 AutoXP3 の提案が外挿域で数理的に正しい方向を向いているかを定量的に確認します。 これは実際のユーザーが「このツールを信頼して外挿提案に従っていいか」を判断するための根拠となります。
(線形〜非線形・カテゴリ・多目的)
(実験回数として現実的な数)
10サンプルの詳細検証
各ケースに与えたデータ・真のモデル・AutoXP3 の提案を並べて比較します
単調増加なので X1 最大が最適
真の最適:X1 = 10
RMSE = 0.034
β(X1) = +1.98
| id | X1 | Y1 |
|---|---|---|
| 1 | 0 | 1.069 |
| 2 | 1 | 3.052 |
| 3 | 2 | 4.984 |
| 4 | 3 | 6.952 |
| 5 | 4 | 9.002 |
| 6 | 5 | 10.981 |
| 7 | 6 | 13.057 |
| 8 | 7 | 14.961 |
| 9 | 8 | 16.995 |
| 10 | 9 | 19.017 |
真の最適:X1=10, X2=10
RMSE = 0.024
β(X1)=+1.46, β(X2)=+1.99
| id | X1 | X2 | Y1 |
|---|---|---|---|
| 1 | 0 | 0 | 0.582 |
| 2 | 1 | 0 | 2.001 |
| 3 | 2 | 1 | 5.456 |
| 4 | 3 | 1 | 7.051 |
| 5 | 4 | 2 | 10.524 |
| 6 | 5 | 2 | 11.950 |
| 7 | 6 | 3 | 15.582 |
| 8 | 3 | 6 | 17.000 |
| 9 | 2 | 7 | 17.200 |
| 10 | 1 | 5 | 12.300 |
X1 と X2 を同時に大きくすると損。
真の最適:X1=10, X2=0
RMSE = 0.543
GP が交互作用を捕捉
| id | X1 | X2 | Y1 |
|---|---|---|---|
| 1 | 0 | 9 | 13.424 |
| 2 | 1 | 8 | 4.492 |
| 3 | 2 | 7 | −2.140 |
| 4 | 3 | 6 | −6.526 |
| 5 | 4 | 5 | −8.511 |
| 6 | 5 | 4 | −8.160 |
| 7 | 6 | 3 | −5.126 |
| 8 | 7 | 2 | 0.244 |
| 9 | 8 | 1 | 8.065 |
| 10 | 9 | 0 | 18.187 |
X2・X3 は大きいほど有利。
真の最大:X1≈1.57, X2=10, X3=10
→ Y1 ≈ 15.97
RMSE = 0.134
β(X1)=−0.20, β(X3)=+0.20
| id | X1 | X2 | X3 | Y1 |
|---|---|---|---|---|
| 1 | 0 | 5 | 10 | 8.995 |
| 2 | 1 | 5 | 9 | 11.097 |
| 3 | 2 | 5 | 8 | 10.680 |
| 4 | 3 | 5 | 7 | 7.984 |
| 5 | 4 | 5 | 6 | 4.739 |
| 6 | 5 | 5 | 5 | 3.526 |
| 7 | 6 | 5 | 4 | 5.206 |
| 8 | 7 | 5 | 3 | 7.451 |
| 9 | 8 | 5 | 2 | 8.033 |
| 10 | 9 | 5 | 1 | 5.770 |
exp(−X1) は X1 大で急減。
カテゴリ A が最も Y1 を下げる。
真の最適:X1=10, X2=0, X3=A
RMSE = 0.136
β(X1)=−0.60, β(X2)=+0.60
| id | X1 | X2 | X3 (cat) | Y1 |
|---|---|---|---|---|
| 1 | 0 | 10 | A | 11.900 |
| 2 | 1 | 9 | B | 10.170 |
| 3 | 2 | 8 | C | 10.015 |
| 4 | 3 | 7 | A | 5.748 |
| 5 | 4 | 6 | B | 6.338 |
| 6 | 5 | 5 | C | 7.101 |
| 7 | 6 | 4 | A | 3.148 |
| 8 | 7 | 3 | B | 3.917 |
| 9 | 8 | 2 | C | 4.549 |
| 10 | 9 | 1 | A | 0.894 |
X3・X4 は大きいほど有利。
真の最適:X1=0, X2=0,
X3=10, X4=10 → Y1=12.0
RMSE = 0.170
β(X3)=0, β(X4)=0 ← 固定
| id | X1 | X2 | X3 | X4 | Y1 |
|---|---|---|---|---|---|
| 1 | 0 | 0 | 5 | 3 | 5.121 |
| 2 | 1 | 2 | 5 | 3 | 6.579 |
| 3 | 2 | 4 | 5 | 3 | 4.832 |
| 6 | 5 | 0 | 5 | 3 | 11.173 |
| 9 | 8 | 6 | 5 | 3 | −17.717 |
| 10 | 9 | 8 | 5 | 3 | −33.781 |
| (全20点で X3=5, X4=3 固定) | |||||
Y2 = −2·X1 + 1.2·X2 + 0.3·X3 + 0.2·X4 + 20
Y1 最大 → X1↑, X2↓
Y2 最大 → X1↓, X2↑
[Y2] X1=0, X2=10
R²(Y2) = 0.9999
トレードオフ完全同定
| id | X1 | X2 | X3 | X4 | Y1 | Y2 |
|---|---|---|---|---|---|---|
| 1 | 0 | 0 | 5 | 5 | 2.438 | 22.437 |
| 5 | 4 | 2 | 5 | 5 | 8.185 | 16.968 |
| 8 | 7 | 1 | 5 | 5 | 15.341 | 9.655 |
| 4 | 3 | 9 | 5 | 5 | −2.248 | 27.375 |
| 10 | 9 | 7 | 5 | 5 | 12.179 | 12.918 |
| (全20点) | ||||||
X3・X4・X5 は大きいほど有利。
真の最大:X1=10, X2=0,
X3=10, X4=10, X5=10
→ Y1 = 25.00
X3=10, X4=10, X5=10
真Y1 = 15.00
RMSE = 0.024
β(X1)=−2.44 ← 交互作用影響
β(X3)=+0.31, β(X4)=+1.36, β(X5)=+0.71
| id | X1 | X2 | X3 | X4 | X5 | Y1 |
|---|---|---|---|---|---|---|
| 1 | 0 | 0 | 0 | 0 | 0 | 0.075 |
| 5 | 2 | 0 | 8 | 8 | 4 | 11.965 |
| 6 | 2 | 8 | 10 | 10 | 5 | 4.065 |
| 8 | 4 | 8 | 2 | 4 | 7 | −15.985 |
| 11 | 8 | 0 | 8 | 10 | 10 | 21.731 |
| 12 | 8 | 8 | 10 | 0 | 0 | −44.470 |
| 13 | 10 | 0 | 0 | 3 | 1 | 11.736 |
| 14 | 10 | 8 | 2 | 5 | 3 | −59.987 |
| 20 | 5 | 0 | 7 | 8 | 6 | 15.188 |
| (全20点) | ||||||
X2=0 または X3=0 で回避。
カテゴリ C が Y1 を最大化。
真の最適:X1=10, X2=0,
X3=0, cat=C
X3=0, X4=C
RMSE = 0.245
β(X2)=−4.40, β(X3)=−4.19
| id | X1 | X2 | X3 | X4 (cat) | Y1 |
|---|---|---|---|---|---|
| 1 | 0 | 0 | 0 | A | 0.120 |
| 2 | 1 | 2 | 3 | B | −3.625 |
| 3 | 2 | 4 | 6 | C | −20.991 |
| 4 | 3 | 6 | 9 | A | −57.030 |
| 6 | 5 | 0 | 5 | C | 7.904 |
| 8 | 7 | 4 | 1 | B | 3.259 |
| 10 | 9 | 8 | 7 | A | −54.528 |
| (全20点) | |||||
(exp(−X5) が減衰関数)。
他変数はすべて大きいほど有利。
真の最大:X1〜X4=10, X5=0,
X6=10 → Y1 = 28.50
X4=10, X5=0, X6=10
真Y1 = 28.50 ✓
RMSE = 0.019
β(X5) = −0.159(正しく負)
| id | X1 | X2 | X3 | X4 | X5 | X6 | Y1 |
|---|---|---|---|---|---|---|---|
| 1 | 0 | 0 | 0 | 0 | 8 | 0 | 0.251 |
| 4 | 0 | 10 | 10 | 8 | 0 | 9 | 20.660 |
| 7 | 5 | 10 | 8 | 6 | 1 | 8 | 19.630 |
| 11 | 10 | 0 | 8 | 7 | 0 | 7 | 19.820 |
| 12 | 10 | 5 | 10 | 10 | 7 | 10 | 23.982 |
| 10 | 10 | 10 | 5 | 4 | 10 | 4 | 18.490 |
| 20 | 9 | 10 | 8 | 7 | 4 | 7 | 21.966 |
| (全20点 — X5 は 0〜10 を独立にカバー) | |||||||
10ケースの総括
提案の方向性を変数ごとに評価すると、不一致(誤方向)はゼロ
| Sample | モデル構造 | 変数 | n | Optimize 1位提案 | 真の最大との差 | 判定 |
|---|---|---|---|---|---|---|
| 1 | 線形 1変数 | 1 | 10 | X1=10 | 一致 | ✓ Match |
| 2 | 線形 2変数 | 2 | 10 | X1=10, X2=10 | 一致 | ✓ Match |
| 3 | 交互作用項あり | 2 | 10 | X1=10, X2=0 | 一致 | ✓ Match |
| 4 | sin 周期関数 | 3 | 10 | X1=2, X2=5, X3=9 | X2 固定で未学習 | ~ Partial |
| 5 | 指数減衰 + カテゴリ | 3 | 10 | X1=10, X2=0, cat=A | 一致 | ✓ Match |
| 6 | 交互作用 + 4変数 | 4 | 20 | X1=0, X2=0, X3=9, X4=7 | X3・X4 正方向 ✓ X1・X2 回避戦略 | ~ Partial |
| 7 | 多目的最適化 | 4 | 20 | [Y1] X1=10,X2=0 / [Y2] X1=0,X2=10 | 一致(トレードオフ把握) | ✓ Match |
| 8 | 強交互作用 + 5変数 | 5 | 20 | X1=0, X2=0, X3=10, X4=10, X5=10 | X3〜X5 正方向 ✓ X1 残課題 | ~ Partial |
| 9 | 積の交互作用 + カテゴリ | 4 | 20 | X1=10, X2=0, X3=0, cat=C | 一致 | ✓ Match |
| 10 | 指数減衰 (逆変数) + 6変数 | 6 | 20 | X1〜X4=10, X5=0, X6=10 | 一致(真の最大 = 28.50) | ✓ Match |
結論
10ケースを通じて、不一致(完全に誤った方向の提案)はゼロ件でした。 学習データの範囲を超えた外挿域においても、AutoXP3 は常に合理的な次実験点を提案できています。