📋 试验设计课程概览

🎯 课程目标

本课程旨在系统介绍试验设计的基本理论、方法和应用,帮助学生掌握科学试验的设计原理和统计分析技术,提高解决实际问题的能力。

🔬 基础理论

学习试验设计的基本概念、历史发展和基本原则,掌握单因素方差分析的理论和方法。

📊 单因素试验

深入理解单因素试验的设计和分析方法,包括线性效应、二次效应和残差分析。

🔄 多因子试验

学习配对比较设计、随机区组设计和双向布局的理论与应用。

⚡ 全因子设计

掌握2^k设计的基本原理、因子效应计算和显著性检测方法。

📐 正交表设计

学习3水平设计和正交表的构造、应用和分析方法。

🎯 部分因析试验

理解部分因子设计的原理、混淆概念和序贯试验方法。

🔧 非正规设计

学习非正规设计的构造方法和最优设计理论。

🛡️ 稳健设计

掌握稳健参数设计的理论和田口方法的应用。

💻 计算机试验

了解计算机试验的特点、代理模型和敏感性分析方法。

📏 均匀设计

学习均匀设计的理论基础和在高维问题中的应用。

🚀 超饱和设计

掌握超饱和设计的构造方法和变量筛选技术。

📚 学习路径

阶段一:基础理论 (第2-4周)

建立试验设计的理论基础,掌握基本概念和单因素、多因素试验的分析方法。

阶段二:经典设计 (第5-8周)

学习全因子设计、正交表设计和部分因析试验等经典试验设计方法。

阶段三:现代方法 (第9-14周)

掌握最优设计、稳健设计、计算机试验等现代试验设计理论和方法。

第2周

试验设计基本概念与单因素方差分析

🏛️ 历史视角

农业试验时代

Fisher在试验设计和方差分析(ANOVA)方面的开创性工作,用于比较和选择作物品种。

工业时代

Box的工作推动了过程建模和优化,尤其在化工行业,涉及回归建模和响应曲面方法。

质量革命

Taguchi的稳健参数设计和六西格玛运动,旨在提高质量、减少变异。

当前趋势

计算机建模和试验,应用于生物技术、纳米技术、材料开发等复杂系统。

📖 试验设计的定义与类型

定义

试验设计是任何信息收集活动的设计,其中存在变异,无论是否完全受试验者控制。

试验类型

  • 处理比较:比较一个因子的几种处理方法(如不同水稻品种的产量)
  • 变量筛选:从大量因子中识别少数重要因子
  • 响应曲面探索:识别重要因子后,探索其对系统的影响,建立回归模型
  • 系统优化:确定最优条件(如最大化产量或最小化缺陷)
  • 系统稳健性:优化系统并减少不可控(噪声)因子的影响

🔑 基本定义

因子 (Factor)

影响响应变量的变量。

因子水平 (Factor Level)

因子的数值或设置。

处理或水平组合 (Treatment)

试验中所有因子的设置组合。

试验单元 (Experimental Unit)

施加处理的对象。

随机化 (Randomization)

使用随机机制分配处理到试验单元或确定运行顺序。

🔄 试验的系统方法

  1. 明确研究目标
  2. 选择响应变量(望目、望大、望小)
  3. 选择因子和水平(可使用因果图)
  4. 选择试验设计(计划)
  5. 执行试验(使用规划矩阵)
  6. 分析数据
  7. 得出结论

⚖️ 基本原则:重复、随机化和区组

重复 (Replication)
  • 每个处理应用于代表总体的单元
  • 与重复测量(Repetition)不同
  • 能够估计试验误差
  • 降低估计量的方差,提高检测显著差异的能力
随机化 (Randomization)
  • 使用随机机制分配处理或运行顺序
  • 保护免受潜在变量或"潜伏"变量的影响
  • 减少主观偏差的影响
  • 确保统计推断的有效性
区组 (Blocking)
  • 将同质单元集合在一起形成区组
  • 当区组间变异大于区组内变异时有效
  • 在区组内进行随机化
  • 消除区组间变异,减少处理效应估计的变异性
  • 原则:"能区组的就区组,不能区组的就随机化。"

📊 单因素方差分析 (One-way ANOVA)

定义与特点

处理完全随机地分配给试验单元,试验单元应按随机顺序运行。也称为完全随机设计。

优点
  • 灵活
  • 统计分析直接
  • 即使存在缺失观测也保持简单
缺点

如果单元不相似,试验误差可能较大。

数学模型

\(y_{ij} = \eta + \tau_i + \varepsilon_{ij}\)

其中:

  • \(y_{ij}\) 是第 \(i\) 个处理的第 \(j\) 个观测
  • \(\eta\) 是总均值
  • \(\tau_i\) 是第 \(i\) 个处理效应
  • \(\varepsilon_{ij}\) 是误差

F检验

用于检验原假设 \(H_0: \tau_1 = \dots = \tau_k\)(即处理间无差异)。如果F统计量大于临界值,则拒绝原假设。

🔍 多重比较 (Multiple Comparisons)

目的

当F检验拒绝原假设后,确定哪些处理对之间存在显著差异。

Bonferroni 方法

通过调整每次比较的显著性水平 \(\alpha\) 来控制EER,即使用 \(\alpha / k'\) 作为单次比较的显著性水平,其中 \(k'\) 是比较的总次数。

Tukey 方法

适用于所有两两比较,使用学生化极差分布。通常比Bonferroni方法更具统计功效。

第3周

单因素试验 (2)

📊 单因素试验

目的:研究一个因素(如温度)对产品产量等响应变量的影响。

线性可加模型
\(y_{ij} = \mu + \alpha_i + \varepsilon_{ij}\)

其中 \(y_{ij}\) 是第 \(i\) 个水平下第 \(j\) 次试验的响应,\(\mu\) 是总均值,\(\alpha_i\) 是第 \(i\) 个水平的主效应,\(\varepsilon_{ij}\) 是随机误差。

📈 模型的估计

最小二乘估计 (Least Squares Estimation)

通过最小化残差平方和来估计模型参数。对于单因素试验,水平 \(A_i\) 处的均值 \(\mu_i\) 的最小二乘估计是该水平下响应的平均值 \(\bar{y}_{i.}\)。

极大似然估计 (Maximum Likelihood Estimation, MLE)

通过最大化似然函数来估计模型参数。在正态误差假设下,\(\mu_i\) 的MLE也是 \(\bar{y}_{i.}\),而误差方差 \(\sigma^2\) 的MLE是残差平方和除以总观测数 \(n\)(有偏估计),无偏估计是残差平方和除以自由度 \(n-k\)。

📊 方差分析 (ANOVA)

目的

检验不同水平的均值是否存在显著差异,即检验主效应是否为零 (\(H_0: \alpha_1 = \dots = \alpha_k = 0\))。

平方和分解

\(SS_T = SS_A + SS_E\)

总平方和 (\(SS_T\)) 可以分解为因素平方和 (\(SS_A\)) 和误差平方和 (\(SS_E\))。

F检验

通过比较因素均方 (\(MS_A\)) 和误差均方 (\(MS_E\)) 的比值 \(F = MS_A / MS_E\) 来进行检验。如果F值大于临界值,则拒绝原假设,认为不同水平之间存在显著差异。

🔍 多重比较 (Multiple Comparisons)

最小显著差别法 (Least Significant Difference, LSD)
\(LSD = t_{\alpha/2, n-k} \sqrt{MS_E (1/n_i + 1/n_j)}\)

通过计算LSD来判断两个水平 \(i\) 和 \(j\) 的均值 \(\bar{y}_i\) 和 \(\bar{y}_j\) 是否存在显著差异。如果 \(|\bar{y}_i - \bar{y}_j| \geq LSD\),则认为存在显著差异。

Bonferroni 法

用于控制试验误差率 (Experiment-wise Error Rate),即在进行多重比较时,所有比较中至少有一个第一类错误的概率。它通过调整每次比较的显著性水平 \(\alpha\) 来实现,即使用 \(\alpha / m\) 作为单次比较的显著性水平,其中 \(m\) 是比较的总次数。

Tukey 法

适用于所有两两比较,并且在各水平重复次数相等时效果较好。它使用学生化极差分布 (studentized range distribution) 来进行检验,通常比Bonferroni法更具统计功效。

第4周

多因子试验

👥 配对比较设计 (Paired Comparison Design)

目的

比较两种处理方法(例如,两种检测氯含量的方法)。

特点

将两种处理应用于相同的样本或单元(例如,对同一污水样本使用两种方法)。

优点

可以消除块间变异(例如,样本间的差异),当这种变异较大时非常有效。

与非配对设计的比较

  • 配对t检验:适用于配对数据,自由度为 \(N-1\)
  • 非配对t检验:适用于独立样本,自由度为 \(2N-2\)。非配对检验在存在较大单元间变异时可能无法检测到显著差异

ANOVA分析

配对设计中的ANOVA可以将总变异分解为样本间变异、方法间变异和残差,从而更准确地评估处理效果。

🔄 随机区组设计 (Randomized Block Design, RBD)

目的

比较 \(k\) 种处理,同时控制非试验因子(区组)的变异。

特点

将 \(k\) 种处理随机分配到每个区组(包含 \(k\) 个单元)中。配对比较设计是 \(k=2\) 的特例。

模型

\(y_{ij} = \eta + \alpha_i + \tau_j + \varepsilon_{ij}\)

其中 \(\alpha_i\) 是区组效应,\(\tau_j\) 是处理效应。

ANOVA

将总平方和分解为区组平方和、处理平方和和残差平方和。

检验与多重比较

  • 使用F统计量检验处理效应是否显著
  • 如果处理效应显著,可以使用Tukey方法进行多重比较,以确定哪些处理之间存在显著差异

📐 双向布局 (Two-way Layout)

目的

评估两个处理因子及其交互作用。

与RBD的区别

双向布局中有两个处理因子,而不是一个处理因子和一个区组因子。在RBD中,通常假设区组与处理的交互作用可以忽略。

模型

\(y_{ijl} = \eta + \alpha_i + \beta_j + \omega_{ij} + \varepsilon_{ijl}\)

其中 \(\alpha_i\) 是因子A的主效应,\(\beta_j\) 是因子B的主效应,\(\omega_{ij}\) 是交互效应。

ANOVA

将总平方和分解为因子A平方和、因子B平方和、交互作用平方和和残差平方和。

回归建模方法

对于定性因子,可以使用回归模型来比较和估计不同水平之间的效应。通过设置基线约束,可以解释模型参数的含义,例如 \(\eta\) 表示基线水平的期望响应,\(\alpha_2\) 表示因子A从基线水平到第二个水平的变化量。

第5周

2^k 设计概述

🎯 2^k 设计简介

定义

\(2^k\) 设计是一种特殊的全因子设计,其中有 \(k\) 个因子,每个因子都有两个水平(通常记为 -1 和 +1,或低水平和高水平)。

特点
  • 试验次数为 \(2^k\)
  • 可以估计所有主效应和交互效应
  • 设计矩阵具有正交性
  • 适用于筛选重要因子

优势

  • 效率高:用最少的试验次数获得最多的信息
  • 正交性:各效应的估计相互独立
  • 可扩展性:可以通过分式设计减少试验次数

📊 因子效应 (Factor Effects)

主效应 (Main Effect)

因子从低水平变到高水平时对响应变量的平均影响。对于因子 \(A\):

\(Effect_A = \bar{y}_{A+} - \bar{y}_{A-}\)

其中 \(\bar{y}_{A+}\) 是因子A在高水平时的平均响应,\(\bar{y}_{A-}\) 是因子A在低水平时的平均响应。

交互效应 (Interaction Effect)

两个或多个因子共同作用产生的效应,不能由各因子的主效应简单相加得到。二阶交互效应:

\(Effect_{AB} = \frac{1}{2}[(\bar{y}_{A+B+} - \bar{y}_{A+B-}) - (\bar{y}_{A-B+} - \bar{y}_{A-B-})]\)

效应的几何解释

在 \(2^k\) 设计中,每个效应都对应设计空间中的一个对比(contrast),可以用几何方法直观理解。

📈 回归分析方法

线性模型

\(2^k\) 设计的响应可以用线性模型表示:

\(y = \beta_0 + \sum_{i} \beta_i x_i + \sum_{i

其中 \(x_i \in \{-1, +1\}\) 是编码后的因子水平。

系数估计

由于设计的正交性,回归系数可以直接通过效应计算:

\(\hat{\beta}_i = \frac{Effect_i}{2}\)

模型诊断

  • 残差分析:检查模型假设
  • 正态概率图:验证误差的正态性
  • 拟合优度:评估模型解释能力
第6周

2^k 设计基本原理

🔬 基本原理

随机化 (Randomization)

试验的执行顺序应该随机化,以消除时间趋势和其他系统性偏差的影响。

重复 (Replication)

每个试验条件应该进行多次重复,以:

  • 估计试验误差
  • 提高效应估计的精度
  • 增加统计检验的功效
区组化 (Blocking)

当试验条件不能完全均匀时,可以使用区组设计来控制已知的变异源。

📊 与单因子试验的比较

OFAT (One Factor At a Time)

优点:简单易懂,易于实施

缺点

  • 无法检测交互效应
  • 可能错过最优条件
  • 效率较低
2^k 设计的优势
  • 检测交互效应:能够识别因子间的相互作用
  • 效率更高:用更少的试验获得更多信息
  • 全局优化:在整个因子空间中寻找最优解
  • 模型建立:可以建立预测模型

数值比较

对于3个因子的情况:

  • OFAT:需要 \(1 + 3 \times 2 = 7\) 次试验
  • \(2^3\) 设计:需要 \(2^3 = 8\) 次试验

试验次数相近,但 \(2^3\) 设计能提供更多信息。

第7周

效应显著性检验

📈 正态概率图法 (Normal Probability Plot)

基本思想

如果所有效应都不显著(即都等于零),那么估计的效应应该服从正态分布。显著的效应会偏离正态分布的直线。

操作步骤
  1. 计算所有效应的估计值
  2. 将效应按大小排序
  3. 计算对应的正态分位数
  4. 绘制效应值对正态分位数的散点图
  5. 不显著的效应应该在一条直线上

优点

  • 直观易懂
  • 不需要独立的误差估计
  • 适用于无重复的设计

📊 半正态概率图法 (Half-Normal Plot)

改进之处

使用效应的绝对值和半正态分布,避免了效应符号的影响,使得图形更容易解释。

操作方法
  1. 计算所有效应的绝对值
  2. 按绝对值大小排序
  3. 使用半正态分位数
  4. 显著效应会明显偏离直线

🎯 Lenth方法

目的

提供一种客观的方法来确定效应的显著性,而不依赖于主观的图形判断。

计算步骤
  1. 计算伪标准误差 (PSE):\(PSE = 1.5 \times median\{|effect_i| : |effect_i| < 2.5s_0\}\)
  2. 其中 \(s_0\) 是效应绝对值的中位数
  3. 计算临界值:\(ME = t_{\alpha/2, d} \times PSE\)
  4. 其中 \(d\) 是用于计算PSE的效应个数的1/3

判断准则

如果 \(|effect_i| > ME\),则认为该效应显著。

第8周

目标值问题与方差分析

🎯 目标值问题 (Target Value Problems)

问题描述

当响应变量有特定的目标值时,如何选择因子水平使响应尽可能接近目标值。

解决方法
  1. 建立预测模型:基于试验数据建立响应面模型
  2. 优化求解:使用数值优化方法寻找最优因子组合
  3. 验证试验:在预测的最优条件下进行验证试验

多响应优化

当有多个响应变量时,需要考虑:

  • 各响应的相对重要性
  • 响应间的权衡关系
  • 约束条件的处理

📊 分散性分析 (Analysis of Dispersion)

ln s² 方法

当关注响应的变异性时,可以将每个试验条件下的样本方差的对数作为新的响应变量进行分析:

\(y_{dispersion} = \ln(s^2)\)
应用场景
  • 质量控制:寻找减少产品变异的因子组合
  • 稳健设计:识别对噪声因子不敏感的条件
  • 过程优化:同时优化均值和方差

分析步骤

  1. 对每个试验条件计算样本方差 \(s^2\)
  2. 计算 \(\ln(s^2)\) 作为新响应
  3. 使用标准的 \(2^k\) 分析方法
  4. 识别影响变异性的重要因子

🔄 2^k 设计中的区组化

必要性

当试验条件不能在均匀环境下完成时,需要使用区组设计来控制已知的变异源。

设计原则
  • 区组内均匀:同一区组内的试验条件应尽可能相似
  • 区组间差异:不同区组间可以存在系统性差异
  • 平衡性:每个区组内应包含平衡的试验组合

常见的区组策略

  • 完全区组:每个区组包含所有 \(2^k\) 个试验点
  • 不完全区组:每个区组只包含部分试验点
  • 混杂设计:某些效应与区组效应混杂
第9周

三水平设计与正交表

🎯 三水平设计 (3-level Designs)

定义与特点

三水平设计中每个因子有三个水平,通常记为 -1, 0, +1 或低、中、高水平。

  • 可以检测二次效应(曲率效应)
  • 适用于响应面建模
  • 试验次数为 \(3^k\)(全因子设计)
线性与二次效应

线性效应:响应随因子水平线性变化

二次效应:响应与因子水平呈二次关系,表示曲率

\(y = \beta_0 + \beta_1 x + \beta_{11} x^2 + \varepsilon\)

正交多项式对比

对于等间距的三水平,可以使用正交多项式来分解效应:

  • 线性对比:(-1, 0, +1)
  • 二次对比:(+1, -2, +1)

📊 正交表 (Orthogonal Arrays)

定义

正交表是一种特殊的试验设计表,记为 \(L_N(s^k)\),其中:

  • \(N\):试验次数
  • \(s\):每个因子的水平数
  • \(k\):最多可安排的因子数
正交性特征

在正交表的任意两列中,每种水平组合出现的次数相等。这保证了:

  • 各因子效应的估计相互独立
  • 设计具有平衡性
  • 分析简化

常用正交表

  • \(L_4(2^3)\):4次试验,最多3个2水平因子
  • \(L_8(2^7)\):8次试验,最多7个2水平因子
  • \(L_9(3^4)\):9次试验,最多4个3水平因子
  • \(L_{16}(2^{15})\):16次试验,最多15个2水平因子

🔧 正交表的应用

因子安排

将试验因子分配到正交表的列中。如果因子数少于表的列数,剩余列可以:

  • 留空(用于估计误差)
  • 安排交互效应
  • 安排虚拟因子
构造方法
  1. 基本序列法:从基本正交表开始构造
  2. 差集法:利用数学差集理论
  3. 有限域法:基于有限域的代数结构
第10周

正交表分析与线性图

📈 正交表的分析方法

直观分析法

通过计算各因子不同水平下的平均响应来判断因子的重要性:

  1. 计算每个因子各水平的平均响应
  2. 计算极差(最大值-最小值)
  3. 极差越大,因子越重要
方差分析法

使用ANOVA方法进行更严格的统计分析:

  • 计算各因子的平方和
  • 进行F检验
  • 确定显著因子

交互效应分析

当正交表中安排了交互效应时,需要特别注意:

  • 交互效应的计算方法
  • 交互效应图的绘制
  • 交互效应的解释

🔗 线性图 (Linear Graphs)

定义与作用

线性图是一种图形工具,用于:

  • 选择合适的正交表
  • 将因子和交互效应分配到正交表的列中
  • 避免混杂问题
图形元素
  • 节点:代表正交表的列(因子)
  • :代表两个因子的交互效应
  • 边上的数字:表示交互效应所在的列

使用步骤

  1. 确定需要研究的因子和交互效应
  2. 选择合适的线性图
  3. 将主要因子分配到节点
  4. 检查所需交互效应是否可以安排
  5. 完成因子分配
第11周

混杂与饱和设计

⚠️ 混杂 (Confounding)

定义

混杂是指两个或多个效应无法独立估计的现象。在试验设计中,当设计矩阵的某些列相同或成比例时就会发生混杂。

产生原因
  • 试验次数不足:无法独立估计所有效应
  • 设计选择不当:正交表的列数限制
  • 因子安排错误:将相关效应安排在同一列

混杂的影响

  • 无法区分混杂的效应
  • 可能导致错误的结论
  • 降低试验的信息量

处理策略

  1. 设计阶段避免:合理选择正交表和因子安排
  2. 假设某些效应可忽略:基于专业知识
  3. 后续试验澄清:设计专门试验区分混杂效应

🎯 饱和设计 (Saturated Designs)

定义

饱和设计是指试验次数等于需要估计的参数个数的设计。在这种设计中,没有自由度用于估计误差。

特点
  • 效率最高:用最少试验获得最多信息
  • 无误差估计:没有重复或剩余自由度
  • 假设严格:通常假设高阶交互效应为零

应用场景

  • 筛选试验:从众多因子中筛选重要因子
  • 资源限制:试验成本高或时间紧迫
  • 初步探索:对系统的初步了解

分析方法

  • 正态概率图法
  • 半正态概率图法
  • Lenth方法
  • 专业知识判断
第12周

田口方法

🎯 田口方法概述

核心思想

田口方法(Taguchi Methods)是一套系统的质量工程方法,旨在设计稳健的产品和过程,使其对噪声因子不敏感。

主要特点
  • 稳健设计:减少产品性能的变异
  • 质量损失函数:量化偏离目标的损失
  • 信噪比:综合评价指标
  • 正交表应用:高效的试验设计

📊 质量损失函数 (Quality Loss Function)

基本形式

田口提出的二次损失函数:

\(L(y) = k(y - T)^2\)

其中 \(y\) 是质量特性值,\(T\) 是目标值,\(k\) 是损失系数。

三种类型
  • 望目特性:有特定目标值(如尺寸)
  • 望小特性:越小越好(如缺陷率)
  • 望大特性:越大越好(如强度)

期望损失

\(E[L(y)] = k[\sigma^2 + (\mu - T)^2]\)

包含两部分:方差项(变异损失)和偏差项(偏离目标的损失)。

📈 信噪比 (Signal-to-Noise Ratio, SNR)

定义

信噪比是田口方法中的核心指标,用于同时考虑均值和方差的影响。

三种SNR
  • 望目特性:\(SNR = 10\log_{10}\left(\frac{\mu^2}{\sigma^2}\right)\)
  • 望小特性:\(SNR = -10\log_{10}\left(\frac{1}{n}\sum y_i^2\right)\)
  • 望大特性:\(SNR = -10\log_{10}\left(\frac{1}{n}\sum \frac{1}{y_i^2}\right)\)

分析方法

  1. 对每个试验条件计算SNR
  2. 将SNR作为响应变量进行分析
  3. 选择使SNR最大的因子水平组合

🔄 两步优化法

基本思想

将参数设计分为两个步骤:

  1. 第一步:选择使SNR最大的因子水平(减少变异)
  2. 第二步:调整均值到目标值(通常通过调节因子)
调节因子

理想的调节因子应该:

  • 对均值有显著影响
  • 对方差影响很小
  • 成本低,易于调节
第13周

分式因子设计与现代方法

🔄 两水平分式因子试验

定义

分式因子设计是全因子设计的一部分,记为 \(2^{k-p}\),其中 \(k\) 是因子数,\(p\) 是分式数,试验次数为 \(2^{k-p}\)。

优缺点

优点

  • 大幅减少试验次数
  • 适用于筛选试验
  • 成本效益高

缺点

  • 某些效应会混杂
  • 信息损失
  • 需要假设高阶交互效应可忽略

生成元与定义关系

生成元 (Generators)

用于构造分式设计的关系式,例如 \(I = ABCD\) 表示四因子交互效应设为单位元。

定义关系 (Defining Relation)

所有生成元及其乘积构成的集合,决定了设计的混杂模式。

📊 分辨度与投影

分辨度 (Resolution)

分辨度是定义关系中最短单词的长度,用罗马数字表示:

  • 分辨度III:主效应与二阶交互效应混杂
  • 分辨度IV:主效应清晰,二阶交互效应相互混杂
  • 分辨度V:主效应和二阶交互效应都清晰
投影 (Projection)

当某些因子不重要时,分式设计在剩余因子上的投影可能形成更强的设计。

折叠设计 (Foldover)

通过改变某些因子的符号来构造新的分式设计,可以:

  • 去除某些混杂
  • 提高分辨度
  • 获得更多信息

🔄 序贯试验与中心点

序贯试验 (Sequential Experimentation)

根据前期试验结果设计后续试验的策略:

  1. 筛选试验:识别重要因子
  2. 精细试验:研究重要因子的详细效应
  3. 优化试验:寻找最优条件
中心点 (Center Points)

在 \(2^k\) 设计中添加中心点(所有因子都在中间水平)可以:

  • 检测曲率效应
  • 估计纯误差
  • 提供设计的稳健性
第14周

现代试验设计方法

🎯 非正规设计 (Non-regular Designs)

定义与特征

非正规设计是指不能用简单生成元构造的设计,具有复杂的混杂模式。

  • 混杂模式用广义定义关系描述
  • 可能具有更好的投影性质
  • 分析需要特殊方法
分析方法
  • 最小二乘估计:处理非正交设计
  • ANOVA分解:考虑复杂混杂结构
  • 效应层次原理:假设低阶效应更重要

📈 最优设计

设计准则
  • D-最优:最大化 \(|X'X|\)(参数估计精度)
  • A-最优:最小化 \(tr[(X'X)^{-1}]\)(平均方差)
  • G-最优:最小化最大预测方差
  • I-最优:最小化平均预测方差
构造算法
  • 交换算法:逐步改进设计点
  • 遗传算法:模拟生物进化过程
  • 模拟退火:概率性搜索算法

🌐 响应面方法 (Response Surface Methodology)

核心思想

通过试验建立响应变量与因子之间的数学模型,然后利用模型进行优化。

常用设计
  • 中心复合设计 (CCD):包含因子点、轴点和中心点
  • Box-Behnken设计 (BBD):三水平设计的特殊形式
  • 混合水平设计:不同因子有不同水平数

优化方法

  • 最陡上升法:沿梯度方向寻找最优区域
  • 响应面分析:基于二次模型的优化
  • 多响应优化:同时优化多个响应

🔬 计算机试验

特点

计算机试验具有确定性、高维度、计算成本高等特点,需要特殊的设计方法。

设计方法
  • 拉丁超立方抽样:保证各维度的均匀性
  • 空间填充设计:在设计空间中均匀分布
  • 正交拉丁超立方:结合正交性和空间填充

代理模型

  • 高斯过程:提供不确定性量化
  • 径向基函数:适用于高维问题
  • 多项式回归:简单易解释

📊 均匀设计与超饱和设计

均匀设计 (Uniform Design)

追求试验点在设计空间中的均匀分布,适用于:

  • 计算机试验
  • 高维问题
  • 非线性模型
超饱和设计 (Supersaturated Designs)

试验次数少于因子数的设计,用于:

  • 大规模因子筛选
  • 资源极度受限的情况
  • 初步探索性研究

分析方法

  • 逐步回归:变量选择
  • LASSO:带惩罚的回归
  • 主成分回归:降维处理
第3周

单因素试验 (1)

📊 单因素方差分析 (One-Way ANOVA)

目的:检验一个定量因子(如激光功率)的不同水平对响应变量(如复合材料的粘合强度)的影响。

数据特点

包含不同激光功率水平下的粘合强度数据。

ANOVA表

显示了方差来源(激光、残差、总和)、自由度、平方和、均方和F值。通过F检验的p值来判断激光功率是否对强度有显著影响。

📈 线性和二次效应 (Linear and Quadratic Effects)

目的

当定量因子有多个水平时,可以将其效应分解为线性和二次(甚至更高阶)成分,以更详细地理解其影响。

对比向量

线性对比
\(y_3 - y_1\),对比向量为 \((-1, 0, 1)\)
二次对比
\(y_1 - 2y_2 + y_3\),对比向量为 \((1, -2, 1)\)

正交性

线性和二次对比向量是相互正交的。

回归模型

可以构建一个包含线性和二次效应的回归模型来估计这些效应的参数。

🔢 正交多项式 (Orthogonal Polynomials)

目的

将线性和二次对比向量的概念扩展到整个因子区间,以便在试验范围之外进行预测。

定义

对于三个等间距的水平,可以定义一阶和二阶正交多项式 \(P_1(x)\) 和 \(P_2(x)\),它们是线性和二次对比向量的扩展。

应用

  • 使用正交多项式构建回归模型
  • 可以得到与使用对比向量相同的效应估计值
  • 利用拟合的多项式回归模型进行预测

🔍 残差分析 (Residual Analysis)

目的

评估模型的充分性,检测模型假设是否被违反。

残差定义

\(r_i = y_i - \hat{y}_i\)

是观测值与模型拟合值之间的差异。

残差图类型

残差 vs. 拟合值

理想情况下,残差应随机分布在0周围,形成一个平行带。如果出现扇形或曲线模式,可能表明误差方差不恒定或模型不充分。

残差 vs. 因子水平

如果残差图显示出某种模式,可能表明模型未能完全捕捉响应与因子之间的关系。

正态概率图

用于检验残差是否服从正态分布。如果残差服从正态分布,其点将近似落在一条直线上。

🎲 单因素随机效应模型

目的

当试验中的因子水平是从一个更大的总体中随机抽取时,研究总体中因子水平间的变异。

模型

\(y_{ij} = \eta + \tau_i + \varepsilon_{ij}\)

其中 \(\tau_i\) 是随机效应,服从正态分布 \(N(0, \sigma_{\tau}^2)\)。

方差分量

  • \(\sigma^2\) 是误差方差
  • \(\sigma_{\tau}^2\) 是处理间方差

假设检验

原假设通常是 \(H_0: \sigma_{\tau}^2 = 0\),即处理间没有变异。