在质量和制造领域,统计测试是为决策提供客观证据的唯一方法。它们有助于识别流程中的变化,区分随机波动和实际问题。在工程领域,统计有助于识别系统性能的模式、异常值和故障源,确保以数据为导向进行决策。通过严格分析实验结果,工程师可以验证产品设计和制造流程,在实施前发现潜在问题。这种系统化的方法可降低意外故障的风险,并通过确保可靠性和符合国际安全标准来提高整体安全性。 标准.
本篇文章将回顾生产和制造过程中使用的主要统计检验方法。 全面质量管理 (全面质量管理).
注:由于也涉及工程、研究和科学,以下 2 项统计测试和分析
- 相关性分析: 衡量两个变量之间关系的强度和方向(如皮尔逊相关系数)。
- 回归分析: 从简单的线性回归到多元回归,研究变量(如输入因素和过程输出)之间的关系。
这里不包括这些算法,而是专门介绍工程学的 10 种主要算法。
正态性检验

在统计检验领域,许多常用的统计方法(t 检验、方差分析、线性回归等)都假定数据是正态/高斯分布的(或残差/误差是正态的)。违反这一假设会使结果不可靠:P 值可能会误导人,置信区间可能会出错,I/II 类错误的风险也会增加。请注意,有些检验(如单因素方差分析)可以很好地处理非正态分布。
注意:如果您的数据不符合正态性,请参阅下面的实际案例,您可能需要使用非参数检验(如 Mann-Whitney U 检验或 Kruskal-Wallis 检验),这些检验不假定数据符合正态性,或者对数据进行转换,这不在本篇文章的讨论范围之内。
虽然有多种统计检验方法,但在此我们将详细介绍 Shapiro-Wilk 检验方法,该方法尤其适用于小样本量,通常 n < 50,但也可用于多达 2000 个样本。
顺便提一下,其他常见的正态性检验:
- Kolmogorov-Smirnov (K-S) 检验(带 Lilliefors 校正):样本量较大时效果更好,但灵敏度不如 Shapiro-Wilk,尤其是在小数据集上
- 安德森-达林检验:适用于所有样本量,对分布的尾部(极值)更敏感,对检测极值偏离正态性更强。
如何进行 Shapiro-Wilk 正态性检验
1.计算或计算 Shapiro-Wilk 检验统计量 (W): [latex]W = \frac{left(\sum_{i=1}^{n} a_i x_{(i)}\right)^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}[/latex] 注:由于 [latex]a_i[/latex] 系数的计算并不复杂,通常需要一个表格或算法,这就是为什么 Shapiro-Wilk 检验几乎总是由 R、Python 的 SciPy 和 MS 等软件计算的原因。 在 Excel 附加组件或其他专用软件。 如需手动计算,请参见本页 提供了最多 50 个样本的所有 [latex]a_i[/latex] 系数和 p 值。 W 值介于 0 和 1 之间(W = 1:完全正态性。W<1:离 1 越远,数据越不正常)。 2.W 是不够的。它需要与相应的 p 值结合起来才能得到置信水平。在 Shapiro-Wilk 表中,在 在 n 个样本量的行中,查找与计算出的 W 值最接近的值,并获取其对应的 顶部的 p 值 | 分子表示加权有序样本值的平方和。 分母是与样本平均数的平方差之和(即样本方差,按 (n-1) 缩放)。 [latex]x_{(i)}[/latex] = 第 i 阶统计量(即样本中第 i 个最小值) [latex]x_i[/latex] = 第 i 个观测值 [latex]\bar{x}[/latex] = 样本平均数 [latex]a_i[/latex] = 根据标准正态分布((N(0,1))样本阶次统计量的均值、方差和协方差计算得出的常量(权重),且仅取决于 n(样本数)。 n = 样本数量 |
3. 结果 如果 p 值大于所选的α水平(例如 0.05),则有统计证据表明所测试的数据是正态分布的。 |
对于正态性检验,通常建议将数字方法与图形方法(如亨利线、Q-Q 图或直方图)相结合:
心智非正态分布!
虽然正态分布/高斯分布是最常见的情况,但不应自动假定为正态分布/高斯分布。日常的反例有
- 个人之间的财富和收入分配。它遵循帕累托(幂律)分布,偏斜的 "长尾 "是非常富有的个人。
- 一个国家的城市人口规模遵循齐普夫定律(幂律),即几个非常大的城市和许多小城镇。
- 地震的震级和频率呈幂律/古腾堡-里克特分布:小地震常见,大地震罕见。
- 金融市场的每日价格变化或回报:肥尾/重尾分布,而非高斯分布;大偏差出现的频率高于正态分布的预测。
- 语言中的词频,正如上述城市人口一样,遵循齐普夫定律(幂律):经常使用的词很少,大多数词都很罕见。
- 互联网流量/网站受欢迎程度:幂律/长尾:有些网站的点击率高达数百万次,而大多数网站的点击率却很低。
- 计算机系统上的文件大小:对数正态分布或幂律分布,大文件少,小文件多。
- 人类寿命/长寿:右斜(可以用 威布尔 或 Gompertz 分布),而不是正态分布;更多的人死于年龄较大。
- 社交网络连接遵循幂律:少数用户的连接数多,多数用户的连接数少。
其中大多数的特点是 "少大多小",是幂律、重尾、指数或对数正态分布的特征,而不是高斯分布的对称形状。
t 检验(学生 t 检验)
t 检验(又称 "学生 t")由威廉-西利-戈塞特(William Sealy Gosset)于 1908 年以 "学生 "的笔名提出,是一种统计检验,用于在样本量较小且群体方差未知的情况下比较均值。它侧重于比较两个群体的均值,是制造业中最常用的检验之一。

目的是 t 检验可帮助工程师和质量专业人员确定两组平均值之间或样本平均值与已知标准之间是否存在统计学意义上的显著差异。它通常用于假设检验,以评估流程变更或产品修改是否对产品性能产生影响。 引领 真正的改进或差异,超出了偶然的预期。
行业实例:
- 在汽车制造领域,t 检验可用于比较来自两个不同供应商的钢材的抗拉强度,以确保质量的一致性。
- 在制药领域,t 检验用于分析新生产工艺生产的药片的平均重量是否与标准有显著差异。
- 在电子学中,工程师可能会使用 t 检验来验证是否存在...
您已阅读了文章的 35%。其余部分为社区内容。已经是会员? 登录
(同时也是为了保护我们的原创内容不被机器人搜刮)。
创新世界社区
登录或注册(100% 免费)
查看本文其余部分以及所有会员专享内容和工具。
只有真正的工程师、制造商、设计师和营销人员才是专业人士。
没有机器人,没有仇恨者,没有垃圾邮件发送者。
有趣的阅读!但在非正态分布中,参数检验(如 t 检验)是否会产生误导?很想听听您的看法!
当然,但即使是非参数检验也有一些缺陷
相关文章
工作站人体工程学评估
工程变更单 (ECO):最大限度地减少中断和成本的最佳实践
从实验室到市场:试生产的作用
45+ 游戏和营销的认知科学技巧:心理和参与度
45+ 个游戏和营销的认知科学技巧:心理和参与度
沸石最新出版物和专利