Statistical tests are the only way in quality and manufacturing to provide objective evidence for decision-making. They help identify variations in processes and distinguish between random fluctuations and actual problems. In engineering, statistics help identify patterns, outliers, and sources of failure in system performance, ensuring data-driven decision-making. By rigorously analyzing experimental results, engineers can validate product designs and manufacturing processes, detecting potential problems before implementation. This systematic approach reduces the risk of unexpected failures and enhances overall safety by ensuring reliability and compliance with international safety normes.
Ce billet passe en revue les principaux tests statistiques utilisés dans la fabrication et la gestion de la qualité totale (GQT).
Note : étant donné qu'ils concernent également l'ingénierie, la recherche et la science, les 2 tests et analyses statistiques suivants
- l'analyse des corrélations : mesure la force et la direction de la relation entre deux variables (par exemple, le coefficient de corrélation de Pearson).
- l'analyse de régression : examine la relation entre les variables (par exemple, les facteurs d'entrée et les résultats du processus), de la simple régression linéaire à la régression multiple.
ne sont pas inclus ici mais dans un article spécifique sur les 10 principaux algorithmes pour l'ingénierie.
Tests de normalité

Dans le monde des tests statistiques, de nombreuses méthodes statistiques courantes (tests t, ANOVA, régression linéaire, etc.) supposent que les données sont distribuées de façon normale/gaussienne (ou que les résidus/erreurs sont normaux). La violation de cette hypothèse peut rendre les résultats peu fiables : les valeurs p peuvent être trompeuses, les intervalles de confiance peuvent être erronés et le risque d'erreurs de type I/II augmente. Notez que certains tests, comme l'ANOVA à une voie, peuvent raisonnablement bien gérer une distribution non normale.
Remarque : si vos données ne sont pas normales (voir les cas réels ci-dessous), vous devrez peut-être utiliser des tests non paramétriques (comme le test U de Mann-Whitney ou le test de Kruskal-Wallis), qui ne supposent pas la normalité, ou transformer vos données, ce qui n'entre pas dans le cadre de cet article.
Bien qu'il existe plusieurs tests statistiques pour cela, nous détaillerons ici le test de Shapiro-Wilk, célèbre surtout pour les échantillons de petite taille, typiquement n < 50, mais qui peut être utilisé jusqu'à 2000.
Pour information, il existe d'autres tests de normalité courants :
- Test de Kolmogorov-Smirnov (K-S) (avec correction de Lilliefors) : fonctionne mieux avec des tailles d'échantillons plus importantes tout en étant moins sensible que le test de Shapiro-Wilk, en particulier pour les petits ensembles de données.
- Test d'Anderson-Darling : il est efficace pour toutes les tailles d'échantillons et est plus sensible dans les queues (extrêmes) de la distribution tout en étant plus puissant pour détecter les écarts par rapport à la normalité dans les extrêmes.
Comment effectuer le test de normalité de Shapiro-Wilk ?
1. Calculez la statistique du test de Shapiro-Wilk (W) : \(W = \frac{\left(\sum_{i=1}^{n} a_i x_{(i)}\right)^2}{\sum_{i=1}^{n} (x_i – \bar{x})^2}\)Note: as the calculation of the \(a_i\) coefficients is nontrivial and generally requires a table or algorithm, which is why the Shapiro-Wilk test is nearly always computed by software such as R, Python’s SciPy, MS Excel add-ons or other dedicated softwares. Pour un calcul manuel, cette page provides all the \(a_i\) coefficients and p-value for samples up to 50. La valeur de W est comprise entre 0 et 1 (W = 1 : normalité parfaite. W < 1 : plus il s'éloigne de 1, moins les données sont normales). 2. W ne suffit pas. Il est associé à la valeur p correspondante pour obtenir le niveau de confiance. Dans le tableau de Shapiro-Wilk, à la ligne de la taille de l'échantillon n, recherchez la valeur la plus proche de votre W calculé et obtenez la valeur correspondante. Valeur p en haut | Le numérateur représente la somme quadratique des valeurs de l'échantillon ordonné pondéré. Le dénominateur est la somme des écarts au carré par rapport à la moyenne de l'échantillon (c'est-à-dire la variance de l'échantillon, échelonnée par (n-1)). \(x_{(i)}\) = the i-th order statistic (i.e., the i-th smallest value in the sample) \(x_i\) = the i-th observed value \(\bar{x}\) = the sample mean \(a_i\) = constants (weights) calculated from the mean, variances, and covariances of the order statistics of a sample from a standard normal distribution ((N(0,1))), and depend only on n (sample size). n = taille de l'échantillon |
3. Résultat : si la valeur p est supérieure au niveau alpha choisi (par exemple 0,05), il existe une preuve statistique que les données testées sont normalement distribuées. |
Pour les tests de normalité, il est souvent conseillé de combiner une méthode numérique avec une méthode graphique telle que la ligne de Henry, les diagrammes Q-Q ou les histogrammes :
Attention aux distributions non normales !
Bien que la distribution normale/gaussienne soit le cas le plus fréquent, elle ne doit pas être automatiquement présumée. Parmi les contre-exemples quotidiens, on peut citer
- Répartition de la richesse et des revenus entre les individus. Elle suit une distribution de Pareto (loi de puissance), asymétrique avec une "longue queue" d'individus très riches.
- La taille de la population des villes d'un pays suit la loi de Zipf (loi de puissance), avec quelques très grandes villes et de nombreuses petites villes.
- La magnitude et la fréquence des tremblements de terre correspondent à une loi de puissance/Gutenberg-Richter : les petits tremblements de terre sont fréquents, les grands sont rares.
- Variations quotidiennes des prix ou des rendements sur les marchés financiers : distributions à queue épaisse/grande, non gaussiennes ; les écarts importants sont plus fréquents que ce que prévoyait une distribution normale.
- La fréquence des mots dans la langue, comme la population de la ville ci-dessus, suit une loi de Zipf (loi de puissance) : Peu de mots sont utilisés souvent, la plupart des mots sont rares.
- Trafic Internet/popularité des sites web : loi de puissance/longue traîne : Certains sites ont des millions de visites, la plupart en ont très peu.
- Taille des fichiers sur les systèmes informatiques : log-normale ou loi de puissance, avec quelques très gros fichiers et beaucoup de petits.
- Durée de vie/longévité humaine : asymétrique à droite (peut être modélisée avec Weibull ou de Gompertz), et non normale ; davantage de personnes meurent à des âges plus avancés.
- Les connexions sur les réseaux sociaux suivent une loi de puissance : peu d'utilisateurs ont beaucoup de connexions, la plupart en ont peu.
La plupart d'entre elles se caractérisent par "peu de grands, beaucoup de petits", une signature de lois de puissance, de queues lourdes, de distributions exponentielles ou log-normales, et non par la forme symétrique de la gaussienne.
Le test t (test t de Student)
Le test t (alias "t de Student"), mis au point par William Sealy Gosset sous le pseudonyme de "Student" en 1908, est un test statistique utilisé pour comparer des moyennes lorsque la taille des échantillons est faible et que la variance de la population est inconnue. Axé sur la comparaison des moyennes de deux populations, c'est l'un des tests les plus utilisés dans le domaine de la fabrication.

Objet : Le test t aide les ingénieurs et les professionnels de la qualité à déterminer s'il existe une différence statistiquement significative entre les moyennes de deux groupes ou entre la moyenne d'un échantillon et une norme connue. Il est couramment utilisé dans les tests d'hypothèse pour évaluer si des changements de processus ou des modifications de produits ont eu un impact sur la qualité des produits. dirigé des améliorations ou des différences réelles, au-delà de ce qui pourrait être attendu par hasard.
Exemples pratiques dans l'industrie :
- Dans la construction automobile, un test t peut être utilisé pour comparer la résistance à la traction de l'acier provenant de deux fournisseurs différents afin de garantir une qualité constante.
- Dans le domaine pharmaceutique, le test t est utilisé pour analyser si un nouveau processus de production permet d'obtenir des comprimés dont le poids moyen est significativement différent de la norme.
- In electronics, engineers may use the t-Test to verify if a design change in a circuit board results in a measurable improvement in electrical resistance.
Comment réaliser le test t de Student
Il existe de nombreuses variantes du test t ; l'exemple qui suit se concentre sur le "test t à deux échantillons" dans sa version "non appariée", qui compare les échantillonnages de deux lots de production différents.
- Énoncez votre hypothèse nulle et votre hypothèse alternative ; dans cet exemple, "il n'y a pas de différence entre les moyennes" ou "il y a des différences".
- Recueillez les données des deux lots de production comparés et calculez
- the 2 sample means \(\bar{X} = \frac{1}{n_1} \sum_{i=1}^{n_1} X_i\) and \(\bar{Y} = \frac{1}{n_2} \sum_{j=1}^{n_2} Y_j\)
- Calculate the 2 sample variances: \(S_X^2 = \frac{1}{n_1-1} \sum_{i=1}^{n_1} (X_i – \bar{X})^2\) and \(S_Y^2 = \frac{1}{n_2-1} \sum_{j=1}^{n_2} (Y_j – \bar{Y})^2\)
- la taille des échantillons.
- Calculer la statistique du test. Bien que la méthode suppose que les deux échantillons sont indépendants et que les deux échantillons proviennent de populations normalement distribuées, il existe encore deux cas :
- si l'on suppose des variances égales (“pooled” t-test;): Pooled variance: \(S_p^2 = \frac{ (n_1-1)S_X^2 + (n_2-1)S_Y^2 }{ n_1 + n_2 – 2 }\)
Test statistic: \(t = \frac{ \bar{X} – \bar{Y} }{ S_p \sqrt{ \frac{1}{n_1} + \frac{1}{n_2} } }\) - si variances inégales (Welch’s t-test): Test statistic: \(t = \frac{ \bar{X} – \bar{Y} }{ \sqrt{ \frac{S_X^2}{n_1} + \frac{S_Y^2}{n_2} } }\) Degrees of freedom (approximate, Welch-Satterthwaite): \(df = \frac{\left( \frac{S_X^2}{n_1} + \frac{S_Y^2}{n_2} \right)^2}{ \frac{ (S_X^2 / n_1)^2 }{ n_1 – 1 } + \frac{ (S_Y^2 / n_2)^2 }{ n_2 – 1 } }\)
- si l'on suppose des variances égales (“pooled” t-test;): Pooled variance: \(S_p^2 = \frac{ (n_1-1)S_X^2 + (n_2-1)S_Y^2 }{ n_1 + n_2 – 2 }\)
- Use the calculated ( t ) and degrees of freedom (\(n_1+n_2-2\) for equal variances, or the Welch formula) to look up or compute the p-value from the t-distribution (depending on whether it’s a one-tailed or two-tailed test).
- Résultat : comparez la valeur t calculée à la valeur t critique à partir de tableaux statistiques basés sur le niveau de confiance et les degrés de liberté que vous avez choisis ; vous pouvez également utiliser un logiciel pour la valeur p. Si la statistique t dépasse la valeur critique ou si la valeur p est inférieure à votre seuil (généralement 0,05), rejetez l'hypothèse nulle.
Le test F
Le test F, introduit par le statisticien Ronald A. Fisher au début du 20e siècle, est utilisé pour comparer la variabilité entre deux ensembles de données, afin d'évaluer si leurs variances de population sont significativement différentes. Dans le domaine de la qualité et de l'ingénierie, il permet souvent de déterminer si des changements de processus ou des machines différentes produisent des résultats cohérents ou si de nouvelles méthodes affectent la variabilité des produits. Il s'agit souvent d'une étape préliminaire avant d'appliquer les tests t et l'ANOVA à des comparaisons plus importantes.
Objet : Le test F est utilisé pour confirmer que deux processus ou échantillons présentent le même niveau de variation, ce qui permet de prendre des décisions en matière de contrôle de la qualité et d'améliorer les processus. Il aide les ingénieurs à déterminer si des changements (par exemple, de nouvelles machines, de nouveaux fournisseurs ou de nouveaux matériaux) ont un impact sur l'uniformité ou la qualité d'un produit.
Exemples de secteurs d'activité
- Fabrication : comparaison des écarts dimensionnels des pièces produites par deux machines différentes afin de s'assurer que les deux machines produisent de manière cohérente en respectant les normes de qualité.
- Évaluation des fournisseurs : comparaison de la variabilité de la résistance des matières premières provenant de deux fournisseurs différents afin de déterminer si l'un d'entre eux offre une qualité plus constante.
- Amélioration de la qualité : tester si une amélioration du processus (comme une nouvelle méthode d'étalonnage) a réduit la variabilité du poids du produit final par rapport à l'ancienne méthode.
Comment utiliser le test F
- Recueillir deux séries de données d'échantillonnage (par exemple, les mesures du processus A et du processus B).
- Calculez la variance pour chaque groupe d'échantillons A et B.
- Divisez la plus grande variance par la plus petite variance pour obtenir la valeur F.
- Résultat : comparer cette valeur F à une valeur critique du tableau de distribution F en fonction de la taille des échantillons et du niveau de confiance souhaité ; si la valeur F calculée est supérieure, les variances sont significativement différentes. Dans les tests statistiques, les tests de rapport de variance, les degrés de liberté (DOF) associés à chaque groupe sont la quantité d'échantillons moins un (notez que cela est différent pour une comparaison de résultats ANOVA).
Tableau de distribution F : lien vers le tableau de distribution F Tableau de distribution F jusqu'à 15×15 DOF (et calculateur critique F en ligne pour les DOF plus importants)
Analyse de la variance (ANOVA)
Alors que le test F ci-dessus se réfère de manière générale à tout test statistique qui utilise la distribution F et qui est utilisé pour comparer les variances ou les rapports de variances entre deux groupes ou plus, l'ANOVA est une variante qui compare les moyennes de trois groupes ou plus pour voir si au moins l'un d'entre eux est significativement différent. Le test ANOVA a également été développé par Ronald Fisher dans les années 1920 en tant qu'outil statistique pour les expériences agricoles.
Objet : L'analyse de la variance (ANOVA) consiste à déterminer s'il existe des différences statistiquement significatives entre les moyennes de trois groupes indépendants ou plus. Dans le domaine de la qualité et de l'ingénierie, et plus particulièrement en Plans d'expériences (DOE)Elle permet d'identifier les facteurs ou les processus qui ont un impact significatif sur la performance ou la production d'un produit, ce qui facilite la prise de décision et l'amélioration des processus.
Exemples :
- Dans la production pharmaceutique, l'ANOVA peut aider à comparer les effets de différents processus de formulation sur l'efficacité d'un médicament.
- En électronique, elle est utilisée pour vérifier si la variation des taux de défaillance des cartes de circuits imprimés est due à des lots différents de matières premières.
ANOVA en bref
1. Définissez les groupes ou les traitements que vous souhaitez comparer et recueillez les données de chaque groupe. Calculer
2. Utilisez ces valeurs pour calculer la statistique F (voir à droite), qui est le rapport entre la variance entre les groupes et la variance à l'intérieur des groupes. 3. Comparez la statistique F à une valeur critique du tableau de distribution F à un niveau de signification choisi (par exemple 0,05). 4. Résultat : si la statistique F dépasse la valeur critique, vous concluez qu'il existe des différences significatives entre les moyennes des groupes. | La statistique F : Le F correspond à la Moyenne des carrés entre les groupes (MSB) divisée par Moyenne des carrés à l'intérieur des groupes (MSW) En pratique : \(F = \frac{ \frac{SSB}{k-1} }{ \frac{SSW}{N-k} }\) SSB = Somme des carrés entre les groupes |
Le test du chi carré
Le test du chi carré, introduit par Karl Pearson en 1900, a révolutionné les tests d'hypothèses statistiques en fournissant une méthode permettant de déterminer s'il existe une différence significative entre les fréquences attendues et observées dans les données catégorielles. Dans le domaine de la qualité et de l'ingénierie, il permet d'évaluer si les écarts dans les attributs d'un processus ou d'un produit sont dus au hasard ou s'ils suggèrent un problème systémique.
Objet : le test du chi carré permet de vérifier si les différences entre les résultats observés et les résultats attendus dans les mesures de qualité sont dues à des variations aléatoires ou indiquent un problème spécifique qui doit être traité.
Exemples pratiques dans l'industrie
- Défauts de fabrication : vérifier si la répartition des produits défectueux entre les différentes équipes ou machines est uniforme et si certaines équipes ont un taux de défectuosité nettement plus élevé.
- Qualité des fournisseurs : comparaison des performances en matière de qualité (par exemple, taux de réussite/échec) des composants provenant de plusieurs fournisseurs afin de déterminer si les pièces d'un fournisseur sont statistiquement plus susceptibles de tomber en panne.
- Plaintes des clients : analyser si les types ou la fréquence des plaintes des clients sont distribués de manière aléatoire tout au long de l'année, ou s'ils sont associés à des périodes, des produits ou des régions spécifiques.
Comment effectuer le test du chi-carré
- Recueillir les données observées et déterminer les fréquences attendues pour chaque catégorie sous l'hypothèse nulle.
- Utilisez la formule du khi-deux : Χ² = Σ[(O - E)² / E] où O est observé, E est attendu.
- Comparez la valeur du Khi-deux calculée à une valeur critique du tableau du Khi-deux avec les degrés de liberté appropriés.
- Résultat : si la valeur dépasse la valeur du tableau, conclure qu'il y a une différence statistiquement significative.
Lien vers le site tableau des valeurs critiques du chi-carré
Exemple complet de chi carré : Équité d'un dé
i | Oi | Ei | Oi-Ei | (Oi-Ei)2 |
1 | 5 | 10 | -5 | 25 |
2 | 8 | 10 | -2 | 4 |
3 | 9 | 10 | -1 | 1 |
4 | 8 | 10 | -2 | 4 |
5 | 10 | 10 | 0 | 0 |
6 | 20 | 10 | 10 | 100 |
Somme | 134 |
Cet exemple complet est tiré de Article de Wikipédia sur le chi-deux.
Expérience : un dé à 6 faces est lancé 60 fois. Le nombre de fois où il tombe face visible sur 1, 2, 3, 4, 5, 6 est respectivement de 5, 8, 9, 8, 10 et 20.
Question : le dé est-il biaisé, selon le test du chi-carré de Pearson à un niveau de signification de 95% et/ou 99% ?
L'hypothèse nulle est que le dé n'est pas biaisé, c'est-à-dire que chaque chiffre devrait apparaître le même nombre de fois, dans ce cas, 60/n = 10.
Les résultats peuvent être présentés sous forme de tableau, comme indiqué à droite :
Degrés de liberté | Probabilité inférieure à la valeur critique | ||||
---|---|---|---|---|---|
0.90 | 0.95 | 0.975 | 0.99 | 0.999 | |
5 | 9.236 | 11.070 | 12.833 | 15.086 | 20.515 |
Si l'on examine le tableau des valeurs critiques supérieures de la distribution du chi-carré (tableau figurant dans le guide ci-dessus), la valeur du tableau correspond à la somme des carrés des variables divisée par les résultats attendus.
Pour l'exemple présent, cela signifie que χ2=25/10+4/10+1/10+4/10+0/10+100/10=13,4
Conclusion du test : ce 13.4 est le résultat expérimental dont on veut estimer l'improbabilité (avec un dé juste), avec un l'importance ou la confiance entre 97.5% et 99%
Capacité du processus (Cp, Cpk, Pp, Ppk)

Il ne s'agit pas d'un test statistique à proprement parler, mais ces quatre ratios permettent d'évaluer dans quelle mesure un processus répond aux spécifications, devenant ainsi un outil essentiel pour le maintien et l'amélioration des normes de qualité dans le secteur de la fabrication.
L'analyse de la capacité des processus a vu le jour au début du XXe siècle, parallèlement à l'essor du contrôle statistique de la qualité dans l'industrie manufacturière, sous l'impulsion de personnalités comme Walter Shewhart. Ses méthodes ont évolué avec le développement de Six Sigma et de la gestion totale de la qualité (TQM) à la fin du 20e siècle pour devenir la pierre angulaire de l'ingénierie moderne de la qualité.
Objet : L'analyse de la capacité des processus permet d'évaluer la capacité d'un processus à produire des résultats dans des limites spécifiées (tolérances). Elle quantifie la variabilité d'un processus par rapport aux spécifications de conception et détermine la probabilité de produire des produits défectueux. L'analyse permet d'identifier les possibilités d'amélioration des processus et de s'assurer que les produits répondent toujours aux exigences des clients.
Cp, Cpk et tests statistiques dans l'industrie
- Fabrication automobile : les tests statistiques et ces 4 ratios sont utilisés pour vérifier si le diamètre des pistons de moteur reste constamment dans des limites de tolérance étroites, ce qui garantit la compatibilité et réduit les défaillances du moteur.
- Industrie pharmaceutique : pour vérifier que le poids de remplissage des comprimés ou des gélules est toujours conforme aux normes réglementaires et de qualité, ce qui minimise les risques de sous-dosage ou de surdosage.
- Fabrication de semi-conducteurs : utilisé pour contrôler l'épaisseur des revêtements des plaquettes, ce qui garantit la fiabilité et la performance de la production de puces électroniques.
Comment calculer Cp, Cpk, Pp et Ppk ?
Cp : Capacité du processus
\(Cp = \frac{USL – LSL}{6\sigma}\) | USL = Upper Specification Limit (limite supérieure de spécification) LSL = limite inférieure de spécification σ = écart-type (généralement estimé à partir de la variation à l'intérieur du sous-groupe) |
Cpk : Indice de capacité de traitement
\(Cpk = \min\left(\frac{USL – \mu}{3\sigma}, \frac{\mu – LSL}{3\sigma}\right)\) | \(\mu\) = process mean |
Pp : Performance du processus
\(Pp = \frac{USL – LSL}{6s}\) | \(s\) = overall standard deviation (includes both within and between subgroup variations; used over a longer period) |
Ppk : Indice de performance du processus
\(Ppk = \min\left(\frac{USL – \bar{x}}{3s}, \frac{\bar{x} – LSL}{3s}\right)\) | \(\bar{x}\) = overall mean |
Comment conclure avec les valeurs Cp, Cpk, Pp, Ppk
- Cp, Pp : si >1, le processus a le potentiel de répondre aux spécifications ; des valeurs ≥1,33 sont généralement considérées comme possibles, en fonction de votre secteur d'activité et de la criticité de votre application exacte.
- Cpk, Ppk : ils reflètent le degré de centrage du processus dans les spécifications ; plus Cpk/Ppk sont proches de Cp/Pp, plus le processus est centré.
- Si Cpk ou Ppk <1, une part importante de la production est probablement en dehors des spécifications ; une amélioration du processus est nécessaire.
- Un indice plus élevé indique un processus plus performant (et généralement de meilleure qualité).
Conclusion et pièges
Les tests statistiques sont des outils puissants d'analyse des données, mais leur utilisation exige à la fois une solide compréhension théorique et un jugement et une adaptation critiques au monde réel, loin d'une simple installation de logiciel statistique ou des règles d'un système de gestion de la qualité.
- Comprendre les hypothèses et les sélire le bon testLes tests statistiques : chaque test statistique repose sur un ensemble d'hypothèses sous-jacentes (par exemple, la normalité des données, l'égalité des variances, l'indépendance des observations). Si ces hypothèses ne sont pas respectées ou un test inapproprié choisi, les résultats du test peuvent être invalides ou trompeurs.
- Le désordre du monde réel & ble contexte commercial est importantLes données industrielles violent souvent les hypothèses des tests (par exemple, la non-normalité, l'autocorrélation). L'application aveugle de tests classiques peut aboutir à des analyses totalement erronées.
- Problèmes de qualité des données : les erreurs de mesure, les valeurs aberrantes et les données manquantes sont courantes dans les tests statistiques industriels et doivent être traitées et documentées avant le test.
Pour conception des produits Pour ce qui est de la qualité, il faut mettre l'accent là où c'est nécessaire : "Parfois, les résultats sont statistiquement significatifs mais ont un impact pratique négligeable, ou vice versa"
Liens externes sur les tests statistiques de qualité
Normes internationales
(survolez le lien pour voir notre description du contenu)
Articles connexes
Best Engineer Jokes (and Designers, Creators, Marketers …)
Capability Maturity Model Integration (CMMI)
Industrial Internet Of Things (IIoT)
Innovation.world’s Concept Explorer™
Langages de programmation pour l'ingénierie, la science et la recherche - Comparaison complète
Techniques d'identification des matériaux et identification positive des matériaux (IPM)