Dans le domaine de la qualité et de la fabrication, les tests statistiques sont le seul moyen de fournir des preuves objectives pour la prise de décision. Ils permettent d'identifier les variations dans les processus et de distinguer les fluctuations aléatoires des problèmes réels. Dans le domaine de l'ingénierie, les statistiques permettent d'identifier les modèles, les valeurs aberrantes et les sources de défaillance dans les performances des systèmes, garantissant ainsi une prise de décision fondée sur des données. En analysant rigoureusement les résultats expérimentaux, les ingénieurs peuvent valider les conceptions de produits et les processus de fabrication, en détectant les problèmes potentiels avant leur mise en œuvre. Cette approche systématique réduit le risque de défaillances inattendues et améliore la sécurité générale en garantissant la fiabilité et la conformité aux normes de sécurité internationales. normes.
Ce billet passe en revue les principaux tests statistiques utilisés dans la fabrication et la gestion de la qualité totale (GQT).
Note : étant donné qu'ils concernent également l'ingénierie, la recherche et la science, les 2 tests et analyses statistiques suivants
- l'analyse des corrélations : mesure la force et la direction de la relation entre deux variables (par exemple, le coefficient de corrélation de Pearson).
- l'analyse de régression : examine la relation entre les variables (par exemple, les facteurs d'entrée et les résultats du processus), de la simple régression linéaire à la régression multiple.
ne sont pas inclus ici mais dans un article spécifique sur les 10 principaux algorithmes pour l'ingénierie.
Tests de normalité

Dans le monde des tests statistiques, de nombreuses méthodes statistiques courantes (tests t, ANOVA, régression linéaire, etc.) supposent que les données sont distribuées de façon normale/gaussienne (ou que les résidus/erreurs sont normaux). La violation de cette hypothèse peut rendre les résultats peu fiables : les valeurs p peuvent être trompeuses, les intervalles de confiance peuvent être erronés et le risque d'erreurs de type I/II augmente. Notez que certains tests, comme l'ANOVA à une voie, peuvent raisonnablement bien gérer une distribution non normale.
Remarque : si vos données ne sont pas normales (voir les cas réels ci-dessous), vous devrez peut-être utiliser des tests non paramétriques (comme le test U de Mann-Whitney ou le test de Kruskal-Wallis), qui ne supposent pas la normalité, ou transformer vos données, ce qui n'entre pas dans le cadre de cet article.
Bien qu'il existe plusieurs tests statistiques pour cela, nous détaillerons ici le test de Shapiro-Wilk, célèbre surtout pour les échantillons de petite taille, typiquement n < 50, mais qui peut être utilisé jusqu'à 2000.
Pour information, il existe d'autres tests de normalité courants :
- Test de Kolmogorov-Smirnov (K-S) (avec correction de Lilliefors) : fonctionne mieux avec des tailles d'échantillons plus importantes tout en étant moins sensible que le test de Shapiro-Wilk, en particulier pour les petits ensembles de données.
- Test d'Anderson-Darling : il est efficace pour toutes les tailles d'échantillons et est plus sensible dans les queues (extrêmes) de la distribution tout en étant plus puissant pour détecter les écarts par rapport à la normalité dans les extrêmes.
Comment effectuer le test de normalité de Shapiro-Wilk ?
1. Calculez la statistique du test de Shapiro-Wilk (W) : [latex]W = \frac{\left(\sum_{i=1}^{n} a_i x_{(i)}\right)^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}[/latex] Note : le calcul des coefficients [latex]a_i[/latex] n'étant pas trivial et nécessitant généralement une table ou un algorithme, le test de Shapiro-Wilk est presque toujours calculé par des logiciels tels que R, SciPy de Python, MS Excel ou d'autres logiciels dédiés. Pour un calcul manuel, cette page fournit tous les coefficients [latex]a_i[/latex] et la valeur p pour les échantillons jusqu'à 50. La valeur de W est comprise entre 0 et 1 (W = 1 : normalité parfaite. W < 1 : plus il s'éloigne de 1, moins les données sont normales). 2. W ne suffit pas. Il est associé à la valeur p correspondante pour obtenir le niveau de confiance. Dans le tableau de Shapiro-Wilk, à la ligne de la taille de l'échantillon n, recherchez la valeur la plus proche de votre W calculé et obtenez la valeur correspondante. Valeur p en haut | Le numérateur représente la somme quadratique des valeurs de l'échantillon ordonné pondéré. Le dénominateur est la somme des écarts au carré par rapport à la moyenne de l'échantillon (c'est-à-dire la variance de l'échantillon, échelonnée par (n-1)). [latex]x_{(i)}[/latex] = la statistique d'ordre i (c'est-à-dire la i-ième valeur la plus petite de l'échantillon) [latex]x_i[/latex] = la i-ième valeur observée [latex]\bar{x}[/latex] = la moyenne de l'échantillon [latex]a_i[/latex] = constantes (poids) calculées à partir de la moyenne, des variances et des covariances des statistiques d'ordre d'un échantillon issu d'une distribution normale standard ((N(0,1))), et ne dépendant que de n (taille de l'échantillon). n = taille de l'échantillon |
3. Résultat : si la valeur p est supérieure au niveau alpha choisi (par exemple 0,05), il existe une preuve statistique que les données testées sont normalement distribuées. |
Pour les tests de normalité, il est souvent conseillé de combiner une méthode numérique avec une méthode graphique telle que la ligne de Henry, les diagrammes Q-Q ou les histogrammes :
Attention aux distributions non normales !
Bien que la distribution normale/gaussienne soit le cas le plus fréquent, elle ne doit pas être automatiquement présumée. Parmi les contre-exemples quotidiens, on peut citer
- Répartition de la richesse et des revenus entre les individus. Elle suit une distribution de Pareto (loi de puissance), asymétrique avec une "longue queue" d'individus très riches.
- La taille de la population des villes d'un pays suit la loi de Zipf (loi de puissance), avec quelques très grandes villes et de nombreuses petites villes.
- La magnitude et la fréquence des tremblements de terre correspondent à une loi de puissance/Gutenberg-Richter : les petits tremblements de terre sont fréquents, les grands sont rares.
- Variations quotidiennes des prix ou des rendements sur les marchés financiers : distributions à queue épaisse/grande, non gaussiennes ; les écarts importants sont plus fréquents que ce que prévoyait une distribution normale.
- La fréquence des mots dans la langue, comme la population de la ville ci-dessus, suit une loi de Zipf (loi de puissance) : Peu de mots sont utilisés souvent, la plupart des mots sont rares.
- Trafic Internet/popularité des sites web : loi de puissance/longue traîne : Certains sites ont des millions de visites, la plupart en ont très peu.
- Taille des fichiers sur les systèmes informatiques : log-normale ou loi de puissance, avec quelques très gros fichiers et beaucoup de petits.
- Durée de vie/longévité humaine : asymétrique à droite (peut être modélisée avec Weibull ou de Gompertz), et non normale ; davantage de personnes meurent à des âges plus avancés.
- Les connexions sur les réseaux sociaux suivent une loi de puissance : peu d'utilisateurs ont beaucoup de connexions, la plupart en ont peu.
La plupart d'entre elles se caractérisent par "peu de grands, beaucoup de petits", une signature de lois de puissance, de queues lourdes, de distributions exponentielles ou log-normales, et non par la forme symétrique de la gaussienne.
Le test t (test t de Student)
Le test t (alias "t de Student"), mis au point par William Sealy Gosset sous le pseudonyme de "Student" en 1908, est un test statistique utilisé pour comparer des moyennes lorsque la taille des échantillons est faible et que la variance de la population est inconnue. Axé sur la comparaison des moyennes de deux populations, c'est l'un des tests les plus utilisés dans le domaine de la fabrication.

Objet :the t-Test helps engineers and quality professionals determine if there is a statistically significant difference between the means of two groups...
You have read 32% of the article. The rest is for our community. Already a member? Se connecter
(and also to protect our original content from scraping bots)
Communauté mondiale de l'innovation
Se connecter ou s'inscrire (100% gratuit)
Voir la suite de cet article et tous les contenus et outils réservés aux membres.
Uniquement de vrais ingénieurs, fabricants, concepteurs et professionnels du marketing.
Pas de bot, pas de hater, pas de spammer.
Une lecture intéressante ! Mais les tests paramétriques tels que le test t ne sont-ils pas potentiellement trompeurs dans le cas de distributions non normales ? J'aimerais savoir ce que vous en pensez !
Bien sûr, mais même les tests non paramétriques présentent des lacunes
Articles Similaires
45+ astuces scientifiques pour les jeux et le marketing : Trucs statistiques et axés sur les données
Utiliser ou abuser de 25 biais cognitifs dans la conception et la fabrication de produits
Équation de levage révisée du NIOSH en ergonomie de banc
Dark Web vs Darknet vs Deep Web : 101 et plus
Dernières publications et brevets sur les automates cellulaires
Outils du Darknet pour l'ingénierie et la science