I test statistici sono l'unico modo in cui la qualità e la produzione possono fornire prove oggettive per il processo decisionale. Aiutano a identificare le variazioni nei processi e a distinguere tra fluttuazioni casuali e problemi reali. In ingegneria, le statistiche aiutano a identificare modelli, anomalie e fonti di fallimento nelle prestazioni del sistema, garantendo un processo decisionale basato sui dati. Analizzando rigorosamente i risultati sperimentali, gli ingegneri possono convalidare i progetti dei prodotti e i processi di produzione, individuando potenziali problemi prima dell'implementazione. Questo approccio sistematico riduce il rischio di guasti imprevisti e migliora la sicurezza generale, garantendo l'affidabilità e la conformità agli standard di sicurezza internazionali.
In questo articolo verranno esaminati i principali test statistici utilizzati nella produzione e nella gestione della qualità totale (TQM).
Nota: poiché riguardano anche l'ingegneria, la ricerca e la scienza, i seguenti 2 test statistici e analisi
- analisi di correlazione: misura la forza e la direzione della relazione tra due variabili (ad esempio, il coefficiente di correlazione di Pearson).
- analisi di regressione: esamina la relazione tra variabili (ad esempio, fattori di input e output del processo), dalla semplice regressione lineare a quella multipla.
non sono inclusi qui, ma in un articolo specifico sui principali 10 algoritmi per l'ingegneria.
Test di normalità

Nel mondo dei test statistici, molti metodi statistici comuni (t-test, ANOVA, regressione lineare, ecc.) presuppongono che i dati siano distribuiti in modo normale/gaussiano (o che i residui/errori siano normali). La violazione di questo assunto può rendere i risultati inaffidabili: i valori di p possono essere fuorvianti, gli intervalli di confidenza possono essere errati e il rischio di errori di tipo I/II aumenta. Si noti che alcuni test, come l'ANOVA a 1 via, possono gestire ragionevolmente bene una distribuzione non normale.
Nota: se i dati non sono normali (si vedano i casi reali riportati di seguito), potrebbe essere necessario utilizzare test non parametrici (come il test U di Mann-Whitney o il test Kruskal-Wallis), che non presuppongono la normalità, o trasformare i dati, operazioni che esulano dallo scopo di questo post.
Sebbene esistano diversi test statistici a questo proposito, qui descriveremo in dettaglio il test di Shapiro-Wilk, famoso soprattutto per le piccole dimensioni del campione, tipicamente n < 50, ma che può essere utilizzato fino a 2000.
Per vostra informazione, altri test di normalità comuni:
- Test di Kolmogorov-Smirnov (K-S) (con correzione di Lilliefors): funziona meglio con campioni di dimensioni maggiori, ma è meno sensibile di Shapiro-Wilk, soprattutto per i piccoli insiemi di dati.
- Test di Anderson-Darling: è buono con tutte le dimensioni del campione e ha una maggiore sensibilità nelle code (estremi) della distribuzione, mentre è più potente per rilevare gli scostamenti dalla normalità negli estremi.
Come eseguire il test di normalità di Shapiro-Wilk
1. Calcolare o calcolare la statistica del test di Shapiro-Wilk (W): W = \frac{\left(\sum_{i=1}^{n} a_i x_{(i)}\right)^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}Nota: poiché il calcolo del a_i Il calcolo dei coefficienti non è banale e richiede generalmente una tabella o un algoritmo, motivo per cui il test di Shapiro-Wilk viene quasi sempre calcolato da software come R, SciPy di Python, componenti aggiuntivi di MS Excel o altri software dedicati. Per un calcolo manuale, questa pagina fornisce tutte le a_i coefficienti e p-value per campioni fino a 50. Il valore di W è compreso tra 0 e 1 (W = 1: perfetta normalità. W < 1: più si allontana da 1, meno normali sono i dati). 2. W non è sufficiente. Per ottenere il livello di confidenza, il valore di W è associato al valore di p corrispondente. Nella tabella di Shapiro-Wilk, a la riga della dimensione del campione n, cercare il valore più vicino alla W calcolata e ottenere il suo valore corrispondente. p-value in alto | Il numeratore rappresenta la somma quadratica dei valori del campione ordinato ponderato. Il denominatore è la somma degli scarti quadratici dalla media del campione (cioè la varianza del campione, scalata da (n-1)). x_{(i)} = la statistica di ordine i-esimo (cioè l'i-esimo valore più piccolo del campione) x_i = l'i-esimo valore osservato \bar{x} = la media del campione a_i = costanti (pesi) calcolate dalla media, dalla varianza e dalla covarianza delle statistiche d'ordine di un campione da una distribuzione normale standard ((N(0,1))), e dipendono solo da n (dimensione del campione). n = dimensione del campione |
3. Risultato: se il valore p è superiore al livello alfa prescelto (ad esempio 0,05), vi è evidenza statistica che i dati testati sono distribuiti normalmente. |
Per i test di normalità, si consiglia spesso di combinare un metodo numerico con un metodo grafico, come la linea di Henry, i diagrammi Q-Q o gli istogrammi:
Attenzione alle distribuzioni non normali!
Sebbene la distribuzione normale/gaussiana sia il caso più frequente, non deve essere assunta automaticamente. Tra i controesempi quotidiani vi sono:
- Distribuzione della ricchezza e del reddito tra gli individui. Segue una distribuzione di Pareto (legge di potenza), con una "coda lunga" di individui molto ricchi.
- Le dimensioni della popolazione di un Paese seguono la legge di Zipf (legge di potenza), con poche città molto grandi e molti piccoli centri.
- La magnitudo e la frequenza dei terremoti sono una distribuzione a legge di potenza/Gutenberg-Richter: i terremoti piccoli sono comuni, quelli grandi sono rari.
- Variazioni giornaliere dei prezzi o dei rendimenti nei mercati finanziari: distribuzioni a coda grassa/coda pesante, non gaussiane; grandi deviazioni si verificano più frequentemente di quanto previsto da una distribuzione normale.
- La frequenza delle parole nel linguaggio, come la popolazione cittadina di cui sopra, segue la legge di Zipf (legge di potenza): Poche parole sono usate spesso, la maggior parte delle parole sono rare.
- Traffico internet/popolarità del sito: legge di potenza/coda lunga: Alcuni siti hanno milioni di visite, la maggior parte ne ha pochissime.
- Dimensioni dei file sui sistemi informatici: log-normale o legge di potenza, con pochi file molto grandi e molti piccoli.
- Durata della vita umana e longevità: con distribuzione a destra (si può modellizzare con Weibull o distribuzioni di Gompertz), non normale; più persone muoiono in età più avanzata.
- Le connessioni dei social network seguono una legge di potenza: pochi utenti hanno molte connessioni, la maggior parte ne ha poche.
La maggior parte di questi è caratterizzata da "pochi grandi, molti piccoli", una firma di leggi di potenza, code pesanti, distribuzioni esponenziali o log-normali e non la forma simmetrica della gaussiana.
Il test t (test t di Student)
Il test t (noto anche come "t di Student"), sviluppato da William Sealy Gosset con lo pseudonimo di "Student" nel 1908, è un test statistico utilizzato per confrontare le medie quando le dimensioni del campione sono piccole e la varianza della popolazione è sconosciuta. Concentrandosi sul confronto delle medie di due popolazioni, è uno dei test più utilizzati nel settore manifatturiero.

Scopo: il test t aiuta gli ingegneri e i professionisti della qualità a determinare se esiste una differenza statisticamente significativa tra le medie di due gruppi o tra la media di un campione e uno standard noto. È comunemente usato nei test di ipotesi per valutare se i cambiamenti di processo o le modifiche al prodotto hanno led a miglioramenti o differenze reali, al di là di quanto ci si potrebbe aspettare per caso.
Esempi pratici nel settore:
- Nella produzione automobilistica, il test t potrebbe essere utilizzato per confrontare la resistenza alla trazione dell'acciaio di due fornitori diversi, per garantire una qualità costante.
- Nel settore farmaceutico, il t-Test viene utilizzato per analizzare se un nuovo processo di produzione produce compresse con un peso medio significativamente diverso dallo standard.
- In elettronica, gli ingegneri possono utilizzare il test t per verificare se una modifica al progetto di un circuito stampato comporta un miglioramento misurabile della resistenza elettrica.
Come eseguire il test t di Student
Esistono molte varianti del t-test; l'esempio qui riportato si concentra sul cosiddetto "t-test a due campioni" nella sua versione "non accoppiata", che confronta i campionamenti di due diversi lotti di produzione.
- Indicare l'ipotesi nulla e l'ipotesi alternativa; in questo esempio "non c'è differenza tra i mezzi" vs "ci sono differenze".
- Raccogliere i dati dei 2 lotti di produzione confrontati e calcolare
- le medie dei 2 campioni \bar{X} = \frac{1}{n_1} \sum_{i=1}^{n_1} X_i e \bar{Y} = \frac{1}{n_2} \sum_{j=1}^{n_2} Y_j
- Calcolare le due varianze campionarie: S_X^2 = \frac{1}{n_1-1} \sum_{i=1}^{n_1} (X_i - \bar{X})^2 e S_Y^2 = \frac{1}{n_2-1} \sum_{j=1}^{n_2} (Y_j - \bar{Y})^2
- dimensioni del campione.
- Calcolare la statistica del test. Sebbene il metodo presupponga che entrambi i campioni siano indipendenti e che entrambi i campioni provengano da popolazioni normalmente distribuite, esistono comunque due casi:
- se si assume una varianza uguale (t-test "pooled"): Varianza in pool: S_p^2 = \frac{ (n_1-1)S_X^2 + (n_2-1)S_Y^2 }{ n_1 + n_2 - 2 }
Statistica del test: t = \frac{ \bar{X} - \bar{Y} }{ S_p \sqrt{ \frac{1}{n_1} + \frac{1}{n_2} } } - se le varianze non sono uguali (t-test di Welch): Statistica del test: t = \frac{ \bar{X} - \bar{Y} }{ \sqrt{ \frac{S_X^2}{n_1} + \frac{S_Y^2}{n_2} } } Gradi di libertà (approssimati, Welch-Satterthwaite): df = \frac{\left( \frac{S_X^2}{n_1} + \frac{S_Y^2}{n_2} \right)^2}{ \frac{ (S_X^2 / n_1)^2 }{ n_1 - 1 } + \frac{ (S_Y^2 / n_2)^2 }{ n_2 - 1 } }
- se si assume una varianza uguale (t-test "pooled"): Varianza in pool: S_p^2 = \frac{ (n_1-1)S_X^2 + (n_2-1)S_Y^2 }{ n_1 + n_2 - 2 }
- Utilizzare il valore calcolato ( t ) e i gradi di libertà (n_1+n_2-2 per l'uguaglianza delle varianze, o la formula di Welch) per cercare o calcolare il valore p dalla distribuzione t (a seconda che si tratti di un test a una o due code).
- Risultato: confrontare il valore t calcolato con il valore t critico ricavato dalle tabelle statistiche in base al livello di confidenza e ai gradi di libertà scelti; in alternativa, utilizzare un software per il p-value. Se la statistica t supera il valore critico o il valore p è inferiore alla soglia (in genere 0,05), rifiutate l'ipotesi nulla.
Collegamento a la tabella dei valori critici del test t
Il test F
Il test F, introdotto dallo statistico Ronald A. Fisher all'inizio del XX secolo, viene utilizzato per confrontare la variabilità (varianza) tra due serie di dati, per valutare se le loro varianze di popolazione sono significativamente diverse. Nel campo della qualità e dell'ingegneria, spesso aiuta a determinare se le modifiche al processo o i diversi macchinari producono risultati coerenti o se i nuovi metodi influenzano la variabilità del prodotto. Spesso è un passo preliminare prima di applicare i t-test e l'ANOVA a confronti più ampi.
Scopo: Il test F viene utilizzato per confermare se due processi o campioni hanno lo stesso livello di variazione, a supporto delle decisioni di controllo della qualità e di miglioramento dei processi. Aiuta gli ingegneri a identificare se i cambiamenti (ad esempio, nuovi macchinari, fornitori o materiali) hanno un impatto sulla consistenza o sulla qualità di un prodotto.
Esempi di settore
- Produzione: confronto delle variazioni dimensionali di pezzi prodotti da due macchine diverse per garantire che entrambe le macchine producano in modo coerente con gli standard di qualità.
- Valutazione dei fornitori: confronto della variabilità della forza delle materie prime di due diversi fornitori per decidere se un fornitore offre una qualità più costante.
- Miglioramento della qualità: verifica se un miglioramento del processo (come un nuovo metodo di calibrazione) ha ridotto la variabilità del peso del prodotto finale rispetto al vecchio metodo.
Come funziona il test F
- Raccogliere due serie di dati campione (ad esempio, misurazioni del processo A e del processo B).
- Calcolare la varianza per ciascun gruppo di campioni A e B.
- Dividere la varianza maggiore per quella minore per ottenere il valore F.
- Risultato: confrontare questo valore F con un valore critico della tabella di distribuzione F in base alle dimensioni del campione e al livello di confidenza desiderato; se il valore F calcolato è maggiore, le varianze sono significativamente diverse. Nei test statistici, i test di rapporto di varianza, i gradi di libertà (DOF) associati a ciascun gruppo sono la quantità di campioni meno uno (si noti che questo è diverso per un confronto dei risultati ANOVA).
Tabella di distribuzione F: collegamento alla tabella di distribuzione F. Tabella di distribuzione F fino a 15×15 DOF (e calcolatore F critico online per DOF più grandi)
Analisi della varianza (ANOVA)
Mentre il test F di cui sopra si riferisce in generale a qualsiasi test statistico che utilizza la distribuzione F ed è usato per confrontare le varianze o i rapporti di varianza tra due o più gruppi, l'ANOVA è una variante che confronta le medie di tre o più gruppi per vedere se almeno uno è significativamente diverso. Il test ANOVA è stato sviluppato da Ronald Fisher negli anni Venti come strumento statistico per gli esperimenti agricoli.
Scopo: L'analisi della varianza (ANOVA) consiste nel determinare se esistono differenze statisticamente significative tra le medie di tre o più gruppi indipendenti. Nella qualità, nell'ingegneria e in particolare Progettazione di esperimenti (DOE)Il sistema aiuta a identificare quali fattori o processi hanno un impatto significativo sulle prestazioni o sulla produzione del prodotto, favorendo un solido processo decisionale e il miglioramento dei processi.
Esempi:
- Nella produzione farmaceutica, l'ANOVA può aiutare a confrontare gli effetti di diversi processi di formulazione sull'efficacia di un farmaco.
- In elettronica, viene utilizzato per verificare se la variazione dei tassi di guasto dei circuiti stampati è dovuta a diversi lotti di materie prime.
Come fare l'ANOVA in breve
1. Definire i gruppi o i trattamenti da confrontare e raccogliere i dati di ciascun gruppo. Calcolare
2. Utilizzate questi valori per calcolare la statistica F (vedi a destra), che è il rapporto tra la varianza tra i gruppi e la varianza all'interno dei gruppi. 3. Confrontare la statistica F con un valore critico della tabella di distribuzione F a un livello di significatività prescelto (ad esempio 0,05). 4. Risultato: se la statistica F supera il valore critico, si conclude che esistono differenze significative tra le medie dei gruppi. | La statistica F: La F corrisponde alla Quadrato medio tra i gruppi (MSB) diviso per Quadrato medio all'interno dei gruppi (MSW) In pratica: F = \frac{ \frac{SSB}{k-1} }{ \frac{SSW}{N-k} } SSB = Somma dei quadrati tra gruppi |
Il test del chi-quadro
Il test del Chi-quadro, introdotto da Karl Pearson nel 1900, ha rivoluzionato i test statistici di ipotesi, fornendo un metodo per determinare se esiste una differenza significativa tra le frequenze previste e quelle osservate nei dati categoriali. Nel campo della qualità e dell'ingegneria, aiuta a valutare se le deviazioni negli attributi di un processo o di un prodotto si verificano per caso o se suggeriscono un problema sistemico.
Scopo: il test del Chi-quadro verifica se le differenze tra i risultati osservati e quelli attesi nelle misurazioni della qualità sono dovute a variazioni casuali o indicano un problema specifico che deve essere affrontato.
Esempi pratici nell'industria
- Difetti di produzione: verificare se la distribuzione dei prodotti difettosi tra i diversi turni o macchinari è uniforme e se alcuni turni hanno un tasso di difettosità significativamente più elevato.
- Qualità dei fornitori: confronto delle prestazioni qualitative (ad esempio, tassi di superamento/errore) dei componenti di più fornitori per determinare se i componenti di un fornitore hanno statisticamente maggiori probabilità di non funzionare.
- Reclami dei clienti: analizzare se i tipi o la frequenza dei reclami dei clienti sono distribuiti in modo casuale durante l'anno o se sono associati a periodi, prodotti o regioni specifici.
Come eseguire il test chi-quadro
- Raccogliere i dati osservati e determinare le frequenze previste per ogni categoria in base all'ipotesi nulla.
- Utilizzare la formula del Chi-quadro: Χ² = Σ[(O - E)² / E] dove O è osservato, E è atteso.
- Confrontare il valore del Chi-quadro calcolato con un valore critico della tabella del Chi-quadro con i gradi di libertà appropriati.
- Risultato: se il valore supera il valore della tabella, si conclude che esiste una differenza statisticamente significativa.
Collegamento al sito Tabella dei valori critici del chi-quadro
Esempio completo di Chi-Square: Equità di un dado
i | Oi | Ei | Oi-Ei | (Oi-Ei)2 |
1 | 5 | 10 | -5 | 25 |
2 | 8 | 10 | -2 | 4 |
3 | 9 | 10 | -1 | 1 |
4 | 8 | 10 | -2 | 4 |
5 | 10 | 10 | 0 | 0 |
6 | 20 | 10 | 10 | 100 |
Somma | 134 |
Questo esempio completo è tratto da Articolo di Wikipedia sul Chi-quadro.
Esperienza: Un dado a 6 facce viene lanciato 60 volte. Il numero di volte in cui cade a faccia in su su 1, 2, 3, 4, 5, 6 è rispettivamente di 5, 8, 9, 8, 10 e 20.
Domanda: il dado è distorto, secondo il test del chi-quadro di Pearson a un livello di significatività di 95% e/o 99%?
L'ipotesi nulla è che il dado sia imparziale, quindi ci si aspetta che ogni numero si verifichi lo stesso numero di volte, in questo caso, 60/n = 10.
I risultati possono essere tabulati come a destra:
Gradi di libertà | Probabilità inferiore al valore critico | ||||
---|---|---|---|---|---|
0.90 | 0.95 | 0.975 | 0.99 | 0.999 | |
5 | 9.236 | 11.070 | 12.833 | 15.086 | 20.515 |
Osservando una tabella dei valori critici della coda superiore della distribuzione del chi-quadro (tabella linkata nella guida precedente), il valore tabellare si riferisce alla somma delle variabili al quadrato divise per i risultati attesi.
Per il presente esempio, ciò significa che χ2=25/10+4/10+1/10+4/10+0/10+100/10=13,4
Conclusione del test: questo 13.4 è il risultato sperimentale di cui si vuole stimare l'improbabilità (con un dado giusto), con un significatività o fiducia tra 97.5% e 99%
Capacità di processo (Cp, Cpk, Pp, Ppk)

Non si tratta di un test statistico in sé, ma di 4 rapporti che valutano il grado di conformità di un processo alle specifiche, diventando così uno strumento fondamentale per mantenere e migliorare gli standard di qualità nella produzione.
L'analisi delle capacità di processo è nata all'inizio del XX secolo, in concomitanza con l'affermarsi del controllo statistico della qualità nel settore manifatturiero, pionieristicamente promosso da figure come Walter Shewhart. I suoi metodi si sono evoluti con la crescita del Six Sigma e del Total Quality Management (TQM) alla fine del XX secolo, diventando una pietra miliare della moderna ingegneria della qualità.
Scopo: L'analisi della capacità di processo valuta la capacità di un processo di produrre un output entro limiti specificati (tolleranze). Quantifica la variabilità di un processo rispetto alle specifiche di progetto e determina la probabilità di produrre prodotti difettosi. L'analisi aiuta a identificare le opportunità di miglioramento del processo e garantisce che i prodotti soddisfino costantemente i requisiti dei clienti.
Cp, Cpk e test statistici nell'industria
- Produzione automobilistica: i test statistici e questi 4 rapporti vengono utilizzati per verificare se il diametro dei pistoni dei motori rimane costantemente entro stretti limiti di tolleranza, garantendo la compatibilità e riducendo i guasti al motore.
- Industria farmaceutica: si applica per verificare che il peso di riempimento di compresse o capsule soddisfi costantemente gli standard normativi e di qualità, riducendo al minimo i rischi di sottodosaggio o sovradosaggio.
- Produzione di semiconduttori: viene utilizzato per monitorare lo spessore dei rivestimenti dei wafer, garantendo affidabilità e prestazioni nella produzione di microchip.
Come calcolare Cp, Cpk, Pp e Ppk
Cp: Capacità di processo
Cp = \frac{USL - LSL}{6\sigma} | USL = Limite superiore delle specifiche LSL = Limite inferiore delle specifiche σ = deviazione standard (tipicamente stimata dalla variazione all'interno del sottogruppo) |
Cpk: Indice di capacità di processo
Cpk = ´ministra(\frac{USL - \mu}{3\sigma}, \frac{\mu - LSL}{3\sigma}\ destra) | \mu = media del processo |
Pp: Prestazioni di processo
Pp = \frac{USL - LSL}{6s} | s = deviazione standard complessiva (include variazioni sia all'interno del sottogruppo che tra i sottogruppi; utilizzata su un periodo più lungo) |
Ppk: Indice di prestazione del processo
Ppk = ´ministra(\frac{USL - \bar{x}}{3s}, \frac{bar{x} - LSL}{3s}} destra) | \bar{x} = media complessiva |
Come concludere con i valori Cp, Cpk, Pp, Ppk
- Cp, Pp: se >1, il processo è potenzialmente in grado di soddisfare le specifiche; valori ≥1,33 sono generalmente considerati capaci, a seconda del settore di appartenenza e della criticità dell'applicazione specifica.
- Cpk, Ppk: riflettono il grado di centratura del processo all'interno delle specifiche; più Cpk/Ppk sono vicini a Cp/Pp, più il processo è centrato.
- Se Cpk o Ppk <1, è probabile che una parte significativa della produzione non rientri nelle specifiche; è necessario migliorare il processo.
- Un indice più alto indica un processo più capace (e di solito di qualità superiore).
Conclusioni e insidie
I test statistici sono strumenti potenti per l'analisi dei dati, ma il loro utilizzo richiede sia una forte comprensione teorica che un giudizio critico e un adattamento al mondo reale, lontano dalla semplice installazione di un software statistico o dalle regole del SGQ.
- Comprendere i presupposti e le condizioniscegliere il test giustoOgni test statistico ha una serie di assunzioni di base (ad esempio, normalità dei dati, uguaglianza delle varianze, indipendenza delle osservazioni). Se queste ipotesi sono violate o un test inappropriato scelto, i risultati del test potrebbero essere non validi o fuorvianti.
- La confusione del mondo reale e la bil contesto aziendale contaI dati industriali spesso violano le ipotesi dei test (ad esempio, non normalità, autocorrelazione). L'applicazione cieca dei test da manuale può portare ad analisi completamente fuorvianti.
- Problemi di qualità dei dati: errori di misurazione, anomalie e dati mancanti sono comuni nei test statistici industriali e devono essere affrontati e documentati prima del test.
Per design del prodotto so as for quality, put your effort where needed: “Sometimes, results are statistically significant but have negligible practical impact, or vice versa”
Link esterni sui test statistici per la qualità
Standard internazionali
(passate il mouse sul link per vedere la nostra descrizione del contenuto)