En el ámbito de la calidad, la regresión sirve para identificar sustitutos de características verdaderas que son difíciles de observar y para encontrar las causas profundas de problemas de proceso técnicamente difíciles. Es un tema importante en la ciencia de datos, pero, curiosamente, la cobertura más amplia que he podido encontrar en la literatura sobre calidad se encuentra en el primer libro de Shewhart, de 1931. Los libros posteriores, incluido el segundo de Shewhart, lo tratan brevemente o no lo tratan en absoluto. La ASQC, precursora de la ASQ, publicó una guía de 80 páginas sobre cómo utilizar el análisis de regresión en el control de calidad en 1985, pero no la ha actualizado desde entonces.
El análisis de regresión existe desde hace casi 140 años y ha crecido enormemente en alcance, capacidades y tamaño de los conjuntos de datos. Quizá haya llegado el momento de que los profesionales de la calidad le echen otro vistazo.
Usos de la regresión en calidad
La regresión es un conjunto de técnicas estadísticas/científicas para explicar una variable aleatoria a través de otras variables aleatorias. En los albores de la calidad estadística, Shewhart aplicó la regresión en la búsqueda de características sustitutivas y en el análisis de la causa raíz cuando la lógica y el conocimiento del proceso eran insuficientes.
Identificación de características sustitutivas
Las características de los productos que esperan los clientes pueden ser variables numéricas o atributos go/nogo que no siempre son fáciles de captar o comprender. Observar estas características reales puede llevar demasiado tiempo, requerir instrumentos costosos o implicar la destrucción del producto. Tenemos que encontrar características sustitutivas fácilmente observables para utilizarlas en lugar de las verdaderas.
Un diagrama de dispersión da una pista visual de la relación entre una característica sustitutiva y una verdadera. El análisis de correlación valida su existencia, y la regresión la cuantifica para apoyar las decisiones sobre el producto.
Análisis de la causa raíz
A veces, la lógica y el conocimiento de los procesos bastan para identificar las causas de los problemas, a lo Sherlock Holmes o el Dr. House. Esto funciona para el análisis de fallos en una puerta concreta que se desprendió de un avión en pleno vuelo. En cambio, es diferente cuando se investiga una población de cajas de fundición que pasó del 5% al 10% de fugas.
Aparte del cambio de matriz y la manipulación en las pruebas de estanqueidad, en la fundición a presión casi no hay intervención humana, pero muchos ajustes y variables del proceso pueden influir en el resultado de formas que es necesario identificar y cuantificar. Para ello son útiles los análisis de correlación y regresión.
La bibliografía
La bibliografía sobre control estadístico de la calidad habla sorprendentemente poco de diagramas de dispersión, correlación y regresión, a pesar de que son temas importantes en estadística/ciencia de datos en general.
El primer libro de Shewhart
El primer libro de Shewhart, publicado en 1931, trata ampliamente la regresión. Las mediciones de la resistencia a la tracción en piezas de fundición a presión de aluminio son destructivas, y examina la viabilidad de utilizar la dureza y la densidad como sustitutos que se pueden medir sin desgarrar la pieza de trabajo. La Fig. 14, en la p. 52, resume sus conclusiones en términos de regresión simple para la dureza y la densidad por separado, y regresión múltiple para ambas conjuntamente:
.
Casi 100 años después, la búsqueda de sustitutos de la resistencia a la tracción continúa, ahora mediante difracción de rayos X.
Shewhart utilizó una muestra de 60 puntos de datos, y proporcionó los datos brutos en la p. 60. Habla de la regresión en muchos otros lugares del libro, pero no se detiene en las dificultades de calcular los coeficientes o incluso de trazar los datos con la tecnología de su época. A diferencia del primero, su segundo libro, de 1939, no contiene ningún caso de “regresión”.
La literatura anglosajona sobre la calidad
Teniendo en cuenta la cobertura de la regresión -o la falta de ella- en mi colección de libros en lengua inglesa sobre calidad estadística, está claro que los autores no la consideraban un tema importante en este contexto:
El libro de Crocker está dedicado al uso del análisis de regresión en la calidad y la ASQC lo publicó en 1985. Hoy no he podido encontrar ninguna referencia a él en el sitio de la ASQ. En su lugar, se hace referencia a libros sobre análisis de regresión que no se centran en la calidad.
Quality Magazine publicó una Guía Simple de Análisis de Regresión de una página en 2023. Para más detalles, hay un documento de conferencia de 2016 en ScienceDirect sobre Métodos de regresión para predecir la calidad del producto en el proceso de fabricación de semiconductores.
Literatura sobre estadística y ciencia de datos
Las apariciones de la frase “regresión lineal” son cada vez más frecuentes en la literatura estadounidense, como se puede ver en Google Books:
Existe abundante literatura sobre regresión en el marco de la estadística, la ciencia de datos o el aprendizaje automático. Douglas Montgomery, que se la saltó en su propio libro sobre Control de Calidad, le dedicó un libro entero de 704 páginas: Introduction to Linear Regression Analysis. Puede encontrar este libro en listas como los 20 mejores libros de regresión de todos los tiempos, y no contiene ninguna referencia al Control de Calidad. Esta lista de los “20 mejores…” tiene en realidad 66 entradas. Además de los libros dedicados, la mayoría de los libros generales sobre estadística, ciencia de datos o aprendizaje automático cubren la regresión.
Libros sobre matemáticas, algoritmos y aplicaciones
Algunos libros explican las matemáticas. Son útiles para los estudiantes que buscan una certificación y para los inventores de nuevas herramientas. Otros explican algoritmos y son útiles para los desarrolladores de software. Otros, en cambio, describen la aplicación de las herramientas a los problemas y son útiles para los profesionales que se dedican a conseguir, mantener o mejorar las capacidades de los procesos.
Los libros aplicados explican para qué sirven las técnicas, qué supuestos requieren, cómo preparar los datos de entrada, cómo utilizar el software y cómo interpretar los resultados. Para utilizar una herramienta, se necesita un modelo mental de lo que hace, como “una aproximación en línea recta de Y en función de X”, pero no los detalles. Para conducir un coche, hay que saber qué hace el motor, pero no cómo funciona la inyección de combustible.
Efecto de la época
La época de un libro tiene mucho que ver con su categoría. Hasta los años 70, el análisis de datos, incluida la regresión, era manual, y 100 puntos era un gran conjunto de datos. Los libros se centraban en los cálculos que había que realizar manualmente e incluían tablas estadísticas.
La informática de los años 80 puso la potencia de cálculo al alcance de las empresas. Esto permitió a los analistas expertos escribir su propio código, mientras que el software estadístico comercial se fue imponiendo gradualmente.
Cuatro décadas más tarde, 30.000 puntos es un conjunto de datos pequeño. Y normalmente existe un paquete de software para cualquier técnica publicada que desee probar. El reto ahora es encontrar uno en el que pueda confiar y aprender a utilizarlo.
Los libros que le ayudan a navegar por este mundo, como el de Nina Zumel y John Mount, hacen referencia a una tecnología de software específica, en su caso R. No será tan útil para los analistas que trabajan en Python o utilizan SAS, o Matlab, y este tipo de libro envejece más rápido que un libro sobre matemáticas o algoritmos.
Regresión en los negocios
56 años después de la publicación del libro de Ishikawa, en los EE.UU., los gráficos de dispersión casi no se encuentran en los gráficos de negocios, a pesar de que son fáciles de generar y se enseñan en la Escuela Secundaria con el ejemplo del tiempo entre erupciones frente a la duración de las erupciones del géiser Old Faithful en Yellowstone. En The Visual Display of Quantitative Information (1983), Edward Tufte señaló que no podía encontrar gráficos estadísticos basados en más de una variable en los medios impresos estadounidenses para el gran público, excepto en Business Week y el New York Times.
Regresión en el software de inteligencia empresarial
En 2018, en ¿Dónde se han ido todos los gráficos de dispersión? señalé que ninguno de los paquetes de Business Intelligence revisados se jactaba de generar gráficos de dispersión, excepto TIBCO Spotfire. Los científicos y los ingenieros consideran rutinariamente más de una variable a la vez, pero sigue siendo un puente demasiado lejos para la comunidad empresarial y el público lector de periódicos. El último gráfico de dispersión en el New York Times fue en 2021.
Un público que ni siquiera se fija en los diagramas de dispersión probablemente no esté interesado en modelos cuantitativos del tipo de relaciones que los diagramas de dispersión revelan de forma cualitativa.
Las 7 herramientas de control de calidad de Kaoru Ishikawa
En su libro de 1968 QC Methods for the shop floor (Métodos de control de calidad para el taller), más tarde conocido como las “7 herramientas de control de calidad”, Kaoru Ishikawa incluyó gráficos de dispersión pero no de regresión. La traducción al inglés se publicó en 1976 con el título Guide to Quality Control.
Los gráficos de dispersión son visualizaciones de relaciones entre variables, y la regresión va más allá al ajustar un modelo matemático a esta relación. La única inferencia de la que habla Ishikawa es la comprobación de la presencia de una correlación dividiendo la nube de puntos por las medianas de ambas variables y contando los puntos en los cuadrantes I y III frente a II y IV:
Quizás Ishikawa pensó que la regresión estaba más allá de lo que podía enseñar a los operadores en los círculos de control de calidad. En este caso, sin embargo, ¿por qué incluyó los gráficos de control, que parecen tener el mismo nivel de sofisticación estadística?
En el lenguaje cotidiano, regresión es lo contrario de progreso. Si adquieres una habilidad, progresas; si la pierdes, retrocedes. En software, las “pruebas de regresión” se aplican a la comprobación de funciones preexistentes en las actualizaciones. ¿Qué tiene que ver con el ajuste de una combinación lineal de variables a otra variable? ¿Por qué este término?
A finales del siglo XIX, Francis Galton observó que los hijos de personas extremadamente altas, aunque eran más altos que la media, tendían a ser más bajos que sus padres. Llamó a este fenómeno “regresión a la mediocridad”, y el nombre quedó grabado. Basándose en una muestra de 205 familias, llegó a la conclusión de que, por término medio, la desviación de la media en la estatura de los hijos era ⅔ de la de sus padres. Resumió sus conclusiones en este gráfico:
Es una cuadrícula invisible de desviaciones de 1 en times[/katek] 1 en las estaturas medias de ambas generaciones, marcadas por el número de puntos en el centro de cada cuadrado. Es una tabla de contingencia más que un diagrama de dispersión. Shewhart utilizó posteriormente el mismo método en gráficos de dispersión de la penetración de la creosota frente a la profundidad de la madera de savia en una muestra de 1.370 postes telefónicos:
Es el mismo concepto que se utiliza ahora para mostrar gráficos de dispersión con miles de puntos como mapas de calor, marcando minúsculos cuadrados de cuadrícula con colores en lugar de números, como en el gráfico del soplete de dos características de 6.135 huracanes atlánticos:
En La falacia de Bernouilli, Aubrey Clayton aboga por sustituir la críptica “regresión lineal” por la más descriptiva y desprejuiciada “modelización lineal”, Algunos ya utilizan este término. Por ejemplo, en R, la función para la regresión lineal se llama “lm”, abreviatura de “modelización lineal”. Sin embargo, los estadísticos y los científicos de datos lo han llamado “regresión” durante 140 años, y es poco probable que un término tan arraigado sea sustituido.
Desde el primer libro de Shewhart, salvo en el sector de los semiconductores, los profesionales de la calidad parecen haber retrocedido en el uso de la regresión. Tal vez haya llegado el momento de volver a llamar su atención.
La Parte II será una visión general de en qué consiste realmente la regresión, las muchas formas en que se ha ampliado su alcance en los últimos 140 años y sus limitaciones.
La Parte III trata de las herramientas disponibles para validar los modelos de regresión, haciendo hincapié en el análisis de los residuos y la identificación de los puntos de alta influencia y de alto apalancamiento.
- Clayton, A. (2021). Bernoulli’s Fallacy: Statistical Illogic and the Crisis of Modern Science, Columbia University Press. Columbia University Press.
- Crocker, D. C. (1990). How to Use Regression Analysis in Quality Control (Cómo utilizar el análisis de regresión en el control de calidad). American Society for Quality Control.
- Draper, N. R., Smith, H. (2014). Applied Regression Analysis, Wiley.
- Defeo, J. A., Defeo, J. A. (2016). Juran’s Quality Handbook 7E (PB). McGraw Hill LLC.
- Frost, J. (
- ). Regression Analysis. Statistics By Jim Publishing.
- Hastie, T., Tibshirani, R., Friedman, J. (2013). Los elementos del aprendizaje estadístico: Data Mining, Inference, and Prediction. Springer.
- Ishikawa, K. (1968). 現場のQC手法: やさしい解説と演習. 日本科学技術連盟
- Ishikawa, K. (1976). Guía para el control de calidad. Asian Productivity Organization.
- Juran, J. M., Godfrey, A. B. (1999)
- .
- Juran’s Quality Handbook. McGraw-Hill Education.
- May, G. S., Spanos, C. J. (2006). Fundamentals of Semiconductor Manufacturing and Process Control, Wiley.
- Melhem, M., Ananou, B., Ouladsine, M. y Pinaton, J. (2016). Métodos de regresión para predecir la calidad del producto en el proceso de fabricación de semiconductores. IFAC-PapersOnLine, 49(12), 83-88. https://doi.org/10.1016/j.ifacol.2016.07.554
- Montgomery, D. C. et al. (2021). Introduction to Linear Regression Analysis.
- Montgomery, D. C. (2020). Introduction to Statistical Quality Control.
- Neave, H. R. (1990). The Deming Dimension. SPC Press.
- Pyzdek, T., Keller, P. (2012). The Handbook of Quality Management 2E (PB). McGraw Hill LLC.
- Shewhart, W. A. (1931). Economic Control of Quality of Manufactured Product. Martino Publishing.
- Shewhart, W. A. (1939). Statistical Method from the Viewpoint of Quality Control, Dover Publications. Dover Publications.
- Tufte, E. R. (1983). The Visual Display of Quantitative Information (La presentación visual de la información cuantitativa). Graphics Press.
- Webber, L., Wallace, M. (2011). Control de calidad para tontos. Wiley.
- ¿Dónde se han ido todos los gráficos de dispersión?
- Wheeler, D. J., Chambers, D. S. (1992). Understanding Statistical Process Control. SPC Press.
- Zumel, N., Mount, J., (2019). Ciencia de datos práctica con R, segunda edición. Estados Unidos: Manning.
2020
.
#calidad, #control estadístico de procesos, #control estadístico de calidad, #regresión, #regresión lineal