1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Estadistica inferencial 1 para ingenieri

361 27 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Estadística Inferencial 1 para Ingeniería y Ciencias
Tác giả Eduardo Gutiérrez González, Olga Vladimirovna Panteleeva
Người hướng dẫn PTS. Javier Enrique Callejas, Estela Delfón Ramírez
Trường học Instituto Politécnico Nacional
Chuyên ngành Estadística
Thể loại ebook
Năm xuất bản 2016
Thành phố Ciudad de México
Định dạng
Số trang 361
Dung lượng 3,54 MB

Nội dung

Estadística inferencial para ingeniería y ciencias Eduardo Gutiérrez GonzáleY Olga Vladimirovna Panteleeva Recursos en línea Estadística Inferencial para Ingeniería y Ciencias EDUARDO GUTIÉRREZ GONZÁLEZ PROFESOR DE MATEMÁTICAS DE LA UPIICSA – IPN SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN OLGA VLADIMIROVNA PANTELEEVA PROFESORA DE MATEMÁTICAS DE LA UACH ÁREA DE MATEMÁTICAS Ciudad de México info editorialpatria.com.mx www.editorialpatria.com.mx Dirección editorial: Javier Enrique Callejas Coordinadora editorial: Estela Delf ín Ramírez Supervisor de preprensa: Jorge A Martínez Jiménez Diso de portada: Juan Bernardo Rosado Solís/Signx Ilustraciones: Adrian Zamoratequi B Fotograf ías: Revisión técnica: Ana Elizabeth Gracía Hernández Instituto Politécnico Nacional Estadística Inferencial para ingeniería y ciencias Derechos reservados: © 2016, Eduardo Gutiérrez González, Olga Vladimirovna Panteleeva © 2016, Grupo Editorial Patria, S.A de C.V Renacimiento 180, Colonia San Juan Tlihuaca Azcapotzalco, Ciudad de México Miembro de la Cámara Nacional de la Industrial Editorial Mexicana Registro Núm 43 ISBN ebook: 978-607-744-487-9 Queda prohibida la reproducción o transmisión total o parcial del contenido de la presente obra en cualesquiera formas, sean electrónicas o mecánicas, sin el consentimiento previo y por escrito del editor Impreso en México Printed in Mexico Primera edición ebook: 2016 III Agradecimientos Cuando se termina una obra existen infinidad de compañeros y colegas a quienes se les debe en cierta forma su culminación Sin la intención de hacer a un lado a nadie, agradecemos infinitamente a todos nuestros compañeros de trabajo, tanto de las academias de Matemáticas como de Investigación de Operaciones y de la Sección de Graduados de la UPIICSA-IPN, así como a los comperos del Programa en Estadística del colegio de Posgraduados, campus Montecillo, donde adquirimos grandes conocimientos sobre la probabilidad y la estadística que han hecho posible la escritura de este texto Agradecemos también a los compañeros del área de matemáticas de la UACH, y en particular a los comperos del grupo GITAM (Grupo de Investigación y Trabajos Académicos de Matemáticas, de las academias de Matemáticas UPIICSA-IPN, fundado en 2013) mediante la línea de investigación sobre probabilidad y Estadística por las aportaciones obtenidas durante el Seminario de Probabilidad y Estadística (2013), así como a los integrantes del diplomado en formación docente en Probabilidad y Estadística vigencia 2013-2015 Por último, reconocemos a todos los revisores de la editorial, cuyas contribuciones han sido inmejorables para que el texto tenga una mejor presentación y calidad Por su parte, el doctor Gutiérrez agradece el apoyo brindado a las autoridades de EDD y COFAA para la elaboración de esta obra E.G.G y O.V.P IV Autores Eduardo Gutiérrez González Es doctor en Ciencias (Físico-matemáticas) Realizó estudios de licenciatura, maestría y doctorado en la Universidad Estatal de San Petersburgo, Federación Rusa en Análisis matemático de 1984-1994 Es doctor en Ciencias (Estadística) y realizó estudios de maestría de 2002 a 2004 y el doctorado de 2005 a 2009 en el Colegio de Posgraduados-México en el programa en Estadística Es maestro en Ingeniería, realizó estudios de maestría en el Posgrado de Ingeniería de la UNAM-México en Ingeniería de Sistemas en el campo disciplinario de Investigación de operaciones de 2004 a 2006 Actualmente es un académico de tiempo completo en la Sección de Estudios de Posgrado e Investigación de la UPIICSA-IPN, además de becario por la DEDICT-COFAA y E.D.D Olga Vladimirovna Panteleeva Es maestra en Ciencias Físico-Matemáticas (matemáticas aplicadas) y realizó estudios de licenciatura y maestría en la Universidad Estatal de San Petersburgo, Federación Rusa, en matemáticas aplicadas y procesos de control de 1986 a 1992 Es doctora en Ciencias (Estadística) y realizó estudios de maestría de 2005 a 2007 y de doctorado de 2008 a 2012 en el Colegio de Posgraduados-México en el programa en Estadística Actualmente es una académica de tiempo completo en la Universidad Autónoma de Chapingo en el área de matemáticas Contenido Contenido UNIDAD Estadística descriptiva Competencias específicas a desarrollar ¿Qué sabes? Introducción 1.1 Estadística 1.2 Población y muestra Probabilidad contra estadística Caracteres y variables estadísticas Escalas de medición de una variable Escalas de medidas cualitativas o no métricas Escalas de medidas cuantitativas o métricas 1.3 Técnicas de muestreo Muestreo aleatorio simple 10 Muestreo estratificado 10 Muestreo sistemático iniciación aleatoria 11 Muestreo por conglomerados 12 Tamaño de la muestra 12 1.4 Parámetros y estadísticos 16 1.5 Medidas centrales 16 La media 16 La mediana 18 Cálculo de la mediana 18 La moda 19 Otros valores medios 20 1.6 Medidas de dispersión 24 Rango 25 Variancia y desviación estándar 25 Otra expresión para cálculos de las variancias 27 Desviación media 27 Covarianza 28 1.7 Parámetros de forma en la distribución de la muestra 31 1.8 Aplicación de las medidas a inversiones 34 1.9 Clases de frecuencia 39 Cálculo de las frecuencias acumuladas 40 Distribución de frecuencias para variables cuantitativas 41 Cantidad de clases para un conjunto de datos cuantitativos 41 Amplitud o longitud de clase para datos cuantitativos 42 Construcción de clases de frecuencia para datos cuantitativos 42 1.10 Gráficos 45 Histogramas 47 Gráficos lineales, polígonos de frecuencias 48 Preguntas de autoevaluación 50 Ejercicios complementarios grado de dificultad uno 50 Ejercicios complementarios grado de dificultad dos 52 Ejercicios complementarios grado de dificultad tres 53 V VI UNIDAD Distribuciones muestrales y teorema del límite central 55 Competencia específica a desarrollar 55 ¿Qué sabes? 55 Introducción 56 2.1 Modelo normal 56 Cálculo de probabilidades 58 Propiedades de la distribución normal estándar 59 Uso de tablas de la función acumulada 60 Uso de tablas porcentuales 63 2.2 Distribución ji cuadrada 67 Uso de tablas de la distribución ji cuadrada 67 2.3 Distribución t-Student 69 Uso de tablas de la distribución t-Student 70 2.4 Distribución F 72 Uso de tablas de la distribución F 72 2.5 Muestra aleatoria 74 2.6 Estadísticas importantes 75 Media 77 Diferencia de medias 77 Varianza insesgada o muestral 77 Proporciones 77 Media y varianza de la media muestral 77 Media y varianza de una diferencia de medias 78 2.7 Distribuciones muestrales asociadas a la normal 78 Sumas, promedios y combinaciones lineales de variables aleatorias normales la misma media y varianza 79 Cálculo del tamaño de la muestra en distribuciones normales 81 Explicación de la desigualdad anterior 81 Explicación de la desigualdad anterior 82 Fórmulas para el tamo mínimo de muestra en distribuciones normales 82 Diferencia de medias de distribuciones normales 85 Cálculo del tamaño de la muestra para diferencia de medias 86 2.8 Distribuciones de Bernoulli .88 Distribución de la suma de variables de Bernoulli (binomial) 88 Media y varianza de una proporción 89 Media y varianza de una diferencia de proporciones 90 2.9 Teorema central del límite media y suma muestral 91 Teorema central del límite para la media de variables 91 Teorema central del límite suma de variables 92 2.10 Teorema central del límite para diferencia de medias 95 2.11 Teorema central del límite para proporciones 98 Teorema central del límite para diferencia de proporciones 99 Cálculo del tamaño mínimo de muestra para proporciones de muestras grandes 100 Teorema central del límite para distribuciones discretas 103 Distribuciones a las que no se puede aplicar el teorema central del límite 105 Preguntas de autoevaluación 105 Contenido Ejercicios complementarios grado de dificultad uno 105 Ejercicios complementarios grado de dificultad dos 107 UNIDAD Estimación puntual y por intervalos de confianza 109 Competencia específica a desarrollar 109 ¿Qué sabes? 109 Introducción 110 3.1 Conceptos básicos sobre estimadores puntuales 111 Espacio paramétrico 112 Valores de los estimadores puntuales 113 Estimadores insesgados 115 Estimadores insesgados de distribuciones específicas 118 3.2 Conceptos básicos de los intervalos de confianza .121 3.3 Intervalos de confianza para los parámetros de una población normal .122 Intervalos de confianza para la media de poblaciones normales o aproximadamente normales cuando se conoce s 122 Intervalos de confianza para medias de poblaciones normales o aproximadamente normales cuando se desconoce s 123 Ejemplos variados para la estimación de la media 125 Intervalos de confianza para la varianza de poblaciones normales 129 Ejemplos variados para varianzas 130 3.4 Intervalos de confianza para comparar dos poblaciones normales 134 Resultados posibles de las comparaciones entre dos medias 135 Intervalos de confianza para la diferencia de medias, poblaciones aproximadamente normales cuando se conocen s1 y s2 135 Intervalos de confianza para la diferencia de medias de poblaciones normales cuando se desconocen s1 y s2, pero se sabe que s21 s22 136 Intervalos de confianza para la diferencia de medias de poblaciones normales cuando se desconocen s1 y s2, pero se sabe s21 Z s22 138 Intervalos de confianza para la diferencia de medias de poblaciones aproximadamente normales, se desconocen s1 y s2 muestras grandes 139 Intervalos de confianza para la diferencia de medias de observaciones pareadas diferencias normales 141 Ejemplos variados para la estimación de diferencia de medias 144 Intervalos de confianza para la razón entre varianzas de poblaciones normales 148 3.5 Intervalos de confianza para proporciones 156 Intervalos de confianza para proporciones de muestras grandes 156 Ejemplos variados para proporciones 157 Con una estimación puntual preliminar 157 Con una cota inferior 157 Intervalo de confianza de diferencia de proporciones muestras grandes 159 Tamaño de muestras en diferencia de proporciones 160 Con una estimación puntual preliminar 160 Con una cota inferior 161 Preguntas de autoevaluación 165 Ejercicios complementarios grado de dificultad uno 165 Ejercicios complementarios grado de dificultad dos 165 Ejercicios complementarios grado de dificultad tres 170 VII VIII UNIDAD Pruebas de hipótesis 171 Competencia específica a desarrollar 171 ¿Qué sabes? 171 Introducción 172 4.1 Conceptos básicos sobre pruebas de hipótesis 172 Regiones de rechazo y no rechazo 173 Tipos de errores en una prueba de hipótesis 174 Función de potencia y tamaño de la prueba 178 Elección de la hipótesis nula y alterna 181 Cálculo de las probabilidades para los dos tipos de errores 182 Conceptos básicos sobre los tipos de pruebas de hipótesis 187 Metodología para probar una hipótesis estadística 188 4.2 Pruebas de hipótesis para los parámetros de una distribución normal 188 Pruebas de hipótesis para la media de poblaciones aproximadamente normales cuando se conoce s 188 Pruebas de hipótesis para la media de poblaciones aproximadamente normales cuando se desconoce s 194 Pruebas para la varianza de poblaciones normales 199 4.3 Pruebas de hipótesis para comparar dos poblaciones normales 206 Pruebas de hipótesis para la diferencia de medias sobre poblaciones aproximadamente normales cuando se conocen 206 Pruebas de hipótesis para la diferencia de medias sobre poblaciones aproximadamente normales cuando se desconocen s12 y s22 pero s12 s22 210 Pruebas de hipótesis para la diferencia de medias sobre poblaciones aproximadamente normales cuando se desconocen s12 y s22 pero s12 Z s22 214 Pruebas de hipótesis para la diferencia de medias de observaciones pareadas diferencias normales 218 Pruebas de hipótesis para la razón entre varianzas de poblaciones normales 222 4.4 Pruebas para poblaciones tipo Bernoulli, proporciones 229 Preguntas de autoevaluación 240 Ejercicios complementarios grado de dificultad uno 240 Ejercicios complementarios grado de dificultad dos 240 Ejercicios complementarios grado de dificultad tres 244 UNIDAD Pruebas de bondad de ajuste 247 Competencias específicas a desarrollar 247 ¿Qué sabes? 247 Introducción 248 5.1 Pruebas de bondad de ajuste de forma gráfica 248 Cuantiles 248 Técnica gráfica Q-Q para una prueba de ajuste de distribuciones 250 Ejemplo de la técnica gráfica Q-Q para una prueba de normalidad 250 Técnica analítica Q-Q para una prueba de normalidad 253 5.2 Prueba de bondad de ajuste ji cuadrada .254 Metodología de la prueba ji cuadrada 254 Valor-p en una prueba de hipótesis 256 5.3 Uso de las pruebas de bondad de ajuste K-S y A-D .256 Prueba de bondad de ajuste Kolmogorov-Smirnov 256 Contenido Prueba de bondad de ajuste Kolmogorov-Smirnov Minitab 261 Prueba de bondad de ajuste Anderson-Darling Minitab 263 Preguntas de autoevaluación 266 Ejercicios complementarios grado de dificultad dos 266 UNIDAD Regresión lineal simple y múltiple 271 Competencias específicas a desarrollar 271 ¿Qué sabes? 271 Introducción 272 6.1 Regresión lineal simple 273 6.2 6.3 6.4 6.5 Diagrama de dispersión 274 Supuestos de la variable dependiente en el análisis de regresión 276 Supuestos del error en un modelo lineal 277 Método de mínimos cuadrados para optimizar el error Error estándar de estimación y propiedades de los estimadores Prueba de hipótesis para el parámetro de la pendiente Coeficientes de correlación y determinación 278 286 289 291 Coeficiente de correlación lineal 291 Coeficiente de determinación 297 6.6 Intervalos de confianza para la predicción y estimación 299 6.7 Regresión lineal múltiple 305 Planteamiento general del modelo de regresión lineal múltiple 305 Generalización de resultados de la regresión lineal y prueba F 307 Coeficiente de determinación ajustado 308 Prueba F, análisis de varianza 309 Uso de Excel para la regresión lineal múltiple 310 Solución de un modelo de regresión lineal múltiple 313 Análisis de residuales en la regresión lineal múltiple 321 Independencia y valor esperado cero de los errores 321 Varianza constante de los errores 321 Observaciones atípicas o aberrantes 322 Problemas en la regresión lineal múltiple 324 Regresión curvilínea 328 Modelos de regresión errores multiplicativos 332 Modelos de regresión variables de respuesta transformadas 336 Preguntas de autoevaluación 343 Ejercicios complementarios grado de dificultad 343 Ejercicios complementarios grado de dificultad 345 Ejercicios complementarios grado de dificultad 345 Caso de estudio 348 IX Unidad Regresión lineal simple y múltiple En la figura 6.28 se observa que las variables de respuesta después de aplicar el logaritmo sí cumplen la normalidad De igual manera, en las gráficas de la figura 6.29 se muestran los residuales que cumplen las condiciones de los supuestos para estimar los errores Tabla 6.38 Logaritmo de las variables del problema de Henry Theil Año y ln(z ) x1 ln(Q1) x2 ln(Q2) Año y ln(z ) x1 ln(Q1) x2 ln(Q2) 1923 4.597 4.572 4.615 1932 5.034 4.657 4.181 1924 4.595 4.586 4.606 1933 5.066 4.622 4.116 1925 4.605 4.605 4.605 1934 4.946 4.558 4.135 1926 4.715 4.653 4.506 1935 4.914 4.569 4.153 1927 4.806 4.653 4.460 1936 5.124 4.581 3.963 1928 4.767 4.696 4.496 1937 5.039 4.629 4.089 1929 4.797 4.708 4.506 1938 5.004 4.621 4.086 1930 4.913 4.721 4.416 1939 5.109 4.642 4.116 1931 5.038 4.694 4.250 Gráfico de probabilidad normal 5.2 Luz 5.0 4.8 y = 0.006x + 4.5859 R2 = 0.9604 4.6 Muestra percentil 4.4 20 40 60 80 100 Figura 6.28 Gráfica para la normalidad 0.08 Ln Q1 Gráfico de los residuales Ln Q2 Gráfico de los residuales 0.08 0.03 Я0.024.50 Ln Q1 4.55 4.60 4.65 4.70 4.75 Residuos 0.05 Residuos 334 0.03 Ln Q2 0.00 Я0.03 3.8 4.0 4.2 4.4 Я0.05 Я0.07 Я0.08 a) x1 ln(Q1) Figura 6.29 Gráfica de los residuales A continuación se muestran las tablas de resultados de Excel El resumen de resultados se muestra en la tabla 6.39 b) x2 ln(Q2) 4.6 4.8 6.7 Regresión lineal múltiple Tabla 6.39 Resumen de los coeficientes de la regresión Estadísticos de la regresión Coeficiente de correlación múltiple 0.98710 Coeficiente de determinación R^2 0.97436 R^2 ajustado 0.97070 Error típico 0.03118 Observaciones 17 El coeficiente de correlación ajustado es alto, esto indica fuertes evidencias de que el modelo de regresión múltiple es adecuado, pero esto se debe corroborar el análisis de varianza El análisis de varianza para la prueba F se muestra en la tabla 6.40 Tabla 6.40 Tabla ANOVA de la prueba F FV GL SC CM F valor p Regresión 0.5173 0.2587 266.0179 7.2836E-12 Residuos 14 0.0136 0.0010 Total 16 0.5309 Para un nivel de significancia a 7.2836 10212 se concluye que debemos rechazar la hipótesis nula H0 : b1 0, b2 Entonces, las variables independientes sí explican el modelo El modelo de regresión, la prueba t y los intervalos de confianza para los parámetros del modelo se muestran en la tabla 6.41 Tabla 6.41 Tabla de la prueba t Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intersección 3.1636 0.7048 4.4886 0.00051 1.6519 4.6752 Beta 1.1432 0.1560 7.3279 3.74E-06 0.8086 1.4777 Beta 20.8288 0.0361 222.9523 1.65E-12 20.9063 20.7514 El modelo de regresión lineal estimado está dado por: ˆ 1b ˆ x 1b ˆ x 3.1636 1.1432x 0.8288x yˆ b 1 2 Por tanto, después de aplicar la operación inversa del logaritmo, obtenemos el modelo Cobb-Douglas de mejor ajuste: zˆ 5aˆ Q1β1Q2β2 e3.1636Q11.14321Q22 0.8288 23.4565Q11.14321Q22 0.8288 ˆ ˆ A 95% de confianza los parámetros del modelo se encuentran en: b1 ∈ (0.8086, 1.4777) b2 ∈ ( 0.9063, 0.7514) 335 336 Unidad Regresión lineal simple y múltiple Modelos de regresión variables de respuesta transformadas Cuando tenemos una base de datos para ajustar un modelo de regresión lineal (6.12) puede ocurrir que las variables de respuesta no cumplan la normalidad y, por ende, los errores tampoco cumplan este supuesto En algunas ocasiones es posible que después de realizar una transformación, f, en la variable de respuesta el modelo (6.32) sí cumpla los supuestos de un modelo de regresión lineal múltiple f(y) z b0 b1x1 b2x2 $ bmxm e (6.32) En este caso, en lugar de ajustar el modelo: y b0 b1x1 b2x2 $ bmxm e , lo hacemos (6.32), pero debemos tener cuidado la interpretación de los parámetros, ya que debido a la transformación utilizada para el ajuste, los parámetros bi se interpretan como hemos visto en las secciones previas para la variable de respuesta z, pero no así para la variable de respuesta original, y Para la interpretación de los parámetros en la variable de respuesta original supongamos el modelo f (y) ˆ 1b ˆ x Ahora queremos saber cómo influye un cambio en una unidad de z b0 b1x e, estimado por z b la variable predictiva, x, en la variable de respuesta, y Después de ajustar el modelo en z, para los valores en y, requerimos que la transformación f sea invertible en el rango de valores de y, si cumple esta condición, enˆ 1b ˆ x) Por tanto, un incremento en d unidades de x dentro del rango permitido del modelo tonces y f 1(b genera un incremento en y dado por (6.33) Sean los valores del incremento en x, x x0 y x1 x0 d, entonces ˆ 1b ˆ x ) f 1(b ˆ bˆ x b ˆ d) y y f 1(b ˆ 1b ˆ x ) son los valores de la variable de respuesta que y1 f 1(b 1 1 0 tiene un incremento por unidad de incremento en x: y1 y0 f 21 ˆ 1b ˆ x 1b ˆ d) f (b 1 21 ˆ 1b ˆ x) (b (6.33) Otra forma de comparar el incremento de las variables de respuesta por d unidades de incremento de la variable predictiva está dada en (6.34) y se refiere al porcentaje de incremento o (decremento) de la variable de respuesta dado por: y1 y0 f y0 21 ˆ 1b ˆ x 1b ˆ d) f 1(b ˆ 1b ˆ x) (b 1 ˆ 1b ˆ x) f (b (6.34) Entonces, el problema a resolver consiste en determinar la transformación más adecuada para cada problema particular, entre las más utilizadas están las propuestas por los estadísticos George E P Box y David Cox, mejor conocidas como transformaciones Box-Cox • z ln(y) Con esta transformación es preferible utilizar el porcentaje de incremento de y, puesto que la inversa existe, es la exponencial que cumple la propiedad multiplicativa: ˆ 1b ˆ x 1b ˆ d) exp(b ˆ 1b ˆ x )exp(b ˆ d) exp(b 1 1 donde: ˆ 1b ˆ x 1b ˆ d) f 1(b ˆ 1b ˆ x ) exp(b ˆ 1b ˆ x )exp(b ˆ d) exp(b ˆ 1b ˆ x) y1 y0 f 1(b 1 0 1 5 21 ˆ ˆ 1b ˆ x) y0 f (β0 βˆ1x0) exp(b ˆ d) exp(b • z y a La existencia de la inversa de esta trasformación depende tanto del exponente como del rango de valores de la variable de respuesta El incremento de la variable de respuesta es preferible calcularlo la fórmula (6.33), ya que en general depende de ambos estimadores de los parámetros 6.7 Regresión lineal múltiple Ejemplo 6.21 En una empresa se lleva a cabo un estudio para predecir el volumen de ventas, el responsable del modelo establece que influyen las siguientes variables: • A: gastos de propaganda de la empresa en el periodo t • E: gastos de ventas de la empresa en el periodo t • S: volumen de ventas de la empresa en millones de pesos durante el periodo t Los resultados se muestran en la tabla 6.42 Tabla 6.42 Datos para el volumen de ventas Observación S A E ln(S) Observación S A E ln(S) 7.474 1.988 0.31 2.0114 12 11.772 1.875 0.60 2.4658 4.529 1.944 0.30 1.5104 13 17.630 2.271 0.75 2.8696 6.478 2.200 0.38 1.8684 14 13.246 1.112 0.62 2.5837 4.979 2.001 0.33 1.6052 15 13.765 1.774 0.68 2.6221 8.416 1.693 0.43 2.1301 16 11.235 0.959 0.65 2.4190 5.960 1.743 0.32 1.7850 17 16.282 1.989 0.72 2.7900 8.150 2.069 0.39 2.0980 18 9.249 1.971 0.54 2.2245 8.386 1.017 0.41 2.1266 19 11.941 2.266 0.62 2.4799 7.960 2.019 0.48 2.0745 20 8.324 1.983 0.41 2.1191 10 7.591 1.061 0.45 2.0270 21 13.051 2.101 0.60 2.5689 11 13.714 1.460 0.59 2.6184 22 13.761 1.068 0.66 2.6219 Se pide proponer un modelo para ajustar el volumen de ventas de la empresa en el periodo t Solución Con los valores de la variable de respuesta de la tabla 6.42, trazamos un histograma de frecuencias, de lo que resulta la gráfica a) de la figura 6.30, donde podemos apreciar que la variable de respuesta no es normal y es creciente, entonces no es posible aplicar los modelos vistos en esta sección, ya que la variable de respuesta no cumple la normalidad S In(S) Clase Frecuencia Frecuencia 2 Clase 0 4.53 7.80 11.08 14.35 a) Volumen de ventas S 17.60 1.78 2.05 2.33 2.60 2.87 b) Logaritmo del volumen de ventas In(S) Figura 6.30 Histogramas de las distribuciones de frecuencias de la variable de respuesta 3.14 337 338 Unidad Regresión lineal simple y múltiple Para poder utilizar los modelos vistos en esta sección, transformamos los valores de la variable de respuesta por medio de la función logaritmo, lo que da como resultado los valores de la derecha de la tabla 6.42, trazamos el histograma y resulta la gráfica b) de la figura 6.30, que muestra normalidad en el logaritmo de la variable de respuesta Proponemos el modelo de ln(S) b0 b1A b2E e Si se realizan las pruebas ANOVA y t, tenemos El resumen de resultados se muestra en la tabla 6.43 Tabla 6.43 Resumen de los coeficientes de la regresión Estadísticos de la regresión Coeficiente de correlación múltiple 0.9448 Coeficiente de determinación R^2 0.8927 R^2 ajustado 0.8814 Error típico 0.1293 Observaciones 22 El coeficiente de correlación ajustado es alto, esto indica fuertes evidencias de que el modelo de regresión múltiple es adecuado, pero esto se debe corroborar el análisis de varianza El análisis de varianza para la prueba F se muestra en la tabla 6.44 Tabla 6.44 Tabla ANOVA de la prueba F FV GL SC CM F valor p Regresión 2.6432 1.3216 79.0033 6.198E-10 Residuos 19 0.3178 0.0167 Total 21 2.9610 Para un nivel de significancia a 6.198 10210 se concluye que debemos rechazar la hipótesis nula H0 : b1 0, b2 Entonces las variables independientes sí explican el modelo El modelo de regresión, la prueba t y los intervalos de confianza para los parámetros del modelo se muestran en la tabla 6.45 Tabla 6.45 Tabla de la prueba t Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intesección 0.9969 0.1642 6.0712 7.723E-06 0.6532 1.3406 Beta 20.0003 0.0654 20.0047 0.9963 20.1373 0.1366 Beta 2.4644 0.1976 12.4734 1.344E-10 2.0509 2.8779 El valor p para la variable A es muy grande, esto significa que no hay evidencias para rechazar H0 : b1 Entonces, tenemos que revisar el modelo ln(S) b0 b2E e El resumen de resultados se muestra en la tabla 6.46 6.7 Regresión lineal múltiple Tabla 6.46 Resumen de los coeficientes de la regresión Estadísticos de la regresión Coeficiente de correlación múltiple 0.9448 Coeficiente de determinación R^2 0.8927 R^2 ajustado 0.8873 Error típico 0.1261 Observaciones 22 El coeficiente de correlación ajustado es alto y como estamos en el caso de una variable predictora no es tan necesario el análisis ANOVA El análisis de varianza para la prueba F se muestra en la tabla 6.47 Tabla 6.47 Tabla ANOVA de la prueba F FV GL SC CM F valor p Regresión 2.6432 2.6432 166.3224 3.767E-11 Residuos 20 0.3178 0.0159 Total 21 2.9610 Para un nivel de significancia a 3.767 10211 se concluye que tenemos que rechazar la hipótesis nula H0 : b2 Entonces la variable independiente sí explica el modelo El modelo de regresión, la prueba K y los intervalos de confianza para los parámetros del modelo se muestran en la tabla 6.48 Tabla 6.48 Tabla de la prueba T Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intersección 0.9963 0.1013 9.8385 4.158E-09 0.7851 1.2075 Beta2 2.4645 0.1911 12.8966 3.767E-11 2.0659 2.8631 El modelo de regresión lineal estimado está dado por: ˆ 1b ˆ E 0.9963 2.4645E ln(Sˆ) b A 95% de confianza el parámetro del modelo se encuentra en: β2 ∈ (2.0659, 2.8631) Por tanto, el porcentaje de incremento en S para un incremento d 0.1 en E es igual a: S1 S0 ˆ d) exp(2.4645 × 0.1) exp(0.24645) 0.2795 27.95% exp(b S0 Note que no se consideran incrementos en E enteros, ya que quedarían fuera del rango de valores Ejercicios 6.5 En el ejemplo 6.21 realice una transformación cúbica en las variables de respuesta, ajuste el modelo y compare la suma de valores absolutos de los residuales ¿Qué le indica este resultado? 339 340 Unidad Regresión lineal simple y múltiple Con los datos del ejemplo 6.20 ajuste un modelo de regresión lineal múltiple y compare la suma de valores absolutos de los residuales ¿Qué le indica este resultado? En el ejemplo 6.21 ajuste los datos originales a un modelo de regresión lineal múltiple y compare la suma de valores absolutos de los residuales ¿Qué le indica este resultado? En una empresa se lleva a cabo un estudio para predecir el volumen de ventas, el responsable del modelo establece que en las ventas influyen las siguientes variables: • A: gastos de propaganda de la empresa al tiempo t • P: gastos de promoción de la empresa al tiempo t • E: gastos de ventas de la empresa al tiempo t • AR y PR: valores de A y P, respectivamente, retrasados en un periodo t • S: volumen de ventas de la empresa Los resultados se muestran en la tabla 6.49 Tabla 6.49 Datos para el volumen de ventas Observación A P E AR PR S 1.98786 1.0 0.30 2.01722 0.0 20.1137 1.94418 0.0 0.30 1.98786 1.0 15.1044 2.19954 0.8 0.35 1.94418 0.0 18.6837 2.00107 0.0 0.35 2.19954 0.8 16.0517 1.69292 1.3 0.30 2.00107 0.0 21.3010 1.74334 0.3 0.32 1.69292 1.3 17.8500 2.06907 1.0 0.31 1.74334 0.3 18.8756 1.01709 1.0 0.41 2.06907 1.0 21.2660 2.01906 0.9 0.45 1.01709 1.0 20.4847 10 1.06139 1.0 0.45 2.01906 0.9 20.5403 11 1.45999 1.5 0.50 1.06139 1.0 26.1844 12 1.87511 0.0 0.60 1.45999 1.5 21.7161 13 2.27109 0.8 0.65 1.87511 0.0 28.6959 14 1.11191 1.0 0.65 2.27109 0.8 25.8372 15 1.77407 1.2 0.65 1.11191 1.0 29.3199 16 0.95878 1.0 0.65 1.77407 1.2 24.1904 17 1.98930 1.0 0.62 0.95878 1.0 26.5897 18 1.97111 0.0 0.60 1.98930 1.0 22.2447 19 2.26603 0.7 0.60 1.97111 0.0 24.7994 20 1.98343 0.1 0.61 2.26603 0.7 21.1910 21 2.10054 1.0 0.60 1.98343 0.1 26.0344 22 1.06815 1.0 0.58 2.10054 1.0 27.3930 a) Realice una prueba de bondad de ajuste Q-Q para verificar la normalidad de los valores de la variable de respuesta b) Calcule una matriz de correlaciones de las variables predictivas ¿Qué puede concluir de los resultados obtenidos? 6.7 Regresión lineal múltiple c) Ajuste el modelo de regresión lineal múltiple a las cinco variables predictivas ¿Cuáles son los valores de los tres coeficientes de correlación y cómo se interpretan? Con las observaciones del ejercicio 4: a) Formule el contraste de hipótesis para el análisis de varianza del modelo de regresión lineal múltiple y concluya sobre el contraste de hipótesis b) Proporcione el mejor modelo de regresión lineal que ajusta a las cinco variables independientes ¿Cómo se ˆ para i 1, 2, 3, 4, 5? interpreta cada uno de los b i c) Realice la prueba t a 5% de significancia para los contrastes de hipótesis y concluya sobre los resultados: ⎧ H : bi i 1, 2, 3, 4, ⎨ ⎩ H1 : b i Z Con las observaciones del ejercicio y los resultados de los ejercicios y 5: ˆ del modelo i 1, 2, 3, 4, a) Calcule un intervalo de 95 y 99% de confianza para los parámetros b i b) Explique si el modelo es adecuado c) Determine la posible multicolinealidad entre las variables d) Con base en las respuestas anteriores, ¿qué puede concluir del modelo? Con las observaciones del ejercicio y los resultados de los ejercicios 4, y 6: a Calcule un intervalo a 95% de confianza para la estimación del volumen de ventas medias cuando A0 2.15, P0 1.21, E0 0.40, AR0 2.05 y PR0 1.10 b Calcule un intervalo a 95% de confianza para la estimación del volumen de ventas en un periodo t, cuando A0 2.15, P0 1.21, E0 0.40, AR0 2.05 y PR0 1.10 Con las observaciones del ejercicio y los resultados de los ejercicios 4, 5, y 7, proponga un modelo parsimonioso Los datos de la tabla 6.50 corresponden a la economía de un ps, donde: • x1: insumos laborales en millones de os-hombre • x2: capital real en miles de millones de dólares medidos a partir de un origen arbitrario • x3: años medidos a partir de 1991, tomado como o • y: producto real bruto nacional en miles de millones de dólares Tabla 6.50 Datos para la economía del ps Observación x1 x2 x3 Y Observación x1 x2 x3 Y 47 54 142 13 47 36 13 182 43 59 127 14 51 18 209 39 57 113 15 53 25 19 214 34 48 98 16 53 39 20 225 34 36 94 17 50 51 21 221 36 24 102 18 52 62 22 243 38 19 116 19 54 75 23 257 41 18 128 20 54 94 24 265 42 22 140 21 55 108 25 276 10 37 24 10 131 22 52 118 26 271 11 40 23 11 143 23 54 124 27 291 12 42 27 12 157 341 342 Unidad Regresión lineal simple y múltiple a) Realice una prueba de bondad de ajuste Q-Q para verificar la normalidad de los valores de la variable del producto real bruto b) Calcule una matriz de correlaciones de las variables predictivas ¿Qué puede concluir de los resultados obtenidos? c) Ajuste el modelo de regresión lineal múltiple a las tres variables predictivas ¿Cuáles son los valores de los tres coeficientes de correlación y cómo se interpretan? 10 Con las observaciones del ejercicio a) Formule el contraste de hipótesis para el análisis de varianza del modelo de regresión lineal múltiple y concluya sobre el contraste de hipótesis b) Proporcione el mejor modelo de regresión lineal que ajusta a las tres variables predictivas ¿Cómo se interˆ para i 1, 2, 3? preta cada uno de los b i Realice la prueba t a) Realícelo a 5% de significancia para los contrastes de hipótesis y concluya sobre los resultados: ⎧ H : bi 1, 2, ⎨ ⎩ H1 : b i Z 11 Con las observaciones del ejercicio y los resultados de los ejercicios y 10: a) Calcule un intervalo de 95 y 99% de confianza para los parámetros bi del modelo i 1, 2, b) Explique si el modelo es adecuado c) Determine la posible multicolinealidad entre las variables d) Con base en las respuestas anteriores, ¿qué puede concluir del modelo? 12 Con las observaciones del ejercicio y los resultados de los ejercicios 9, 10 y 11: a) Calcule un intervalo a 95% de confianza para la estimación del producto real bruto medio cuando x01 51, x02 80 y x03 22 b) Calcule un intervalo a 95% de confianza para la estimación del producto real bruto en un año cuando x01 51, x02 80 y x03 22 13 Con las observaciones del ejercicio y los resultados de los ejercicios 9, 10, 11 y 12, proponga un modelo parsimonioso Ejercicios de repaso 343 Ejercicios de repaso Preguntas de autoevaluación 6.1 ¿Qué es un modelo de regresión lineal? ¿Para qué se puede utilizar? 6.2 ¿Cuáles son los supuestos de un modelo de regresión lineal? 6.3 ¿Qué es el coeficiente de determinación ajustado? 6.5 ¿Qué se puede hacer para identificar el problema de multicolinealidad? 6.6 ¿Cuándo se dice que los errores son multiplicativos y cuándo son aditivos? 6.8 ¿Qué información proporciona la prueba F? Volumen en cm 6.11 ¿Para qué se utiliza una transformación Box-Cox en un modelo de regresión? 6.12 ¿Cuál es la interpretación del parámetro b1 en un modelo de regresión lineal simple? 6.13 ¿Cómo se puede interpretar el parámetro b1 en un modelo de regresión lineal múltiple? 6.14 ¿Por qué no es de interés inferir sobre el parámetro b0 en un modelo de regresión lineal? 6.15 ¿Cómo se puede probar que los errores son multiplicativos? 6.16 Con el material estudiado en el texto, ¿cómo se puede probar el supuesto de normalidad? 6.17 ¿Cuáles son las condiciones para poder aplicar una transformación en un conjunto de observaciones para llevar a cabo un ajuste de datos? 6.18 ¿En qué situaciones se recomienda utilizar un modelo de regresión curvilíneo? 6.19 ¿Q es un modelo parsimonioso? 6.20 ¿Qué recomienda hacer ante la presencia de observaciones aberrantes? 6.21 Un comerciante al menudeo realizó un estudio para determinar la relación entre los gastos de publicidad semanal y las ventas (véase tabla 6.51) Costos de publicidad 40 Ventas 385 400 395 365 475 440 490 420 560 525 480 510 20 50 40 25 2.1 3.4 4.1 1.9 7.9 4.8 11.1 15.8 3.8 a) Encuentre la ecuación de la recta de regresión para pronosticar el volumen Pruebe H0 : b1 # contra H1 : b1 a 0.05 b) Estime el volumen de la mezcla, para un peso de 3.85 kg y obtenga un intervalo a 95% de confianza para la predicción 6.24 Con la información del ejercicio anterior: a) Calcule los tres coeficientes de correlación b) Con un a 0.05 pruebe H0 : r # 0.50 contra H1 : r 0.50 6.25 En la tabla 6.53 se presentan datos muestrales sobre el número de horas de estudio invertidas por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística, junto las calificaciones que obtuvieron en un examen aplicado al final del periodo Tabla 6.53 Horas de estudio y calificaciones Horas de estudio (x) Calificación (y) 20 16 34 23 27 32 18 22 64 61 84 70 88 92 72 77 b) Estime la calificación para 28 horas de estudio y obtenga un intervalo a 95% de confianza para la predicción 6.26 Con la información del ejercicio anterior: a) Calcule los tres coeficientes de correlación b) Con un a 0.05 pruebe H0 : r # 0.50 contra H1 : r 0.50 Tabla 6.51 Gastos de publicidad semanal y ventas 40 2.8 a) Encuentre la ecuación de la recta de regresión Pruebe H0 : b1 contra H1 : b1 Z a 0.05 Ejercicios complementarios grado de dificultad uno 50 6.23 Los siguientes datos muestran la relación entre el peso y el volumen de una mezcla 6.10 ¿Cómo se puede eliminar la multicolinealidad en un modelo de regresión? 30 b) Con un a 0.05 pruebe H0 : r # 0.50 contra H1 : r 0.50 Peso en kilogramos 6.9 ¿Para qué se utiliza la prueba t? 20 6.22 Con la información del ejercicio anterior: Tabla 6.52 Peso y volumen de una mezcla 6.7 ¿Qué es una transformación Box-Cox? 25 b) Estime las ventas semanales cuando los gastos de publicidad sean de $35 y obtenga un intervalo a 90% de confianza para la predicción a) Calcule los tres coeficientes de correlación 6.4 ¿En qué consiste el problema de la multicolinealidad? 20 gastos de publicidad Pruebe H0 : b1 # contra H1 : b1 a 0.10 50 a) Encuentre la ecuación de la recta de regresión para pronosticar las ventas semanales resultantes de los 6.27 Un analista determinará si existe una relación lineal entre el consumo de electricidad y el número de cuartos en una vivienda unifamiliar Como el consumo de electricidad varía de un mes a otro, decide estudiar el mes de enero Para ello obtiene los datos que se muestran en la tabla 6.54 Unidad Regresión lineal simple y múltiple 344 Tabla 6.54 Consumo de electricidad y cuartos en una vivienda unifamiliar 6.32 Con la información del ejercicio anterior: a) Calcule los tres coeficientes de correlación Números de 13 10 15 cuartos (x) 9 14 b) Con un a 0.05 pruebe H0 : r # 0.50 contra H1 : r 0.50 Kilovatioshora (miles), y 6.33 Una empresa de calzado que realiza ventas por catálogo, tiene datos sobre 10 ciudades Tabla 6.57 Ventas por catálogos a) Encuentre la ecuación de la recta de regresión Pruebe H0 : b1 contra H1 : b1 Z a 0.05 b) Estime el consumo de electricidad para ocho cuartos y obtenga un intervalo a 95% de confianza para la predicción 6.28 Con la información del ejercicio anterior: a) Calcule los tres coeficientes de correlación b) Con un a 0.05 pruebe H0 : r # 0.50 contra H0 : r 0.50 6.29 La tabla 6.55 muestra la edad x y la presión sangnea y de 12 mujeres Tabla 6.55 Edad y presión sangnea de mujeres Edad x 56 42 72 36 63 47 55 49 38 42 68 60 Presión 147 125 160 118 149 128 150 145 115 140 152 155 sangnea y a) Encuentre la ecuación de la recta de regresión Pruebe H0 : b1 # contra H1 : b1 a 0.05 b) Estime la presión sangnea en una mujer de 55 años y obtenga un intervalo a 95% de confianza para la predicción 6.30 Con la información del ejercicio anterior: b) Con un a 0.05 pruebe H0 : r # 0.50 contra H1 : r 0.50 6.31 El dueño de una compía contrata un analista de tiempo parcial y le pide que analice la relación entre el número de permisos de construcción emitidos y la cantidad de trabajo disponible para su empresa Se cuenta datos como son las tasas de interés sobre hipotecas para pronosticar el número de permisos de construcción que se emitirán el mes próximo Tabla 6.56 Permisos de construcción y cantidad de trabajo disponible 10.2 12.6 13.5 Permisos 786 emitidos, y 10 14 23 17 23 14 31 24 37 19 15 a) Encuentre la ecuación de regresión de la recta Pruebe H0 : b1 # contra H1 : b1 a 0.02 b) Estime el número de órdenes recibidas para 000 catálogos distribuidos y obtenga un intervalo a 98% de confianza para la predicción 6.34 Con la información del ejercicio anterior: a) Calcule los tres coeficientes de correlación b) Con un a 0.05 pruebe H0 : r # 0.50 contra H1 : r 0.50 6.35 El gerente de una cadena de librerías desea pronosticar las ventas semanales de los libros de bolsillo, para ello se basa en la cantidad de espacio en las repisas (en pies) que se le proporciona El gerente reúne una muestra de 11 semanas Tabla 6.58 Ventas semanales de libros a) Calcule los tres coeficientes de correlación Tasa de interés (x) Número de catálogos distribuidos (miles), x Número de órdenes por correo recibidas (miles), y 9.7 10.8 9.5 10.9 9.2 14.2 892 343 888 509 987 187 Pies de espacio en 6.8 3.3 4.1 4.2 4.8 3.9 4.9 7.7 3.1 5.9 repisa x Número de libros 275 142 168 197 215 188 241 295 125 266 200 vendidos y a) Encuentre la ecuación de regresión de la recta Pruebe H0 : b1 # 30 contra H1 : b1 30 a 0.10 b) Estime el número de libros de bolsillo para una semana en la que se proporcionan pies de espacio en las repisas y obtenga un intervalo a 90% de confianza para la predicción 6.36 Con la información del ejercicio anterior: a) Calcule los tres coeficientes de correlación 494 289 a) Encuentre la ecuación de regresión de la recta Pruebe H0 : b1 # 30 contra H1 : b1 30 a 0.02 b) Estime los permisos emitidos para una tasa de interés de 12.5% y obtenga un intervalo a 98% de confianza para la predicción b) Con un a 0.05 pruebe H0 : r # 0.50 contra H1 : r 0.50 6.37 La directora de investigación y desarrollo de una empresa pretende defender su petición para aumentar los fondos de su presupuesto Para su defensa obtuvo una muestra de ocho compías farmacéuticas los siguientes datos Ejercicios de repaso Tabla 6.59 Ganancia e inversión para investigación de compías farmacéuticas 6.42 Dada la siguiente información para las variables x (aleatoria) y y (no aleatoria) x = Inversión para investigación (millones de $) 10 12 11 i 51 y = Ganancia anual (millones de $) 25 30 20 50 40 60 50 35 ∑y ∑x b) Estime la ganancia anual para una inversión de millones y obtenga un intervalo a 96% de confianza para la predicción a) Calcule los tres coeficientes de correlación 6.39 El director de personal de una empresa cree que existe relación entre las edades de los operadores de computadoras y el número de días que faltaron a trabajar el mes pasado Tabla 6.60 Edades de operadores y faltas Edad (x) 25 30 62 33 45 27 55 41 22 58 Días ausentes (y) 12 11 b) Estime los días de ausencia en la empresa de los operadores de una edad de 23 años y obtenga un intervalo a 92% de confianza para la predicción 6.40 Con la información del ejercicio anterior: a) Calcule los tres coeficientes de correlación b) Con un a 0.05 pruebe H0 : r # 0.50 contra H1 : r 0.50 Ejercicios complementarios grado de dificultad dos 6.41 Se lleva a cabo un estudio acerca de la cantidad de azúcar refinada mediante un cierto proceso a varias temperaturas diferentes Los datos para X = temperatura (entre 1.6 y 2.1) y Y = azúcar refinada, dieron los siguientes resultados: i 51 i 51 11 ∑x i 34.1455; i 51 11 ∑y 19.33; i 1110.89; 11 ∑y i 110.3; i 51 11 ∑x y i i i i 51 194.229 i 51 a) Determine la línea de regresión estimada b) Estime la cantidad de azúcar refinada que se produce cuando la temperatura codificada es de 1.75 i 45; i 51 ∑x y 285; i 168 i i 51 determine la línea de regresión estimada 6.43 Los siguientes datos muestran la relación entre el peso (x) y el tamo de tórax (y) de recién nacidos: ∑x 32.68; i ∑x i 128.66; i 51 ∑y i i 51 ∑y i 267.20; i 51 ∑x y 008.28; i i 991.87 i 51 a) Encuentre la ecuación de la línea de regresión lineal para pronosticar el tamo del tórax de los recién nacidos b) Estime el tamo del tórax de un recién nacido que pesó 3.80 kg 6.44 Los siguientes datos muestran, x la fuerza de tensión aplicada a una probeta de acero en miles de libras y y es la elongación resultante en milésimas de pulgadas: a) Encuentre la ecuación de regresión de la recta Pruebe H0 : b1 contra H1 : b1 Z a 0.08 ∑y 285; i i 51 b) Con un a 0.05 pruebe H0 : r # 0.50 contra H1 : r 0.50 i ∑x i 51 6.38 Con la información del ejercicio anterior: 11 45; i a) Encuentre la ecuación de regresión de la recta Pruebe H0 : b1 # 2.5 contra H1 : b1 2.5 a 0.04 ∑x 345 ∑x i 21; i 51 i 51 i ∑y 91; i 51 ∑y ∑x i 19 855; i 311; i 51 ∑x y i i 1342 i 51 Estime los parámetros de la recta de regresión y obtenga la expresión de la recta Ejercicios complementarios grado de dificultad tres Los artículos a los que se hace referencia en el texto se encuentran en la página del libro en SALI, en la carpeta archivos de regresión 6.45 Si en la variable de respuesta de un conjunto de observaciones se aplica la transformación rz cúbica y se considera que b0 0, ¿cómo quedaría la interpretación de b1 0, ante un incremento de la variable explicativa en d unidades? 6.46 Con la información de la tabla 1, página 300 del artículo (véase página electrónica del libro en SALI) considere a la variable de respuesta frecuencia máxima media medida en Hertz (Average Peak Frecuency) variable predictiva edad en años (age) Calcule el modelo que mejor ajuste a los datos 6.47 Con la gráfica de la figura de la página 2232 del artículo (véase página electrónica del libro en SALI), ajuste los puntos 346 Unidad Regresión lineal simple y múltiple a) Obtenga el mejor modelo lineal que ajuste a las observaciones b) Logre el mejor modelo cuadrático que ajuste a las observaciones c) Compare ambos resultados y concluya 6.48 Con la gráfica de la figura de la página 785 del artículo (véase página electrónica del libro en SALI), ajuste los puntos de las mujeres a) Obtenga el mejor modelo lineal que ajuste a las observaciones b) Logre el mejor modelo cuadrático que ajuste a las observaciones c) Compare ambos resultados y concluya d) ¿Qué puede decir de las observaciones aberrantes? 6.49 Con la gráfica de la figura de la página 785 del artículo (véase página electrónica del libro en SALI), ajuste los puntos de los jóvenes a) Obtenga el mejor modelo lineal que ajuste a las observaciones b) Logre el mejor modelo cuadrático que ajuste a las observaciones 6.50 Con la gráfica de la figura de la página 132 del artículo (véase página electrónica del libro en SALI), ajuste los puntos de la calificación y la calificación del profesor a) Obtenga el mejor modelo lineal que ajuste a las observaciones b) Obtenga el mejor modelo cuadrático que ajuste a las observaciones c) Compare ambos resultados y concluya d) ¿Qué puede decir de las observaciones aberrantes? 6.51 Con la información de la tabla 2, página 830 del artículo (véase página electrónica del libro en SALI) y considerando a la variable de respuesta tamaño del grano equiaxed ingot en mm (Grain size equiaxed ingot), variables de predicción x1, distancia de la cara fría en mm (Distance from chill face), x2 velocidad de enfriamiento y temperatura de solidificación en K/s (Cooling rate at liquidus temperature) y x3, gradiente de temperatura en K/mm (Temperature gradient at liquidus) Obtenga el mejor modelo lineal que ajuste a y x1 a) Logre el mejor modelo cuadrático que ajuste a y x1 c) Compare ambos resultados y concluya b) Consiga el mejor modelo lineal que ajuste a y x1, x2 y x3 d) ¿Qué puede decir de las observaciones aberrantes? c) Compare y concluya sobre los tres modelos Proyectos de la unidad I En el archivo artículo 1, tabla de la página 131 (véase página del libro en SALI) se encuentran los valores de las variables: x1: valor estimado del terreno x2: valor estimado de las mejoras y y: precio de venta Referentes a propiedades escogidas al azar a) Realice una prueba de bondad de ajuste Q-Q para verificar la normalidad de los precios de venta b) Calcule matriz de correlaciones de las variables predictivas ¿Qué puede concluir de los resultados obtenidos? c) Ajuste el modelo de regresión lineal múltiple a las dos variables predictivas ¿Cuáles son los valores de los tres coeficientes de correlación y cómo se interpretan? d) Formule el contraste de hipótesis para el análisis de varianza del modelo de regresión lineal múltiple y concluya sobre el contraste de hipótesis e) Proporcione el mejor modelo de regresión lineal que ajusta a las dos variables predictivas ¿Cómo se interpreta cada uno de ˆ para i 1, 2? los b i f ) Realice la prueba t a 5% de significancia para los contrastes de hipótesis y concluya sobre los resultados ⎧ H : bi i 1, ⎨ ⎩ H1 : b i Z a) Calcule un intervalo de 95% de confianza para los parámetros bi del modelo i 1, b) Explique si éste es adecuado c) Determine la posible multicolinealidad entre las variables d) Con base en las respuestas anteriores, ¿qué puede concluir del modelo? Proyectos de la unidad e) Calcule un intervalo a 95% de confianza para la estimación del precio de venta media cuando x01 2.51 y x02 8.31 f) Calcule un intervalo a 95% de confianza para la estimación del precio de venta de una propiedad cuando x01 2.51 y x02 8.31 g) Proponga un modelo parsimonioso II Modelo Cobb-Douglas Los datos siguientes se refieren a un modelo tipo de Cobb-Douglas, en el que N: nitrógeno en kg/Ha, D-kg de semilla/Ha y Y: rendimiento de grano de maíz en kg/Ha Ajuste los datos de la hoja de Excel, ejercicio 53, a un modelo Cobb-Douglas, de la forma: yi b0 b1N i0.8 b2Di0.7 b3N i1.6 b 4Di1.4 b5N i0.8Di0.7 ei a) Acomode los datos anteriores a un modelo de regresión múltiple b) Explique si el modelo es adecuado c) Determine la posible multicolinealidad entre las variables d) Con base en las respuestas anteriores, ¿qué puede concluir del modelo? III Con el modelo del ejercicio 53 se lleva a cabo un estudio económico de optimización del ingreso sobre la producción de cierto producto, sujeto a: yi b0 b1N i0.8 b2Di0.7 b3N i1.6 b 4Di1.4 b5N i0.8Di0.7 ei cuyas observaciones se encuentran arriba Su función de ingreso es: I PY yˆ C0 PN N PDD donde, se estimado que PN $5.17, PD $3.84, PT $3.25 y costo fijo de C0 $2 860 Obtenga el ingreso máximo y los valores de las variables N y D IV Con la tabla de la página del artículo (la tabla también está en la hoja del ejercicio 55 de Excel), ajuste un modelo de regresión a la variable de respuesta tiempo en taladrar en húmedo vs la variable predictiva profundidad en pies a) Realice una prueba de bondad de ajuste Q-Q para verificar la normalidad de los tiempos, considere la segunda columna de la tabla b) Ajuste el modelo de regresión lineal simple c) Realice las pruebas F y t y obtenga los resultados V Con la tabla de la página del artículo 7, ajuste un modelo de regresión a la variable de respuesta tiempo en taladrar en húmedo vs la variable predictiva profundidad en pies a) Realice una prueba de bondad de ajuste Q-Q para verificar la normalidad de los tiempos, considere la cuarta columna de la tabla b) Ajuste el modelo de regresión lineal simple c) Realice las pruebas F y t y obtenga los resultados VI Con la tabla de la página del artículo 7, ajuste un modelo de regresión a la variable de respuesta tiempo en taladrar en seco vs la variable predictiva profundidad en pies a) Realice una prueba de bondad de ajuste Q-Q para verificar la normalidad de los tiempos, considere la quinta columna de la tabla b) Ajuste el modelo de regresión lineal simple c) Realice las pruebas F y t y obtenga los resultados VII Con la tabla de la página del artículo 7, ajuste un modelo de regresión a la variable de respuesta tiempo en taladrar en seco vs la variable predictiva profundidad en pies a) Realice una prueba de bondad de ajuste Q-Q para verificar la normalidad de los tiempos, considere la séptima columna de la tabla b) Ajuste el modelo de regresión lineal simple c) Realice las pruebas F y t y obtenga los resultados 347 348 Unidad Regresión lineal simple y múltiple VIII En la hoja de Excel, ejercicio 60, están los valores de las variables para el rendimiento de azúcar del ingenio Aarón Sáenz, en el cual las variables se definen como: x1: porcentaje de humedad en la sección 8-10 de tallos de ca de azúcar x2: temperatura mínima media cuatro semanas antes de la cosecha de la caña de azúcar x3: precipitación acumulada en el periodo de ocho semanas antes de la cosecha de la caña de azúcar y: rendimiento de fábrica (azúcar producido, % de caña) Se pide buscar el modelo de regresión que mejor ajuste a las observaciones Caso de estudio I El problema consiste en usar el procedimiento de selección de variables para generar modelos y elegir el mejor, en el cual las variables son: • Elevación promedio, en pies (x1) • Temperatura promedio en grados Fahrenheit (x2) • Precipitación media anual en pulgadas (x3) • Densidad de vegetación (porcentaje de cobertura) (x4) • Área de drenaje en millas2 (x5>) • Latitud en grados (x6) • Longitud en grados (x7) • Elevación de la estación que registra la temperatura en pies (x8) • Intensidad de la precipitación pluvial en pulgadas/hora (x9) Datos recolectados durante 25 os (x9) • Rendimiento anual de agua en pulgadas (y) a) Realice una prueba de bondad de ajuste Q-Q para verificar la normalidad de y b) Calcule matriz de correlaciones de las variables predictivas ¿Qué puede concluir de los resultados obtenidos? c) Ajuste el modelo de regresión lineal múltiple a las nueve variables predictivas d) Calcule un intervalo de 95% de confianza para los parámetros bi del modelo i 1, e) Explique si el modelo es adecuado f ) Determine la posible multicolinealidad entre las variables g) Con base en las respuestas anteriores, ¿qué puede concluir del modelo? h) Proponga un modelo parsimonioso

Ngày đăng: 26/01/2022, 17:21

TỪ KHÓA LIÊN QUAN

w