1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ANALISIS DE REGRESION

211 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Análisis De Regresión
Tác giả Edgar Acuña Fernandez
Người hướng dẫn Srta. Frida Rosa Coaquira
Trường học Universidad de Puerto Rico Recinto Universitario de Mayaguez
Chuyên ngành Mathematics
Thể loại thesis
Năm xuất bản 2004
Thành phố Mayaguez
Định dạng
Số trang 211
Dung lượng 2,49 MB

Nội dung

ANÁLISIS DE REGRESIĨN Edgar Aca Fernandez Departamento de Matemáticas Universidad de Puerto Rico Reciento Universitario de Mayaguez Enero 18, 2004  2004, Derechos reservados por Edgar Aca Prohibida su reproducción sin permiso del autor PREFACIO La razón de desarrollar este texto es por la carencia de un texto completo de regresión que cubra las diversas técnicas de regresión, especialmente aquellas que han tomado auge en la última decada Un par de buenos libros de regresión son el “Classical and Modern Regression with applications” de Myers y el “Applied linear Regression” de Weisberg, pero ambos cubren muy poco material de selección de variables, regresión robusta y la muy importante área de regresión no paramétrica prácticamente es ignorada Existen por otros lados buenos textos cubriendo solamente Regresión Robusta como el “Robust regression and outlier detection” de Rousseeuw y Leroy y otros que tratan exclusivamente Regresión noparamétrica como el “Applied nonparametric regresión” de Haerdle El objetivo de este texto es cubrir la parte más transcendental de los libros antes mencionados En el transcurso de los cuatro años que he venido desarrollando el texto he usado varios programa estadísticos tales como: MINITAB, SAS, MATLAB, S-PLUS y últimamente R La meta final es desarrollar todo el texto usando el programa gratuito R Aún quedan en el texto algunas salidas de MINITAB, y las salidas de SAS se las han ido eliminado poco a poco Ya no aparecen salidas de MATLAB ni de S-PLUS Aunque el texto es en regresión aplicada también he tratado de probar muchas identidades y propiedades de estimadores que aparecen en regresión Sin embargo no es nuestra intención llenar el texto demostraciones teóricas Dos buenos textos donde se vee el lado teórico de Regresión son “Linear Regression análisis” de Seber y “Linear statistical inference and its applications” de Rao El texto está organizado en capítulos El primer capítulo se enfoca en regresión lineal simple y el segundo en regresión lineal múltiple En el tercer capítulo se discute los diversos métodos de diagnosticar si las suposiciones del modelo de regresión se están cumpliendo o En el capítulo se estudian diferentes transformaciones que se pueden hacer de las variables predictoras y la de respuesta la finalidad de mejorar el modelo de regresión haga un mejor ajuste de los datos En el capítulo se modela regresión considerando la presencia de variables categóricas Aq se incluye el estudio de la regresión logística El capítulo está dedicada al importe problema de selección de variables en regresión y en el capítulo se discute la forma de detectar y resolver el problema de multicolinealidad entre las variables predictoras Los capítulos y están dedicados a regresión robusta y regresión noparamétrica respectivamente Los conjuntos de datos que aparecen en este texto pueden ser obtenidos en el siguiente sitio de la internet en www.math.uprm.edu/~edgar/class6205.html Finalmente, deseo agradecer la ayuda de mi asistente de investigación Srta Frida Rosa Coaquira por colaborar conmigo en la depuración de errores presentes en el texto, así como en la edición de algunos capítulos Por favor para reportar cualquier sugerencia o error mandarme un e-mail a edgar@cs.uprm.edu CONTENIDO Regresión lineal simple … … … … … … … … … … … … … … … … … … … … … … … … … … .1 1.1 Introduccion… … … … … … … … … … … … … … … … … … … … … … … … … … … … … .1 1.1.1 Usos del Análisis de Regresión… … … … … … … … … … … … … … … … … 1.2 El modelo de Regresión Lineal Simple… … … … … … … … … … … … … … … … … … 1.2.1 Estimación de la línea de regresión usando mínimos cuadrados… … … … .5 1.2.2 Interpretacion de los coeficientes de regresión estimados… … … … … … … … .7 1.2.3 Propiedades de los estimadores minimos cuadraticos de regression… … … … 1.2.4 Propiedades de los residuales… … … … … … … … … … … … … … … … … … … … 1.2.5 Estimación de la varianza del error … … … … … … … … … … … … … … … … … 1.2.6 Descomposición de la suma de cuadrados … … … … … … … … … … … … … 11 1.2.7 El coeficiente de Determinacion R2 … … … … … … … … … … … … … … … … 12 1.2.8 Distribucion de los estimadores minimos cuadraticos… … … … … … … … … .13 1.3 Inferencia en Regresion Lineal Simple… … … … … … … … … … … … … … … … … … 14 1.3.1 Inferencia acerca de la pendiente y el intercepto usando la prueba t… … … 14 1.3.2 El análisis de Varianza para regresión lineal simple… … … … … … … … … … .17 1.3.3 Intervalo de predicción e intervalo de confianza para el valor medio de la variable de respuesta… … … … … … … … … … … … … … … … … … … … … 18 1.4 Análisis de Residuales… … … … … … … … … … … … … … … … … … … … … … … … … … 20 1.4.1 Cotejando Normalidad en los errores y detectando outliers… … … … … … … .21 1.4.2 Cotejando que la varianza sea constante… … … … … … … … … … … … … … … 23 1.4.3 Cotejando si los errores estan correlacionados… … … … … … … … … … … … .24 1.5 El coeficiente de Correlación … … … … … … … … … … … … … … … … … … … … … … 25 Regresión Lineal Multiple… … … … … … … … … … … … … … … … … … … … … … … … … 31 2.1 Introducción… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 31 2.2 El Modelo de Regresión lineal multiple… … … … … … … … … … … … … … … … … … … 36 2.2.1 Estimación de B por minimos cuadrados… … … … … … … … … … … … … … 36 2.2.2 Propiedades del estimador βˆ … … … … … … … … … … … … … … … … … … … … 38 2.2.3 Estimación de la varianza σ2… … … … … … … … … … … … … … … … … … … … 39 2.3 Inferencia en regresión lineal multiple… … … … … … … … … … … … … … … … … … … 41 2.3.1 Prueba de hipotesis acerca de un coeficiente de regresion individual … … … … 42 2.3.2 Prueba de Hipótesis de que todos los coeficientes de regresión sean ceros… … 43 2.3.3 Prueba de hipótesis para un subconjunto de coeficientes de regression… … … … 44 2.3.4 Intervalo de Confianza y de Predicción en Regresión Lineal Múltiple… … … … 45 2.3.5 La prueba de Falta de Ajuste… … … … … … … … … … … … … … … … … … … … 46 Anomalías en regresión y medidas remediales… … … … … … … … … … … … … … … … … … 54 3.1 Residuales … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 54 3.1.1 Media y Varianza del vector de residuals… … … … … … … … … … … … … … … … 54 3.1.2 Residuales Estudentizados internamente… … … … … … … … … … … … … … … … 55 3.1.3 “Outliers”, puntos de leverage alto y valores influenciales… … … … … … … … … 55 3.2 3.3 3.4 3.5 3.6 3.1.4 Residuales Estudentizados externamente… … … … … … … … … … … … … … … .58 Diagnósticos para detectar “outliers” y puntos de leverage alto… … … … … … … … … 60 Plot de Residuales para diagnosticar casos influenciales… … … … … … … … … … … … 66 Plot de Residuales para detectar Normalidad… … … … … … … … … … … … … … … … 70 Detectando varianza no constante… … … … … … … … … … … … … … … … … … … … … 71 Errores correlacionados en regresión… … … … … … … … … … … … … … … … … … … 72 Transformaciones en Regresión… … … … … … … … … … … … … … … … … … … … … … … 79 4.1 Transformaciones para linealizar modelos… … … … … … … … … … … … … … … … … 79 4.2 Transformaciones en regresión multiple… … … … … … … … … … … … … … … … … … 82 4.3 Transformaciones para mejorar la normalidad… … … … … … … … … … … … … … … 85 4.4 Transformaciones para estabilizar la varianza… … … … … … … … … … … … … … … … 89 4.5 Mínimos cuadrados ponderados… … … … … … … … … … … … … … … … … … … … … 92 4.6 Mínimos cuadrados generalizados… … … … … … … … … … … … … … … … … … … … 97 Regresión variables cualititivas … … … … … … … … … … … … … … … … … … … … 101 5.1 Regresión variables predictoras cualitativas… … … … … … … … … … … … … … … 101 5.5.1 Regresión una sola variable cualitativa 101 5.2 Regresión Logística… … … … … … … … … … … … … … … … … … … … … … … … … … 104 5.2.1 Estimación del modelo logístico… … … … … … … … … … … … … … … … … … 107 5.2.2 Medidas de confiabilidad del modelo… … … … … … … … … … … … … … … … 108 5.2.3 Medidas influenciales para regresión logística… … … … … … … … … … … … 109 5.2.4 Uos de regresión logística en clasificación 110 Selección de variables en Regresión 116 6.1 Métodos “Stepwise” 116 6.1.1 “Backward Elimination” (Eliminación hacia atrás) 116 6.1.2 “Forward Selection” (Selección hacia adelante) 117 6.1.3 “Stepwise Selección” (Selección Paso a Paso) 118 6.2 Método de los mejores subconjuntos 124 6.3 Criterios para elegir el mejor modelo 124 6.3.1 El coeficiente de Determinación R2 124 6.3.2 El R2 ajustado 124 6.3.3 La varianza estimada del error (s2) 124 6.3.4 Cp de Mallows 125 6.3.5 PRESS Suma de cuadrados de Predicción 128 6.3.6 Validación Cruzada 130 6.3.7 AIC 131 6.3.8 BIC 136 6.3.9 Validación cruzada Generalizada .136 6.3.10 Otros Criterios 138 6.3.11 Recomendación para elegir el mejor modelo 138 6.4 Otros métodos de selección de variable .139 6.4.1 Métodos Bayesianos… … … … … … … … … … … … … … … … … … … … … … 139 6.4.2 Algoritmos Genéticos… … … … … … … … … … … … … … … … … … … … … … 139 Multicolinealidad … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 141 7.1 Multicolinealidad… … … … … … … … … … … … … … … … … … … … … … … … … … … 141 7.1.1 Efectos de Multicolinealidad… … … … … … … … … … … … … … … … … … … … 141 7.1.2 Diagnósticos de Multicolinealidad… … … … … … … … … … … … … … … … … 143 7.1.3 Medidas remediales al problema de multicolinealidad 145 7.2 Regresión Ridge 145 7.2.1 Aplicación de Regresión Ridge a Selección de variables 152 7.3 Componentes principales para Regresión .153 Regresión Robusta 161 8.1 Introducción 161 8.2 Regresión L1 162 8.3 Regresión M 165 8.3.1 Cálculo de los estimadores M de regresión 172 8.4 Regresión GM o Regresión de Influencia acotada 176 8.5 Regresión de Medianas de Cuadrados Mínima .177 Regresión Noparamétrica… … … … … … … … … … … … … … … … … … … … … … … … … 181 9.1 Introducción… … … … … … … … … … … … … … … … … … … … … … … … … … … … … 181 9.2 Suavización bivariada o Suavizadores de diagramas de puntos 182 9.2.1 El regresorgrama… … … … … … … … … … … … … … … … … … … … … … … … … 182 9.2.2 “Running Means” y “Running Lines”… … … … … … … … … … … … … … … … … 183 9.2.3 Suavizador por los k vecinos más cercanos 185 9.2.4 Suavización por kernels 185 9.2.5 Regresión local ponderada, LOWESS 187 9.2.6 Regresión Polinomial 188 9.2.7 Regresión por Splines 190 9.2.8 Suavización por Splines… … … … … … … … … … … … … … … … … … … … … … 192 9.3 Suavización multidimensional 196 9.3.1 Modelos Aditivos generalizados, GAM 196 9.3.2 Regresión usando árboles de decisión (CART) .198 Apéndice A: Revisión de Matrices… … … … … … … … … … … … … … … … … … … … … … … 207 Referencias CAPÍTULO REGRESIĨN LINEAL SIMPLE 1.1 Introducción Regresión es un conjunto de técnicas que son usadas para establecer una relación entre una variable cuantitativa llamada variable dependiente y una o más variables independientes llamadas variables predictoras Las variables independientes también deberían ser cuantitativas, sin embargo es permitido que algunas de ellas sean cualitativas La ecuación que representa la relación es llamada el modelo de regresión Si todas las variables independientes fueran cualitativas entonces el modelo de regression se convierte en un modelo de diseños experimentales Ejemplos de modelos de regression: a) La variable de respuesta puede ser la tasa de divorcio y una variable predictora puede ser el nivel de ingreso familiar b) El precio de una casa puede ser la variable dependiente y el área, número de cuartos, número de baños, años de antiguedad pueden ser usadas como variables predictoras Para estimar la ecuación del modelo se debe tener una muestra de entrenamiento En el caso de una sola variable independiente, esta muestra consiste de n pares ordenados (xi,yi) para i=1, ,n En el caso de varias variables independientes se deben tener n nuplas (xi,yi), para i=1, ,n, domde xi es el vector de mediciones de las variables predictoras para la i-ésima observación Ejemplo La tasa de mortalidad infantil (muertes de niños de años o menos por cada 1,000 nacidos vivos) como variable dependiente y el porcentaje de vacunación en un ps como variable independiente NACION 10 11 12 13 14 15 16 17 18 19 20 "Bolivia" "Brazil" "Cambodia" "Canada" "China" "Czech_Republic" "Egypt" "Ethiopia" "Finland" "France" "Greece" "India" "Italy" "Japan" "Mexico" "Poland" "Russian_Federation" "Senegal" "Turkey" "United_Kingdom" %INMUNIZACION 77 69 32 85 94 99 89 13 95 95 54 89 95 87 91 98 73 47 76 90 TASA_mor 118 65 184 43 12 55 208 9 124 10 33 16 32 145 87 El objetivo es hallar una ecuación que represente lo más preciso posible la relación entre el porcentaje de vacunación y la tasa de mortalidad El siguiente es un plot de los datos Edgar Aca Capítulo Regresión Lineal Simple Plot que muestra la relacion entre la tasa de mortalidad y el porcentaje de inmunizacion 200 TASA_mor 18 12 100 19 15 17 11 14 20 16 1903 10 20 30 40 50 60 70 80 90 100 %INMUNIZACION Los países 8, y 18 parecen estar algo alejados de la mayoría de los datos Igualmente 11 y 12 aparecen algo fuera de la tendencia No es muy obvio concluir que hay una relación lineal entre las variables La siguiente gráfica muestra la línea de regresión obtenida usando el paquete estadístico MINITAB Regression Plot TASA_mor = 224.316 - 2.13587 %INMUNIZACIO S = 40.1393 R-Sq = 62.6 % R-Sq(adj) = 60.5 % 50 70 TASA_mor 200 100 10 20 30 40 60 80 90 100 %INMUNIZACIO La medida de confiabilidad del modelo, llamada coeficiente de determinación ( R2 ) , es sólo 62.6%, lo cual no es muy alto Sin tomar en cuenta que esta medida se vee afectada por la presencia de los valores anormales, nos indica que la relación lineal entre las variables no es muy fuerte Edgar Aca Capítulo Regresión Lineal Simple Si eliminamos las observaciones 11 y 12 la relación mejora notablemente, como se observa en la siguiente gráfica Regression Plot TASA_mor = 251.482 - 2.47664 %INMUNIZACIO S = 24.7300 R-Sq = 86.2 % R-Sq(adj) = 85.3 % 50 70 TASA_mor 200 100 10 20 30 40 60 80 90 100 %INMUNIZACIO Ahora el R subió a un 86.2%, que es bastante aceptable El análisis de regresión es un proceso interactivo y el desarrollo de las computadoras en la última década facilitado e incentivado el uso de regresión en el análisis estadístico Regresión también es conocido como Ajuste por cuadrados mínimos, debido al método que se usa para estimar el modelo de regresión Cuadrados Mínimos es acreditado a Karl Gauss y data desde los inicios de 1800 El nombre regresión fue introducido por F Galton a finales de 1800 cuando trató de relacionar las alturas de hijos y padres 1.1.1 Usos del análisis de regresión: Los siguientes son los usos de un modelo de regresión, aunque muchas veces ellos se dan al mismo tiempo: a) Predicción: El objetivo aq es pronosticar valores de la variable de respuesta para valores futuros de la variables predictoras, es decir para valores más allá de rango de valores de la variable predictora en la muestra de entrenamiento Tal vez ésta sea la razón principal para usar regresión b) Descripción: La idea es establecer una ecuación que describa la relación entre la variable dependiente y las variables predictoras c) Control: Controlar el comportamiento o variación de la variable de respuesta de acuerdo a los valores de las variables predictoras d) Selección de variables: Inicialmente se pueden haber considerado muchas variables para explicar el comportamiento de la variable de respuesta, pero la presencia de muchas variables puede afectar el rendimiento del modelo además de que la computación del mismo se vuelve lenta Por lo tanto hay que usar técnicas para escoger solo las variables predictoras que sean más relevantes y las que no sean redundantes en explicar la variación de la variable de respuesta Edgar Aca Capítulo Regresión Lineal Simple 1.2 El modelo de Regresión Lineal simple En este caso se tiene una variable de respuesta o dependiente, denotada por Y y una sola variable predictora representada por X El modelo de regresión lineal simple es de la forma Y = α + βX + ε (1.1) Aqui α y β son el intercepto y la pendiente del modelo de regression respectivamente y ε es un error aleatorio Considerando que la muestra es representada por los n pares ordenados (xi,yi) entonces el modelo se puede escribir como Yi = α + βX i+ ei para i=1,… n (1.2) Regression Plot TASA_mor = 224.316 - 2.13587 %INMUNIZACIO S = 40.1393 R-Sq = 62.6 % R-Sq(adj) = 60.5 % 200 Y =α+ β X TASA_mor e2 e3 100 e6 10 20 30 40 50 60 70 80 90 100 %INMUNIZACIO En la figura anterior se muestra la línea de regresión y los errores para algunas de las observaciones Suposiciones del modelo: a) La variable x es no aleatoria y se supone que sido medida la mejor precisión posible Sin embargo hay algunas situaciones donde también se supone que X es aleatoria b) Los errores ei son variables aleatorias media y varianza constante σ Por ahora no se requerirá normalidad de los errores c) Los errores ei y ej (i≠j=1… ,n) son independientes entre si Es decir, Cov (ei , e j ) = Como en la ecuación del modelo solamente los ei’s son aleatorios entonces las yi’s deben tener también varianza constante σ y deben ser independientes por parejas Edgar Aca Capítulo Regresión Lineal Simple 1.2.1 Estimación de la línea de regresión usando Mínimos Cuadrados Si se toma el valor esperado de y i para el valor xi de x entonces de (1.2) se obtiene E ( y i ) = E (α + βxi + ei ) = α + βxi (1.3) O más formalmente que E ( y / x) = α + βx (1.4) Es decir la esperanza ( o media ) condicional de y dado x es una ecuación lineal en x Los parámetros α y β deben ser estimados en base a la muestra tomada El método más usado para hacer esta estimación es el de los cuadrados mínimos La idea es minimizar la suma de los cuadrados de los errores ei, respecto a α y β Es decir, n n i =1 i =1 Q(α , β )= ∑ ei2 = ∑ ( y i − α − βxi ) (1.5) Derivando parcialmente Q(α , β ) respecto a α y β e igualando a cero se obtienen las siguientes ecuaciones n ∂Q = − 2∑ ( y i − α − βxi ) = ∂α i =1 (1.6) n ∂Q = − 2∑ ( y i − α − βxi ) x i = ∂α i =1 (1.7) simplificando ambas ecuaciones se obtiene nα + β n n ∑ i =1 α n ∑ i =1 xi + β xi = ∑ y i n ∑ i =1 (1.8) i =1 n xi2 = ∑ xi y i (1.9) i =1 este par de ecuaciones es conocido como las ecuaciones normales del modelo Resolviendo este par de ecuaciones se obtiene que n βˆ = n∑ x i y i − i =1 n n ∑ i =1 n n xi ∑ y i i =1 n ∑ x − (∑ x i ) i =1 i i =1 (1.10) Edgar Aca 192 Capíulo Regresión Noparamétrica El modelo puede ser linealizado mediante transformaciones y hay que estimar p+K+1 parámetros El problema es determinar el número de nodos K La idea básica es añadir el máximo número de nudos posibles y luego ir eliminado uno por uno tratando de maximizar la bondad de predicción del modelo y minimizando su complejidad Una vez determinada la base de los splines se puede hacer la regresión usando las funcione lsfit o lm de S-Plus A continuación se muestran las regresiones usando spline natural y B-Spline >plot(radiation,ozone) > lines(airsort[,1],fitted(lm(airsort[,2]~ns(airsort[,1],df=5))) ) > lines(airsort[,1],fitted(lm(airsort[,2]~bs(airsort[,1],df=6)))) Regresion por B-Splines y Natural Splines Natural Splines ozone B-Splines 50 100 150 200 250 300 radiation 9.2.8 Suavización por Splines El suavizador por splines se obtiene minimizando n ∑ (y i =1 i − f ( xi )) + λ∫[ f ' ' (t )]2 dt (9) El primer término es una media de la bondad de ajuste del modelo y el segundo término es una medida del grado de suavidad El parámetro de suavidad λ es positivo y gobierna el intercambio entre la suavidad y la bondad de ajuste del suavizador Cuando λ=∝ se obtiene una aproximación polinomial y cuando λ=0 se obtiene una regresión por spline Considerando que X it = {1, X i , , X ip , ( X i − t1 ) P+ , ( X i − t k ) +p }  X 1t    X=  X t   n  βo    y ß=  β   k+ p  Edgar Aca Capíulo Regresión Noparamétrica 193 Entonces la ecuación anterior se puede escribir como (y − Xß) t (y − Xßß+ λß t Oß donde Ω es una matriz tal que {Ω } jk = ∫X " j (10) (t ) X k" (t )dt Reinsch (1967) mostró que existe existe un único mínimo de (9) , y que éste es un spline cúbico natural knots en los únicos valores de xi Minimizando la expresión (10) respecto a β se obtiene que ߈(λ) = ( X' X + λO) − X' y que es un resultado bien similar a Regresión Ridge Recordando que f = XB se tendría que fˆ = X' (X' X + λO) − X' y Aqui la matriz H(λ) = X' (X' X + λO) − X' es llamada la matriz “HAT” Los grados de libertad de la suavización es igual a la traza de H(λ) Esto es bastante similar al número de variables predictoras en un modelo de regresión Elección del parámetro λ a) Usando validación cruzada Sea s ( x; ߈(λ)) el spline ajustado parámetro de suavización λ Sea s − i ( x; ߈(λ)) el spline ajustado parámetro de suavización λ pero sin usar la observación (xi,yi) entonces se define la función de validación cruzada como n CV (λ) = ∑ {s i − s − i ( xi , βˆ(λ)}2 i =1 el valor λ que minimiza CV(λ) es el valor que se escoge como parámetro de suavización El problema CV es que es computacionalmente caro calcularlo Una major alternativa es usar GCV b)Usando validación cruzada generalizada (GCV) El GCV en realidad no es una generalización del CV sino por el contrario una aproximación Se define por n GCV (λ) = ∑ {y i − s ( xi , βˆ(λ))}2 i =1 [1 − tr ( H (λ) / n]2 (11) el valor λ que minimiza GCV(λ) es el valor que se escoge como parámetro de suavización Este es el procedimiento que usan SAS y S-Plus para estimar el parámetro de suavización Edgar Aca Capíulo Regresión Noparamétrica 194 A continuación se muestran los resultados en S-plus >smooth.spline(air$radiation,air$ozone) Call: smooth.spline(x = air$radiation, y = air$ozone) Smoothing Parameter (Spar): 0.01844406 Equivalent Degrees of Freedom (Df): 4.065246 Penalized Criterion: 48.79781 GCV: 0.5747841 > plot(radiation,ozone) > lines(smooth.spline(radiation,ozone)) air$ozone Suavizacion por el metodo de splines 50 100 150 200 250 300 air$radiation Ejemplo A continuación se muestran las suavizaciones usando LOESS, kernel, y splines usando SAS para ajustar la relación entre las variables ozone y radiation del conjunto de datos air Edgar Aca Capíulo Regresión Noparamétrica ozone = M odel Equat i on 4860 + 0041 r adi at i on o z o n e 100 200 r adi at i on 300 195 Edgar Acuña Cur ve Cur ve Cur ve Par am et r i c Regr essi on Fi t M odel Er r or DF M ean Squar e DF M ean Squar e 15 5314 109 6576 Degr ee( Pol ynom i al ) Cur ve Met hod GCV W ei ght Nor mal Met hod GCV 196 Capíulo Regresión Noparamétrica C Val ue 2559 Spl i ne Fi t Smoot hi ng Par amet er 15694 0788 C Val ue 4846 Type W ei ght N_I nt er val s Met hod Li near Tr i - Cube 128 GCV Ker nel Fi t Bandwi dt h 27 2045 Loess Fi t Al pha 6904 R- Squar e 1781 F St at 23 62 DF R- Squar e MSE 847 3185 5546 DF 158 K 76 R- Squar e 3324 DF 516 R- Squar e 3153 MSE 5501 Pr > F < 0001 MSE( GCV) 5745 MSE( GCV) 5769 MSE 5555 MSE( GCV) 5737 9.3 Suavización multidimensional i) Modelos Aditivos generalizados, GAM (Hastie y Tibshirani, 1985) ii) Regresión por Projection Pursuit, PPR ( Friedman, Stuelze, 1981) iii) Regresión por arboles, CART (Breiman, Friedman, Olsen y Stone, 1984) iv) Regresión multivariada adaptativa usando Splines, MARS (Friedman, 1991) v) Esperados Condicionales Alternantes, ACE (Breiman y Friedman, 1985) vi) Neural Networks (Barron vii) Wavelets smoothing (Donoho y Johnstone, 1995) 9.3.1 Modelos Aditivos generalizados (GAM) Un modelo aditivo generalizado es de la forma y=f1(x1)+f2(x2)+… … fp(xp) +e aqui las fj son estimadas usando cualquiera de los suavizadores bivariados El modelo es ajustado usando el algoritmo “local scoring”, el cual iterativamente ajusta modelos aditivos ponderados usando “backfitting” El algoritmo “backfitting” es un método de GaussSeidel para ajustar modelos aditivos usando residuales parciales de suavización iterativamente Algoritmo “Backfitting” En el paso inicial se define las funciones f j(o ) ≡ Edgar Aca Capíulo Regresión Noparamétrica 197 En la i-ésima iteration, se estima f j(i + 1) por f j(i + 1) = s ( y − Cotejar si | f ( i + 1) j ∑ k≠ j f ki ( x k )) para j=1,… p − f |< δ para todo j=1, ,p, donde δes una constante de tolerancia Si no i j se cumple la condición volver al paso En caso contrario parar y usar f j(i ) como fj en el modelo aditivo Si bien terminos de suavización tales como lowess , bs , ns, kernel o k-nn pueden ir mezclados en una fórmula, es más conveiniente usar el mismo suavizador para ahorrar memoria del computador S-Plus y R tiene la función gam para estimar un modelo aditivo genralizado Aqui se aplica a los datos del ejemplo 1, usando ozone como variable de respuesta, y radiation y temperature como variables predictoras regresion splines La funcion gam de S-Plus es mas general y permite usar otros suavizadores > gam1 gam1 Call: gam(formula = ozone ~ lo(radiation) + bs(temperature), data = air) Degrees of Freedom: 111 total; 103.433 Residual Residual Deviance: 29.23443 > attributes(gam1) $names: [1] "coefficients" "residuals" [3] "fitted.values" "R" [5] "rank" "smooth" [7] "nl.df" "df.residual" [9] "var" "assign" [11] "terms" "call" [13] "formula" "family" [15] "nl.chisq" "y" [17] "weights" "iter" [19] "additive.predictors" "deviance" [21] "null.deviance" "contrasts" $class: [1] "gam" "glm" "lm" > gam1$fitted.values 10 11 12 2.65671 2.54582 2.773776 2.597299 2.611294 2.393684 2.045584 2.808312 2.645998 2.736994 2.345038 2.512691 13 14 15 16 17 18 19 20 21 22 23 24 2.596751 2.458358 2.596977 2.10186 2.094763 2.824071 2.065725 2.284439 1.997066 3.595331 3.432517 3.137973 Edgar Aca 198 Capíulo Regresión Noparamétrica 25 26 27 28 29 30 31 32 33 34 35 36 3.311191 4.253792 3.917691 3.382748 3.177898 2.868866 2.052431 2.610131 2.868028 3.814197 3.947865 3.606233 37 38 39 40 41 42 43 44 45 46 47 48 3.586038 3.599523 4.138319 4.472126 4.461953 4.094639 2.979593 3.4159 2.86658 3.578421 3.632034 3.767283 49 50 51 52 53 54 55 56 57 58 59 60 3.988882 3.933699 2.283529 3.914839 3.939381 3.141197 3.487908 4.17284 3.972782 3.76244 3.590106 3.062994 61 62 63 64 65 66 67 68 69 70 71 72 2.869332 3.128421 4.267184 4.362023 4.321021 3.93223 3.634388 3.25018 2.70473 2.795085 2.785039 3.365681 73 74 75 76 77 78 79 80 81 82 83 84 3.248156 3.261354 2.265019 3.409377 3.607601 4.00857 4.772059 4.647696 4.774663 4.528619 4.213954 4.44216 85 86 87 88 89 90 91 92 93 94 95 96 4.436223 4.46699 3.613728 3.347621 3.512145 3.347788 3.141048 2.992318 3.606233 3.188219 3.287716 2.173835 97 98 99 100 101 102 103 104 105 106 107 108 2.469837 3.363355 2.76363 2.486444 2.797151 3.630543 2.746346 2.140027 3.267639 2.174337 2.003213 2.770275 109 110 111 3.035249 2.847853 2.78659 > gam1$coefficients (Intercept) lo(radiation) bs(temperature)1 bs(temperature)2 bs(temperature)3 2.777342 2.448357 -1.033315 1.147127 1.8088 También se puede usar la función predict.gam para predecir nuevos valores de la variable de respuesta A continuación se presenta un programa para hacer un plot de la superficie estimada por el modelo aditivo generalizado gtemp win.graph() > plot.tree(mejorarbol, type="u") > text(mejorarbol) > ggest gbw grid grid1 grid1 estimado #grid2 matest persp(ggest, gbw, matest, theta=30, phi=45, xlab="gestage", ylab="birthwt", zlab="headcir",col="lightgreen") birt hw t r dci hea ge sta ge Edgar Aca Capíulo Regresión Noparamétrica 206 EJERCICIOS Considerar el conjunto Berkeley, disponible en la página de internet del curso Elegir una variable predictora y hallar las suavizaciones por kernel, lowess y splines Calcular en cada caso la suma de cuadrados de los residuales y plotear las curves suavizadas Hacer un programa de preferencia en R que haga la suavización por “running lines” (k=5) y aplicarlo al conjunto de datos Highway Hacer un programa de preferencia en R que haga la suavización por los k vecinos más cercanos (k=3) y aplicarlo al conjunto de datos Fuel

Ngày đăng: 26/01/2022, 15:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN