Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
646,19 KB
Nội dung
Bài 7: Lựa chọn mô hình hồi quy 93 BÀI 7. LỰA CHỌN MÔ HÌNH HỒI QUY Mục tiêu Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây: • Các thuộc tính của một mô hình tốt. • Các loại sai lầm về định dạng của mô hình. • Hậu quả khi chọn mô hình định dạng sai. • Kiểm định phát hiện mô hình định dạng sai. • Giới thiệu mô hình dạng lôga tuyến tính. • Giới thiệu mô hình với biến giả. Nội dung Hướng dẫn học • Tiêu chuẩn cho một mô hình tốt. • Các loại sai lầm định dạng của mô hình. • Hậu quả nếu một mô hình định dạng sai. • Các kiểm định phát hiện sai lầm định dạng. • Các loại mô hình với biến giả. Thời lượng • 12 tiết • Ôn lại các bài học trước để hiểu được các loại mô hình hồi quy. • Tập trung phân biệt các hậu quả xảy ra khi có một loại sai lầm định dạng nào đó. • Tập trung vào các phương pháp kiểm định để phát hiện các sai lầm định dạng. • Tập trung hiểu rõ bản chất của việc đưa biến giả vào mô hình và các loại mô hình có biến giả. • Xem xét kỹ các ví dụ trong giáo trình và bài giảng. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 94 TÌNH HUỐNG DẪN NHẬP Tình huống Tình huống 1: Trong tình huống của bài học số 4, chúng ta đã sử dụng mô hình dưới dạng lôgarit của các biến. Một nhà nghiên cứu khác lại đề xuất sử dụng dạng tuyến tính của các biến (là dạng ban đầu). Vậy dạng mô hình nào tốt hơn để phân tích trong tình huống này? Tình huống 2: Một nhà nghiên cứu về bình đẳng giới muốn xem xét việc liệu thu nhập của người lao động có bị ảnh hưởng bởi giới tính của họ hay không. Nhà nghiên cứu này xem xét mô hình hồi quy E(TN/D i ) = β 1 + β 2 D i trong đó TN là thu nhập, D là biến giả, nhận giá trị bằng 1 nếu là nam, bằng 0 nếu là nữ. Câu hỏi • Với mô hình này làm thế nào để kết luận về liệu có ảnh hưởng của giới tính đến thu nhập hay không? • Trong bài học số 7, ta sẽ xem xét việc lựa chọn một mô hình tốt sẽ dựa trên các tiêu chí nào? Và chúng ta sẽ trả lời được câu hỏi thu nhập có bị ảnh hưởng bởi giới tính hay không. Bài 7: Lựa chọn mô hình hồi quy ơ 95 Trong phần trình bày ở các bài trước, ta giả định rằng một mô hình hồi quy được lựa chọn là một mô hình đúng, nghĩa là hiện tượng cần nghiên cứu được mô hình hóa đúng với bản chất và phù hợp với quy luật vốn có của nó. Tuy nhiên, thông thường ở bước ban đầu ta chưa biết rõ về bản chất và quy luật của hiện tượng, mà phải dựa vào số liệu để khám phá ra bản chất và quy luật đó. Vậy thế nào là một mô hình tốt, có phải một mô hình hồi quy có các phần dư càng nhỏ thì càng tốt hay không, hay một mô hình phải có phương trình hồi quy thật phức tạp, thật đẹp về mặt toán học mới là tốt? 7.1. Các thuộc tính của một mô hình tốt BÀI TOÁN Xét hai mô hình hồi quy tuyến tính i122i33i kkii Y X X X u=β +β +β + +β + , (7.1) i122i33i mmii Y X X X v=β +β +β + +β + , (7.2) trong đó mk < (do vậy sai số i u có xu thế nhỏ hơn sai số i v ). Có thể kết luận là mô hình (7.1) tốt hơn mô hình (7.2) không? Hơn nữa, có phải một mô hình hồi quy phi tuyến nào đó (mô hình lôgarit chẳng hạn) sẽ tốt hơn hai mô hình tuyến tính đó không? Nói rộng ra, mô hình phải có những tính chất gì sẽ được coi là một mô hình đúng đắn? Việc đánh giá một mô hình có đúng đắn, phù hợp với bản chất của hiện tượng hay không phải được dựa trên những tiêu chuẩn nhất định. A.C. Harvey đã đưa ra các tiêu chuẩn để đánh giá chất lượng của mô hình hồi quy. Các tiêu chuẩn này đã được vận dụng rộng rãi trong thực tế, bao gồm: • Tính tiết kiệm: Mô hình càng đơn giản càng tốt, tuy nhiên phải chứa đựng những biến độc lập chủ yếu ảnh hưởng đến biến phụ thuộc để giải thích được các hiện tượng cần nghiên cứu. Việc đánh giá biến độc lập nào ảnh hưởng một cách có ý nghĩa đến biến phụ thuộc, một mặt phải dựa trên ý nghĩa thực tế củ a mô hình. Mặt khác có thể dựa vào phép kiểm định về các hệ số trong phương trình hồi quy. • Tính xác định: Các tham số ước lượng được phải có tính ổn định và duy nhất đối với một tập số liệu cho trước. Chẳng hạn, nếu hiện tượng đa cộng tuyến không được xử lý thì tính xác định không được đảm bảo, vì các tham số ước lượng được có thể có độ biến động lớn và khi đó việc thay đổi một vài quan sát trong số liệu có thể làm cho các tham số ước l ượng được thay đổi rất nhiều. Vậy việc khử đa cộng tuyến có thể giúp cho mô hình hồi quy có tính xác định. • Tính thích hợp: Các biến độc lập giải thích được sự thay đổi của biến phụ thuộc càng nhiều càng tốt. Hệ số xác định của mô hình hồi quy tuyến tính cung cấp một thước đo để đánh giá tính thích hợp của mô hình so với số liệu. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 96 • Tính bền vững về mặt lý thuyết: Mô hình phải phù hợp với cơ sở lý thuyết nền tảng. Chẳng hạn, các giả thiết về tính độc lập của các quan sát, tính phân phối chuẩn và phương sai thuần nhất của sai số, sẽ đảm bảo về mặt lý thuyết của mô hình hồi quy tuyến tính cổ điển. • Có khả năng dự báo tốt: Mô hình tốt là một mô hình có khả năng cung cấp các kết quả dự báo càng sát với thực tế càng tốt. 7.2. Cách tiếp cận lựa chọn mô hình Để lựa chọn được mô hình hồi quy thích hợp với bộ số liệu và mục tiêu nghiên cứu, ta có thể tiến hành lần lượt theo các bước sau: • Bước 1: Xác định danh sách các biến độc lập có thể có trong mô hình. Dựa vào ý nghĩa thực tế của bài toán đã được đặt ta, ta cần liệt kê tất cả những biến độc lập có thể có của mô hình, là những biến có khả năng ảnh hưởng đến giá trị của biến phụ thuộc. Những biến này có thể đã có sẵn trong danh sách các biến của bộ số liệu, song cũng có thể là biến được tạo ra từ các biến trong danh sách đó thông qua các phép biến đổi. • Bước 2: Kiểm tra sự vi phạm các giả thiết của mô hình hồi quy. Bước này bao gồm việc tiến hành kiểm định các vấn đề như đa cộng tuyến, phương sai thay đổi, tự tương quan, phân bố không chuẩn của sai số, và khắc phục các vi phạm phát hiện được. • Bước 3: Chọn dạng hàm hồi quy. Dạng hàm hồi quy có thể được xác định dựa trên kiến thức chuyên ngành liên quan đến số liệu hoặc dựa vào dạng hàm đã được sử dụng trong các nghiên cứu trước đó. Bên cạnh đó, có thể xác định dạng hàm hồi quy thông qua việc khảo sát các đồ thị biểu diễn sơ bộ mối quan hệ giữa biến độc lập và biến phụ thuộc. Chẳng h ạn nếu trên đồ thị, các chấm tương ứng với các quan sát của tập số liệu nằm tập trung hai bên một đường thẳng nào đó, thì có thể chọn dạng hàm hồi quy tuyến tính. Còn nếu các chấm đó lại nằm hai bên một đường cong thì có thể dựa vào dạng của đường cong đó mà đưa ra dạng hàm hồi quy phi tuyến thích hợp. • Bước 4: Áp dụng các tiêu chuẩn để đánh giá và lựa chọn mô hình. Hệ số xác định là một thước đo thường được dùng đầu tiên để đánh giá chất lượng của mô hình hồi quy. Nếu hệ số xác định có giá trị lớn hơn 50% thì có thể coi mô hình khá phù hợp với tập số liệu. Còn nếu hệ số xác định nhỏ hơn 30% thì có thể khẳng định mô hình không phù hợp và nên tìm mô hình khác. Ngoài hệ số xác định, còn có một số tiêu chuẩn khác có thể dùng để đ ánh giá các mô hình hồi quy như: o Tiêu chuẩn log-hợp lý (log-likelihood): n 22 i i1 nn 1 Lln ln(2) u 22 2 = =− σ − π − ∑ . Bài 7: Lựa chọn mô hình hồi quy ơ 97 Có thể chứng minh L có phân phối tiệm cận với phân phối khi bình phương. Giá trị này càng lớn (tương ứng với xác suất ý nghĩa càng nhỏ) thì càng tốt, vì cho thấy mô hình đang xét rất khác biệt với mô hình “tầm thường” (là mô hình cho rằng không hề có quan hệ giữa các biến độc lập và biến phụ thuộc). Trong thực hành, giá trị của hàm L được ước lượng bằng công thức: nRSS L(1ln(2)ln()) 2n =− + π + . o Tiêu chuẩn AIC (Akaike info criterion): 2k/n RSS AIC ( ).e , n = trong đó k là số tham số trong mô hình hồi quy. Giá trị AIC này càng nhỏ thì mô hình càng phù hợp với số liệu. o Tiêu chuẩn Schwarz (Schwarz criterion): k/n RSS SC ( ).n n = trong đó k là số tham số trong mô hình hồi quy. Giá trị SC này càng nhỏ thì mô hình càng phù hợp với số liệu. Hệ số xác định được dùng để đánh giá sự phù hợp của mô hình hồi quy nhiều khi chưa nói lên đầy đủ chất lượng của mô hình vì một số lý do sau đây: Nếu hai mô hình hồi quy chứa danh sách các biến độc lập khác nhau thì hệ xác định của hai mô hình đó (có thể bằng nhau) không giúp kết luận được mô hình nào tốt hơn; Có thể việc loại bỏ bớt một số biến nào đó ra khỏi phương trình hồi quy tuy làm giảm hệ số xác định, song về thực chất lại không làm giảm đáng kể chất lượng của mô hình. Mặt khác, trong thực hành, nhiều khi dùng ít biến độc lập trong mô hình thì “kinh tế” hơn, mặc dù sai số ước lượng có thể lớn hơn. Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Tiêu chuẩn F dưới đây có thể giúp tiến hành một trong những phép kiểm định như vậy: o Tiêu chuẩn F (F criterion). Với mô hình hồi quy (7.1) ta xét bài toán kiểm định: BÀI TOÁN KIỂM ĐỊNH 1 02 3 k 1i H: 0 H: 0 β =β = =β = ⎧ ⎨ ∃β ≠ ⎩ Việc chấp nhận giả thuyết 0 H có nghĩa là tất cả các biến độc lập không hề ảnh hưởng đến giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết 0 H có nghĩa có ít nhất một biến độc lập nào đó có tác động đến biến phụ thuộc, tức là mô hình hồi quy phù hợp với số liệu ở một mức độ nhất định. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 98 Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số: 2 2 R/k F (1 R ) /(n k 1) = −−− , trong đó 2 R là hệ số xác định của mô hình hồi quy, k là số tham số trong mô hình, n là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp xỉ phân phối Fisher với bậc tự do (k, n – k –1). Qua đó có thể xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng so sánh với mức ý nghĩa đã cho (5% chẳng hạn) để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết 0 H. Ta xét lại ví dụ ở bài trước về số liệu báo cáo phát triển thống kê ở 73 nước đang phát triển năm 1988, trong đó biến phụ thuộc là nợ nước ngoài 88 D và biến độc lập là tổng sản phẩm quốc nội 88 Y. Thực hiện hồi quy 88 D theo 88 Y, ta có kết quả trong bảng sau: Trong bảng trên, ta thấy mô hình có hệ số xác định lớn hơn 77%, cho biết mô hình hồi quy này phù hợp với tập số liệu. Kết luận đó cũng khẳng định qua giá trị 244.9136 của thống kê F, tương ứng với xác suất ý nghĩa bằng 0.000000 (rất nhỏ). Ngoài ra, bảng còn cung cấp giá trị của các tiêu chuẩn AIC, SC và log - hợp lý. 7.3. So sánh hai mô hình hồi quy Cùng với hệ số xác định, các tiêu chuẩn từ 1 đến 4 trên đây đều có thể dùng để đánh giá chất lượng của mô hình. Tuy nhiên sự đánh giá đó mới đề cập đến sự phù hợp của Bài 7: Lựa chọn mô hình hồi quy ơ 99 mô hình với bộ số liệu, chứ chưa đánh giá so sánh về chất lượng của các mô hình. Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Với hai mô hình hồi quy (7.1) và (7.2), ta xét bài toán kiểm định: BÀI TOÁN KIỂM ĐỊNH 2 0m1 m2 k 1i H : 0 H : 0,i {m 1, m 2, , k} ++ β=β==β= ⎧ ⎨ ∃β ≠ ∈ + + ⎩ Việc chấp nhận giả thuyết 0 H có nghĩa các biến độc lập m1 m2 k X ,X , ,X ++ không có vai trò đáng kể đối với biến Y , tức là hai mô hình (7.1) và (7.2) là như nhau về khả năng dự báo giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết 0 H có nghĩa mô hình (7.1) với nhiều biến độc lập hơn, sai số hồi quy nhỏ hơn, sẽ cung cấp dự báo chính xác hơn cho biến phụ thuộc. Trong thực hành, nếu giả thuyết 0 H được chấp nhận thì rõ ràng nên chọn mô hình (7.2) vì số biến độc lập ít hơn, nên có lợi hơn về mặt kinh tế. Còn nếu giả thuyết bị bác bỏ thì nên chọn mô hình (7.1), vì dự báo sẽ cho kết quả thực sự chính xác hơn. Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số 22 km 2 k RR nk F km 1R − − =× −− , trong đó 2 k R là hệ số xác định của mô hình (7.1) với k tham số, 2 m R là hệ số xác định của mô hình (7.2) với m tham số, n là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp xỉ phân phối Fisher với bậc tự do (n – k, k – m), qua đó có thể xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết 0 H. 7.4. Hậu quả của việc chọn mô hình không phù hợp Giáo sư Rick Nordheim đã khẳng định rằng trong Thống kê ứng dụng, không có khái niệm về mô hình đúng hay sai, mà chỉ có mô hình phù hợp hay không phù hợp với thực tế, mô hình có phản ánh được bản chất của hiện tượng được nghiên cứu hay không. Đây là quan điểm xuất phát từ thực nghiệm và là quan điểm chung của tất cả các nhà làm ứng dụng. Vì vậy, ta luôn phải xét đến tính phù hợp của mô hình mỗi khi giải quyế t một bài toán hồi quy. Việc chọn mô hình không phù hợp có thể do một trong những nguyên nhân sau gây ra: • Chọn dạng hàm không thích hợp. Dạng hàm hồi quy không thích hợp có thể dẫn đến các hậu quả sau: o Các hệ số hồi quy bị ước lượng chệch, thậm chí dấu của hệ số hồi quy bị sai, dẫn đến những diễn giải mâu thuẫn với thực tế; o Hệ số xác định thể hiện độ phù hợp của mô hình với số liệu có thể không cao; Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 100 o Có thể có rất ít hệ số hồi quy ước lượng được có ý nghĩa thống kê; o Phần dư của các quan sát có thể có thể lớn về giá trị tuyệt đối và có xu thế biến động mang tính hệ thống. Điều này có thể dẫn đến sự vi phạm các giả thiết cơ bản của mô hình hồi quy. • Bỏ sót biến: Việc bỏ sót biến cũng có thể gây ra hậu quả nghiêm trọng. Giả sử mô hình phù hợp thực sự phải là 01122 YXXu=β +β +β + , nhưng ta lại sử dụng mô hình 011 YXv=α +α + nghĩa là biến 2 X bị thiếu, trong khi biến này thực sự ảnh hưởng đến biến phụ thuộc. Điều này có thể dẫn đến những hậu quả khác nhau. Nếu biến 2 Xtương quan với biến 1 X thì các ước lượng 0 α và 1 α của 0 α và 1 α sẽ là những ước lượng chệch và không vững của 0 β và 1 β , tức là 00 E( )α≠β ; 11 E( ) α ≠β . Thực vậy, vì hai biến 1 Xvà 2 Xtương quan với nhau nên ta có 2011 XX=γ +γ +ε, với 0 γ , 1 γ và ε lần lượt là các hệ số hồi quy và sai số trong mô hình hồi quy biến 2 X theo biến 1 X. Lúc đó, 1121 E( )α=β+βγ ; 002211 E( ) (X X )α=β+β −γ . Do vậy, tùy theo dấu của 21 β γ mà 1 α sẽ cho ước lượng quá cao hoặc quá thấp so với giá trị thực của 1 β . Trong trường hợp 2 Xvà 1 X không tương quan với nhau thì 1 0γ= và khi đó 1 α là ước lượng không chệch của 1 β , nhưng 0 α lại là ước lượng chệch của 0 β , nếu 2 X0≠ . Ngoài ra, việc bỏ sót biến còn dẫn đến hậu quả là ước lượng phương sai của sai số cũng như của phương sai của các hệ số hồi quy đều là những ước lượng chệch, kéo theo tính không chính xác của các khoảng tin cậy và vì vậy phương pháp kiểm định thông thường không còn hiệu lực. • Thừa biến: Việc đưa vào mô hình những biến không thích hợp cũng đem lại những nguy hại đáng kể. Thật vậy, giả sử mô hình phù hợp là 011 YXu=β +β + , (7.3) nhưng ta lại sử dụng mô hình 01122 YXXv=α +α +α + (7.4) Bài 7: Lựa chọn mô hình hồi quy ơ 101 nghĩa là dùng thừa biến 2 X. Khi đó các hệ số hồi quy ước lượng được từ mô hình (7.4) vẫn là các ước lượng vững, không chệch, nghĩa là ta vẫn có 00 E( )α=β ; 11 E( )α=β và 22 E( ) 0 α =β = . Đồng thời, phương sai của của sai số vẫn được ước lượng một cách không chệch, do đó khoảng tin cậy vẫn được xác định tương đối chính xác và phương pháp kiểm định thông thường vẫn có hiệu lực. Tuy nhiên các ước lượng thu được từ mô hình (7.4) không phải là ước lượng hiệu quả, vì phương sai của chúng sẽ lớn hơn phương sai của ước lượng tương ứng thu được từ mô hình (7.3). Hệ quả là các khoảng tin cậy của các hệ số sẽ rộng hơn, do đó vai trò của một biến độc lập đối với biến phụ thuộc có thể bị đánh giá sai (khoảng tin cậy ước lượng quá rộng sẽ có khả năng chứa điểm 0 - thể hiện biến độc lập không ảnh hưởng đến biến phụ thuộc, trong khi nếu đượ c ước lượng đúng thì khoảng tin cậy không chứa điểm 0 - chứng tỏ biến độc lập tác động một cách có ý nghĩa lên biến phụ thuộc). 7.5. Kiểm định phát hiện sự bỏ sót biến Với một tập số liệu cho trước, giả sử ta sử dụng mô hình hồi quy i01ii YXu = β+β + . (7.5) Vấn đề đặt ra là ngoài biến X ảnh hưởng đến biến phụ thuộc Y, còn có biến độc lập nào khác có ảnh hưởng quan trọng đến Y mà chưa được đưa vào mô hình hay không? Lúc đó, ta cần giải quyết bài toán kiểm định sau: BÀI TOÁN KIỂM ĐỊNH 3 0 H: Không có hiện tượng bỏ sót biến độc lập trong mô hình (7.5) 1 H : Có hiện tượng bỏ sót biến độc lập trong mô hình (7.5) Việc chấp nhận giả thuyết 0 H có nghĩa mô hình (7.5) đã chứa đủ số biến độc lập thực sự ảnh hưởng tới biến phụ thuộc, những ảnh hưởng thực sự của các biến độc lập khác chưa có mặt, nếu có thì đã được thể hiện một cách gián tiếp thông qua ảnh hưởng của các biến độc lập đã có mặt trong mô hình. Ngược lại, việc bác bỏ giả thuyết 0 H có nghĩa là mô hình (7.5) chưa chứa đủ số biến độc lập cần thiết, biến phụ thuộc Y còn chịu ảnh hưởng quan trọng của một hay nhiều biến độc lập nào đó chưa có mặt trong mô hình. Để kiểm tra xem trong mô hình (7.5) còn bỏ sót biến độc lập W hay không, ta xét mô hình hồi quy đầy đủ hơn, với sự có mặt của biến độc lập W i01i2ii YXWv = α+α +α + . (7.6) Với mô hình này, ta xét hai trường hợp như sau: • Trường hợp 1: Có số liệu về biến W. Trong trường hợp này, ta có thể giải quyết bài toán 3 bằng nhiều cách khác nhau, chẳng hạn như: Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 102 o Cách 1: Dùng kiểm định t. Để kiểm tra xem có phải biến W đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta có thể tiến hành hồi quy theo mô hình (7.6) và kiểm định giả thuyết 2 0 α = . Lúc đó, nếu giả thuyết này bị bác bỏ thì thực sự biến W đã bị bỏ sót. Ngược lại, nếu giả thuyết 2 0α= được chấp nhận thì không có hiện tượng bỏ sót biến W, vì bất kể biến đó có mặt trong mô hình hồi quy hay không, ta đều thu được chất lượng dự báo của mô hình như nhau. o Cách 2: Sử dụng hàm log-hợp lý. Xét thống kê 10 LR 2(l l )=− − , trong đó 1 l và 0 l tương ứng là giá trị lớn nhất của lôgarit hàm hợp lý ứng với mô hình (7.6) và (7.5). Khi giả thuyết 0 H đúng, thống kê LR có phân phối tiệm cận phân phối khi bình phương với 1 bậc tự do ( 2 (1)χ ). Nếu 2 LR (1) α ≥χ ( α thường được lấy bằng 5%) thì ta bác bỏ 0 H và kết luận có hiện tượng bỏ sót biến độc lập W. o Cách 3: Sử dụng Bài toán kiểm định 2. Ta có thể áp dụng bài toán kiểm định 2 để so sánh hai mô hình (7.6) và (7.5) thay cho việc so sánh hai mô hình (7.1) và (7.2). Khi ấy, việc giả thuyết được chấp nhận (chất lượng của hai mô hình như nhau) đồng nghĩa việc không có hiện tượng bỏ sót biến W. Ngược lại, nếu giả thuyết bị bác bỏ thì có nghĩa biến W đã bị bỏ sót trong mô hình hình quy. Chú ý: Trên đây đã trình bày 3 cách phát hiện việc bỏ sót 1 biến độc lập W trong mô hình hồi quy. Tuy nhiên, Cách 2 và Cách 3 còn có thể dùng để phát hiện việc bỏ sót một nhóm biến độc lập trong mô hình. Thật vậy, khi giải quyết bài toán kiểm định 2, so sánh hai mô hình (7.1) chứa k – 1 biến độc lập với mô hình (7.2) chứa m – 1 biến độc lập (m < k), về thực chất ta đã kiểm tra xem nhóm k – m biến độc lập có mặt trong mô hình (7.1) nhưng không có mặt trong (7.2) có phải là nhóm biến bị bỏ sót nếu chỉ dùng mô hình hồi quy (7.2) hay không. Cũng có thể sử dụng hàm log-hợp lý để giải quyết bài toán kiểm định trên bằng cách lập thống kê km LR 2(l l )=− − , trong đó k l và m l tương ứng là giá trị lớn nhất của lôgarit hàm hợp lý ứng với mô hình (7.1) và (7.2). Khi giả thuyết 0 H đúng, thống kê LR có phân phối tiệm cận phân phối khi bình phương với k – m bậc tự do ( 2 (k m)χ−), từ đó ta có thể tính được xác suất ý nghĩa của phép kiểm định để đưa ra kết luận thống kê về việc liệu có phải nhóm biến độc lập bị bỏ sót hay không. • Trường hợp 2: Không có số liệu về biến W . Khi không có số liệu của biến độc lập bị nghi là đã bị bỏ sót trong mô hình (7.5), ta có thể sử dụng các thông tin của các giá trị dự báo thu được từ mô hình (7.5) để xem các biến độc lập trong mô hình đó đã cung cấp cho biến phụ thuộc một lượng thông tin đạt đến mức bão hòa hay chưa, tức là liệu có còn thiếu một phần thông tin của biến bị bỏ sót nào đó ảnh hưởng đến biến ph ụ thuộc nữa hay không? Cụ thể, ta lần lượt tiến hành các bước như sau: [...]... Bài 7: Lựa chọn mô hình hồi quy Ơơ[ Các mô hình hồi quy lôga tuyến tính và log-log tuyến tính, mặc dù khó giải thích về ý nghĩa thực tế hơn so với mô hình hồi quy tuyến tính thông thường, nhưng nhiều khi lại giúp giải quy t được một số vướng mắc của mô hình hồi quy tuyến tính, chẳng hạn như vấn đề về phương sai sai số thay đổi đã đề cập đến trong bài trước 7.8 Bản chất của biến giả và mô hình hồi quy. .. trường hợp này, một mô hình phi tuyến sẽ thích hợp hơn mô hình tuyến tính Trong số các mô hình phi tuyến, bên cạnh mô hình hồi quy lôga tuyến tính đã nói tới trong mục 7.7, các mô hình hồi quy đa thức cũng là những mô hình hay được xét đến Sau đây chúng ta sẽ xem xét mô hình hồi quy đa thức bậc hai, các mô hình đa thức bậc cao hơn có thể được xây dựng hoàn toàn tương tự Mô hình hồi quy đa thức bậc hai... là các hệ số hồi quy cần ước lượng, còn ε là sai số hồi quy Bằng cách lập các biến mới Zij = Xi X j ; i, j = 1, 2, , m; mô hình hồi quy trên đây sẽ chuyển về dạng m m i =1 i =1 Y = α + ∑ βi X i + ∑ m ∑γ Z j=1 ij ij +ε (7.17) 113 Bài 7: Lựa chọn mô hình hồi quy Ơơ[ Đây là mô hình hồi quy tuyến tính thông thường với m + m 2 biến độc lập Sử dụng các thủ tục ước lượng đối với mô hình hồi quy tuyến tính... biến giả để xây dựng các mô hình Tuy nhiên, các mô hình này có thể sử dụng rộng rãi cho nhiều nghiên cứu khác có cấu trúc số liệu phù hợp 111 Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 7.12 Hồi quy tuyến tính từng khúc Mô hình hồi quy tuyến tính thường là mô hình thuận tiện cho việc giải thích ý nghĩa thực tế của các kết quả phân tích thu được Tuy nhiên, có thể quy luật tuyến tính của mô hình không phải mang... tính đó không xuất hiện) o Biến giả trong mô hình hồi quy được sử dụng giống như các biến định lượng thông thường 115 Bài 7: Lựa chọn mô hình hồi quy Ơơ[ CÂU HỎI THƯỜNG GẶP 1 Tại sao phải đánh giá và lựa chọn mô hình trong phân tích hồi quy? 2 Nếu nhiễu ngẫu nhiên của mô hình không có phân phối chuẩn như giả thiết, hậu quả sẽ như thế nào? 3 Hậu quả của việc mô hình bị định dạng sai là gì? 4 Làm thế nào... 3 *TG , từ đó xây dựng và tiến hành phân tích mô hình Y = α + γ 0 TG + γ1TG1 + γ 2 TG 2 + γ 3TG 3 + u (7.15) 110 Bài 7: Lựa chọn mô hình hồi quy ơ Mô hình này có thể được coi là mô hình gộp chung của bốn mô hình tương ứng với quy luật của bốn mùa Bốn mô hình của bốn mùa có chung hệ số chặn α , chỉ khác nhau ở hệ số dốc Đối với mùa Xuân, phương trình hồi quy (7.15) thu gọn thành Y = α + ( γ 0 + γ1 )TG... vào mô hình hồi quy để xét tính tương tác, các biến định tính nên được đưa về các biến nhị phân bằng cách sử dụng biến giả) • Mô hình (7.17) giúp chúng ta phân tích các tương tác bộ đôi giữa các biến độc lập Để phân tích các tương tác bộ ba, bộ bốn, giữa các biến độc lập, ta cần sử dụng các mô hình hồi quy đa thức bậc cao hơn, được thành lập một cách thích hợp 114 Bài 7: Lựa chọn mô hình hồi quy ơ... cho trường hợp 1, mục 7.5 trên đây, để phát hiện hiện tượng thừa biến 7.7 Lựa chọn giữa mô hình hồi quy tuyến tính và mô hình hồi quy lôga tuyến tính Một trong các giả thiết của mô hình hồi quy tuyến tính là giả thiết về tính phân bố chuẩn của các phần dư (hay còn được gọi là sai số) Dễ dàng thấy nếu phần dư của mô hình hồi quy có phân bố chuẩn thì bản thân biến phụ thuộc cũng phải có phân bố chuẩn... phương pháp “Phân tích nhiều mức” 7.13 Mô hình hồi quy đa thức Mô hình hồi quy tuyến tính là mô hình khá đơn giản, có các hệ số dễ dàng ước lượng được bằng các thuật toán quen thuộc, hơn nữa lại khá thuận tiện cho việc diễn giải ý nghĩa thực tế của mô hình Tuy nhiên, trong thực hành lại có nhiều bài toán không phù hợp với mô hình tuyến tính mà phù hợp với mô hình phi tuyến Chẳng hạn khi có một mặt... của biến đó là 1? 7 Các biến giả trong mô hình hồi quy được sử dụng có khác gì với các biến định lượng thông thường không? 8 Nếu trong mô hình có cả biến lượng và biến chất thì nên xây dựng mô hình như thế nào? BÀI TẬP TRẮC NGHIỆM 1 Các loại khuyết tật sau đây được gọi là các sai lầm định dạng của mô hình: A Mô hình thiếu biến cần thiết B Mô hình thừa biến C Mô hình bị sai dạng hàm D Tất cả các loại . Bài 7: Lựa chọn mô hình hồi quy 93 BÀI 7. LỰA CHỌN MÔ HÌNH HỒI QUY Mục tiêu Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây: • Các thuộc tính của một mô hình. phân tích mô hình 0112233 YTGTGTGTGu=α+γ +γ +γ +γ + . (7.15) Bài 7: Lựa chọn mô hình hồi quy ơ 111 Mô hình này có thể được coi là mô hình gộp chung của bốn mô hình tương ứng với quy luật. tương tự. Bài 7: Lựa chọn mô hình hồi quy Ơơ[ 106 Các mô hình hồi quy lôga tuyến tính và log-log tuyến tính, mặc dù khó giải thích về ý nghĩa thực tế hơn so với mô hình hồi quy tuyến tính