Mô hình hồi qui tuyến tính bội: Lựa chọn mô hình và kiểm định giả thiết 1 Giới thiệu dạng hàm Logarit kép Trong bài giảng này chúng ta tiếp tục thảo luận mô hình hồi qui và tập trung và
Trang 1Mô hình hồi qui tuyến tính bội:
Lựa chọn mô hình và kiểm định giả thiết 1) Giới thiệu dạng hàm Logarit kép
Trong bài giảng này chúng ta tiếp tục thảo luận mô hình hồi qui và tập trung vào những dạng hàm nào có thể là phù hợp với biến phụ thuộc và các biến hồi qui Điều này rất quan trọng vì dạng hàm phù hợp cũng là một trong các giả định OLS của mô hình hồi qui bội
Khiá cạnh quan trọng trong đó mô hình hồi qui tuyến tính là nó là tuyến tính trong các
tham số Nó không cần là tuyến tính trong các biến Các mô hình là tuyến tính trong các
tham số dễ ước lượng bởi phương pháp OLS, nhưng phần mềm của máy vi tính hiện đại cũng tạo điều kiện cho chúng ta ước lượng các mô hình phi tuyến trong các tham số
Mô hình Logarit kép
Mô hình logarit kép là một mô hình trong đó biến phụ thuộc và các biến độc lập ở dạng logarit Mô hình này có nhiều công dụng khác nhau trong kinh tế học : các mô hình cầu
có hệ số co giãn không đổi, hay các hàm sản xuất Cobb-Douglas
Trong khi chúng ta thường dùng các đường thẳng để thể hiện các đường cầu khi giới thiệu các nguyên tắc kinh tế vi mô, thì chúng có thể không đại diện tốt cho dữ liệu thực tế Thường là, mối quan hệ giữa giá và lượng cầu được mô tốt bằng mô hình logarit kép Hai
đồ thị dưới đây chỉ ra liên hệ giữa mối quan hệ tuyến tính dưới dạng logarit của các biến
và mối quan hệ tương ứng giữa chính những biến này :
Mối quan hệ mô tả đường cong không thể được ước lượng bằng phương pháp OLS Tuy nhiên , nếu chúng ta lấy logarit cả hai vế, thì kết quả này là một mối tương quan tuyến tính
và chúng ta có thể ước lượng bằng OLS
Một nét đặc trưng hữu ích của mô hình logarit kép là độ co giãn của biến phụ thuộc theo một biến giải thích được cho trực tiếp bởi hệ số độ dốc
log(X) X
2
β i 1
i β X
Trang 2Nếu chúng ta ước lượng một hàm hồi qui tuyến tính, thì chúng ta có một hàm ước lượng cho độ dốc của Y theo X Tuy nhiên, nếu chúng ta ước lượng mô hình logarit kép, thì chúng ta có kết quả sau:
Y X
X Y
Y
1
log(X)
)log(
Một ứng dụng thường gặp nhất của mô hình logarit kép là để ước lượng các hàm sản xuất Hàm sản xuất Cobb-Douglas đã được phát hiện là cung cấp một đại diện tốt cho sản xuất trong nhiều tình huống, nhất là khi chúng ta ước lượng sản lượng các sản phẩm trong nông nghiệp Mô hình này có dạng là :
ε β
Việc bổ sung thêm các biến hồi qui vào một mô hình hồi qui bội không thể làm giảm giá trị
các biến hồi qui vào mô hình Tuy nhiên, chúng ta sẽ học được cách tiếp cận sau nữa là sự
Trang 3Lý do là TSS không phụ thuộc vào số biến giải thích nhưng ESS lại phụ thuộc vào số biến
biến giải thích Điều này kéo theo cách làm thông thường rằng khi tăng thêm biến giải
này có phù hợp trong việc giải thích biến phụ thuộc hay không Như vậy khi so sánh hai
mô hình hồi qui bội có số biến giải thích khác nhau chúng ta cũng không thể sừ dụng hệ số xác định này
Các nhà nghiên cứu nên nhớ rằng việc bổ sung thêm một biến hồi qui cũng làm tăng thêm một hệ số ước lượng, điều này tăng thêm "công việc" mà dữ liệu phải làm Nói cách khác, với một lượng thông tin đã cho chúng ta phải phân phối chúng cho số lượng hệ số lớn hơn Một cách nhằm kết hợp sự đánh đổi giữa cái được tiềm năng của thông tin từ một biến hồi qui tăng thêm và chi phí của việc ước lượng hệ số cho biến đó là việc sừ dụng một loạt
"tiêu chuẩn lựa chọn mô hình" khác nhau Hệ số xác định điều chỉnh sẽ cân đối giữa sự gia tăng sức mạnh giải thích được đóng góp bởi một biến hồi qui bổ sung với sự giảm mức chính xác khi sừ dụng thông tin để ước lượng hệ số ước lượng của biến giải thích bổ sung
Trong công thức của hệ số xác định có điều chỉnh chúng ta thấy rằng khi tăng K thì mẫu số
thêm biến giải thích thì hệ số xác định điều chỉnh có thể được cải thiện, cũng có thể không thay đổi hoặc thậm chí có thể giảm đi Hệ số xác định có thể sừ dụng để so sánh hai mô
Trang 4Nghiên cứu biểu thức này để thấy điều gì xảy ra với R2 khi chúng ta bổ sung thêm một biến hồi qui và ESS không cải thiện
Nên nhớ rằng khi định dạng hai mô hình khác nhau từ một bộ dữ liệu chúng ta không thể
so sánh hệ số xác định của chúng một cách trực tiếp mà cách tính hệ số xác định tương đương để so sánh là bình phương r (hệ số tương quan) giữa giá trị thực tế của biến phụ thuộc và giá trị ước lượng tính từ hàm hồi qui bội Ví dụ: hàm hồi qui bội thông thường và hàm hồi qui bội log kép
Chúng ta có ví dụ từ file pm: chúng ta hồi qui dạng hàm thông thường và hàm log kép cho biến giá trị gia tăng va theo vốn K và lao động Chúng ta quan sát hệ số xác định của hai
mô hình này Sau đó so sánh hệ số xác định của mô hình hồi qui đầu tiên với hệ số tương quan của giá trị va và giá trị ước lượng của nó qua dạng hàm log kép vaf Kết quả là hệ số xác định của hàm log kép tốt hơn
Bước 1: hồi qui va theo k và l
Trang 5Bước hai hồi qui log(va) theo log(k) và log(l)
Bước ba: tính hệ số xác định thực tế cho hàm log kép
Trang 6Kết quả chúng ta được ở bảng sau cho hệ số xác định của hàm log kép
2.1 Các tiêu chuẩn lựa chọn khác
Sách Ramanathan, in lần thứ năm, liệt kê 8 tiêu chuẩn khác để lựa chọn mô hình Các tiêu chuẩn này có thể hiện khác nhau và các nhà nghiên cứu khác nhau có thể lựa chọn các tiêu chuẩn khác nhau phù hợp với các ứng dụng cụ thể Nêu một ví dụ trong chương 4 bảng 4.2
Hai tiêu chuẩn phổ biến mà EViews cho chúng ta biết làø Tiêu chuẩn Thông tin Akaike (AIC) và Tiêu chuẩn Schwarz:
( )2ESS
n
K n
AIC = e
( )
ESS
n
K n
Khi sừ dụng những tiêu chuẩn này để so sánh các mô hình khác nhau, mô hình nào có giá trị những tiêu chuẩn này thấp hơn sẽ được ưu tiên hơn khi lựa chọn
Nguyên tắc chung là hệ số xác định điều chỉnh càng lớn càng tốt Còn các tiêu chuẩn lựa chọn khác (8 tiêu chuẩn) thì càng nhỏ càng tốt Tuy nhiên trong các tiêu chuẩn khác này lại
có những ưu tiên khác nhau cho các mô hình khác nhau Ví dụ tiêu chuẩn Schwarz có tác
Trang 7dụng so sánh các mô hình đơn giản nhưng sẽ gặp khó khăn khi so sánh các mô hình phức tạp AIC thì thích hợp trong phân tích chuỗi thời gian
3) Kiểm định giả thiết
Hồi qui tuyến tính bội cũng có các tính chất gần giống như hồi qui tuyến tính đơn nhưng bậc tự do đã thay đổi
Các hệ số ước lượng tuân theo phân phối chuẩn
Chúng ta gọi tỉ số trên là tỉ số chuẩn chuẩn hóa
Ước lượng phương sai của sai số
Như trong trường hợp hồi qui đơn, ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó K là số hệ số có trong phương trình hồi qui bội
K -
n
e
2 i
2
~ K
t-stat ~ ts
Trang 8Với hiểu biết về phân phối chọn mẫu của trị thống kê t, chúng ta có khả năng xây dựng các khoảng tin cậy và kiểm định giả thiết cho các hệ số hồi qui như trong mô hình hồi qui tuyến tính đơn, chỉ có điều khác biệt ở đây là bậc tư do của phân phối t đã thay đổi
3.1 Kiểm định hệ số riêng biệt
a) Kiểm định một đuôi
: :
K K
H H
=
〉Mức ý nghĩa α và bậc tự do tìm ra giá trị t tc 〉 *( n - K, α )
Trang 9Do đó chúng ta không thể bác bỏ giả thiết không là hệ số co giãn của VA theo K là bằng 0.4
b) Kiểm định hai đuôi
Cách làm tương tự như trên nhưng có những thay đổi là:
: :
K K
Chúng ta có thể sừ dụng giá trị p-value trong EViews Nếu p.value tính được nhỏ hơn mức ý nghĩa thì chúng ta bác bỏ giả thiết không
c) Kiểm định ý nghĩa thống kê của các hệ số hồi qui
Ý nghĩa: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi qui có ý nghĩa thống kê hay không
Cách làm tương tự như trên nhưng có những thay đổi là:
H
H
ββ
=
≠Luật quyết định: t t n K c〉 ( − , / 2α )bác bỏ gỉa thiết không
Chúng ta có thể sừ dụng giá trị p-value trong EViews Nếu p.value tính được nhỏ hơn mức ý nghĩa thì chúng ta bác bỏ giả thiết không
Chúng có thể nhìn lại kết quả của ví dụ trong EViews Trường hợp này có thể nhìn thấy ngay từ trong bảng kết quả hồi qui mà không cần phải thức hiện thêm lệnh nào cả:
Trang 11Chúng ta chỉ nhìn vào bảng kết quả và bình tĩnh phân tích:
tc = t-Statistic và p-value = Prob
Chắc chắn chúng ta sẽ có thể cho ra nhận xét về ảnh hưởng của K và L lên VA như thế nào
3.2 Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của KIỂM ĐỊNH WALD)
Trong mô hình hồi qui bội, giả thiết “không” cho rằng mô hình không có sức mạnh giải thích được hiểu là tất cả các hệ số hồi qui riêng (các tham số độ dốc) đều bằng không:
khongbang thoidongso thamcacca tat phaiKhong
:
0
:
1
K 3
2 0
Trang 12Hãy xem ví dụ ở bảng sau:
Trang 133.4 Các ứng dụng của kiểm định Wald
Mục đích: liệu rằng khi tăng thêm một biến giải thích hoặc một số biến giải thích vào mô hình thì mức ý nghĩa của mô hình có tăng lên hay không Đây là một vấn đề thực tế Bằng cách này chúng ta có thể tìm được hai điều sau đây:
a) Tìm mô hình hồi qui tốt nhất bằng cách bổ xung thêm từng biến giải thích và liệu rằng biến giải thích bổ xung có làm tăng mức ý nghĩa chung của mô hình hay không Mô hình đầu tiên (ví dụ có một biến giải thích) sẽ là mô hình giới hạn, còn
mô hình gia tăng thêm một biến giải thích được gọi là mô hình không giới hạn b) Kiểm tra một nhóm biến giải thích có làm tăng mức ý nghĩa chung của mô hình hay không Mô hình bao gồm đầy đủ các biến giải thích được gọi là mô hình không giới hạn, còn mô hình lọai trừ một nhóm biến giải thích gọi là mô hình giới hạn
Nhiều sách kinh tế lượng tách hai trường hợp này một cách riêng biệt, nhưng chúng ta
có thể gộp lại và kiểm định theo thủ tục như sau:
U c
Hoặc gía trị p-value của thống kê F nhỏ hơn mức ý nghĩa cho trước
Lưu ý: khi chúng ta gia tăng từng biến giải thích vào mô hình thì K – m = 1, còn khi chúng
ta kiểm tra một số biến nào đó có ý nghĩa giải thích hay không trong mô hình không giới hạn thì K – m = số ràng buộc
Ví dụ cho trường hợp a: chúng ta có dữ liệu về giá trị gia tăng va của 27 hãng được quan sát theo lượng vốn và nhân công Đầu tiên chúng ta chỉ xây dựng mô hình hồi qui log(va) theo log(k), sau đó chúng ta hồi qui biến log(va) theo log (k) và log(l) sau đó kiểm tra rằng việc gia tăng biến như vậy có gia tăng sức giải thích của mô hình hay không
Bước một: Chúng ta hồi qui biến log(va) theo log(k)
Trang 14Bước hai: Chúng ta hồi qui log(VA) theo log(k) và log(l), có nghĩa là chúng ta tăng thêm một biến giải thích và kiểm tra xem biến tăng thêm này có làm tăng mức ý nghĩa của mô hình
Trang 15
Do đó chúng ta bác bỏ giả thiết không: có nghĩa là khi chúng ta tăng thêm biến log(l) thì
mô hình gia tăng sức mạnh giải thích
Tuy nhiên chúng ta không cần phải giải thích dài dòng như vậy mà chỉ cần đưa tất cả các biến giải thích vào cùng một lúc và thực hiện lệnh:
Trang 16Giả thiết không là β2 = 0
Trang 17Ví dụ cho trường hợp b: Ở đây chúng ta sừ dụng một dữ liệu khác trong ví dụ của chương
4 sách Ramanathan về giá nhà ở PRICE phụ thuộc vào các biến giải thích như diện tích nhà ở SQFT, số phòng ngủ BEDRMS, số phòng tắm BATHS Sau đó kiểm định xem khi gia tăng cùng một lúc hai biến giải thích sau cùng thì mô hình có tăng sức giải thích không
Dĩ nhiên mô hình đầu tiên chỉ có một biến giải thích là SQFT (mô hình này còn gọi là mô hình giới hạn) và mô hình sau cùng bao gồm cả ba biến giải thích (được gọi là mô hình không giới hạn) Chúng ta làm cả hai cách như sau:
Bước một: Chúng ta hồi qui PRICE cho một biến giải thích SQRT
Trang 18Bước hai: Chúng ta hồi qui PRICE cho tất cả các biến giải thích
Trang 19
Tuy nhiên chúng ta không phải hồi qui hai bước giống như trên mà chúng ta chỉ hồi qui mô hình không giới hạn sau đó lại sừ dụng Wald
Và chúng ta có kết quả kiểm định này trong EViews như sau:
Trang 20Điều tuyệt diệu là thống kê F giống hệt như cách tính ở trên và giá trị p-value lớn hơn mức
ý nghĩa vì vậy chúng ta cũng không thể bác bỏ giả thiết đã nêu ra từ đầu
3.5 Ứng dụng kiểm định Wald vào lý thuyết kinh tế
Chúng ta quay lại hàm sản xuất Cobb-Douglas mà chúng ta đã giới thiệu ở trên, dạng hàm này có thể ước lượng bằng cách lấy dưới dạng hàm log kép Tính chất quan trọng của hàm này là Constant Return to Scale Có nghĩa là hiệu quả kinh tế không đổi theo qui mô Điều này biểu hiện bằng biểu thức sau:
Trang 21Chúng ta phải mở dữ liệu này trước để xác định dạng dữ liệu: bao nhiêu biến, tên biến, số quan sát, tần suất quan sát để đưa vào EViews
Vì dữ liệu này theo năm nên chúng ta chọn Annual khi tạo một Workfile mới
Sau đó lại sừ dụng lệnh Proc/import trong EViews, các anh chị đã biết điều này trong phần hướng dẫn EViews
Trang 22Chúng ta phải điền vào hộp thọai những nội dung cần thiết, hãy kiểm tra có gì khác biết so với hướng dẫn trước đây
Sau đó nhấp OK và tiến hành kiểm tra dữ liệu đã nhập đúng chưa
Trang 23Thực hiện một hàm hồi qui: dạng hàm này rất có ý nghĩa trong kinh tế và được gọi là hàm giới hạn Chúng ta nên suy nghĩ là tại sao chúng ta lại đưa ra dạng hàm này và từ đâu?
Kết quả hồi qui cho chúng ta ở bảng kế tiếp
Trang 24Sau đó hồi qui biến phụ thuộc theo tất cả các biến giải thích có trong bộ dữ liệu Dạng hàm này là hàm không giới hạn
Trang 25Thực hiện kiểm định Wald cho hai hàm nói trên bằng cách tính thống kê F
Hãy kiểm tra Fc = 3.77 có đúng hay không và chúng được tính như thế nào? Sau đó tra bảng tìm F(1,17, 0.05) = 4.45 Chúng ta cũng có thể tìm trực tiếp giá trị này trong EViews Như vậy chúng ta không thể bác bỏ giả thiết không
Cách làm tương tự trong EViews sẽ được lập lại rất đơn giản
Kết quả thống kê F và p-value cũng cho ra nhận xét tương tự
Hãy suy nghĩ ý nghĩa kinh tế của trường hợp này Máy tính sẽ không giúp được gì nến chúng ta không biết sừ dụng chúng một cách khôn ngoan
4 Cách tìm giá trị thống kê t và giá trị thống kê F và t trong Excel và trong EViews