Kiểm định tính phù hợp của mô hình

Nói chung sẽ có sự sai lệch giữa các giá trị mẫu của biến phụ thuộc Yi và các ước lượng của nó. Nếu sai lệch là nhỏ, ta nói rằng hàm hồi quy mẫu khá phù hợp với số liệu mẫu, còn nếu sai lệch là lớn thì hàm hồi quy mẫu là phù hợp thấp với số liệu mẫu, như được minh họa trong hình dưới đây.

Hình (a) Hình (b)

Hình (a) cho thấy sai lệch giữa các giá trị mẫu và giá trị ước lượng của biến phụ thuộc là khá nhỏ: các điểm quan sát nằm khá gần với đường hồi quy mẫu, hàm hồi quy mẫu có độ phù hợp cao. Trong khi đó, hình (b) cho thấy điều ngược lại: sự sai lệch là khá lớn, các điểm quan sát nằm cách xa với đường hồi quy mẫu, hàm hồi quy mẫu có độ phù hợp thấp. Nếu hàm hồi quy mẫu là khá phù hợp với số liệu mẫu thì ta kỳ vọng rằng nó phản ánh tốt quan hệ giữa các biến số trong tổng thể.

Để đánh giá một cách định lượng sự phù hợp của hàm hồi quy mẫu đổi với số liệu mẫu, người ta đưa ra khái niệm hệ số xác định, ký hiệu là R2 và được xác định như sau:

Ta có: ∑ ( − ) = ∑ − + − = + − + 2 − Ta đặt: TSS =∑ ( − ) ESS = ∑ − RSS= ∑ Do ∑ − = 0 (Vì ∑ = 0 ; ∑ = 0) Ta có thể viết TSS= ESS+ RSS Ý nghĩa của các thành phần:

TSS=Tổng bình phương toàn phần (Total Sum of Squares): là tổng bình phương của tất cả các sai lệch giữa giữa các giá trị quan sát Yi và giá trị trung bình, thể hiện sự biến đổi của biến Y quanh giá trị trung bình mẫu của nó.

ESS = Tổng bình phương giải thích được (Explained Sum of Squares): là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhân được từ hàm hỗi quy mẫu và giá trị trung bình của của chúng. Phần này đo độ chính xác của hàm hồi quy.

RSS = Tổng bình phương phần dư (Residual Sum of Squares): Độ dao động của giá trị ước lượng, là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.

Như vậy sự biến đổi của biến Y là tổng của hai thành phần: (1) sự biến đổi của phần dư RSS – thể hiện cho các yếu tố không đưa vào mô hình và (2) sự biến đổi được thể hiện bởi mô hình, ký hiệu bởi ESS.

Chia 2 vế cho TSS ta có:

1 = +

thể hiện tỷ lệ phần trăm sự biến đổi của biến Y trong mẫu được giải thích bởi mô hình, còn gọi là hệ số xác định của hàm hồi quy và được ký hiệu là R2 .

= = 1 −

Ý nghĩa của R2: Giá trị R2 thể hiện sự thay đổi của biến phụ thuộc được giải thích bởi bao nhiêu % các biến độc lập trong mô hình.

Trường hợp đặc biệt, khi hoàn toàn không có sai lệch giữa giá trị quan sát và giá trị ước lượng, khi đó RSS = 0 và R2 = 1: biến X giải thích được 100% sự thay đổi của biến phụ thuộc.

Khi R2 = 0: biến X hoàn toàn không giải thích được sự thay đổi của biến Y, khi đó ta nói rằng mô hình là không phù hợp, có nghĩa là quan hệ giữa biến X và biến Y được thể hiện bởi mô hình hồi quy mẫu là hoàn toàn không phù hợp với số liệu mẫu. Như vậy, có thể cho rằng mô hình hồi quy tổng thể cũng không phù hợp.

Nội dung bài tập:

Thực hành ước lượng mô hình dựa trên dữ liệu GDP, vốn của các tỉnh. Bước 1: Đưa ra giả thuyết

Dựa vào lý thuyết, vốn là yếu tố đầu vào của sản xuất, vốn tăng có thể giúp tăng sản lượng đầu ra, tức tăng GDP. Vậy giả thuyết đưa ra là: Vốn (K) có tác động cùng chiều tới GDP.

Bước 2: Thiết lập mô hình:

GDP= + +

Bước 3: Thu thập dữ liệu

Ở đây, ta có dữ liệu GDP và vốn đầu tư của 27 tỉnh thành Bước 4: Ước lượng tham số của mô hình

Nhập dữ liệu vào phần mềm:

Sau đó chọn biến phụ thuộc và biến độc lập=> OK

Bước 5:

Phân tích kết quả:

Ước lượng hệ số chặn = 729659 > 0: có nghĩa là khi vốn đầu tư bằng 0 thì trung bình GDP là 729.659. Tuy nhiên có thể cho rằng vốn đầu tư trong thực tế là khác 0 nên hệ số này không thực sự có ý nghĩa.

= 2190.22 > 0: có nghĩa là khi vốn đầu tư tăng 1 đơn vị thì trung bình GDP tăng 2190.22 đơn vị. Kết quả này là phù hợp với lý thuyết và giả thuyết được đưa ra.

Cột Std. Err chứa các sai số chuẩn tương ứng với các hệ số ước lượng: = 134.2461

= 280795.9

Các giá trị này cho biết độ dao động của các hệ số ước lượng tương ứng. Sai số chuẩn của ; lớn ngụ ý rằng nếu lấy một mẫu ngẫu nhiên khác thì giá trị ước lượng thu được có thể sẽ khác biệt khá lớn so với hệ số ; thu được trong bảng trên. Tuy nhiên lưu ý rằng sai số chuẩn lớn hay nhỏ cần được hiểu theo nghĩa tương đối, tức là so sánh với bản thân giá trị của ; .

Cột t-Statistic: còn được gọi là thống kê t, giá trị của cột này bằng giá trị trên cột hệ số chia cho giá trị trên cột sai số chuẩn:

= =134,24642190,22 = 2,6

Cột P>|t|: chứa các giá trị xác suất tương ứng với con số bên cột t (t-statistic), được hiểu như sau:

P(|t | > 16,31) = 0.000 P(|t | > 2.6) = 0.015

Trong đó t là biến ngẫu nhiên tuân theo quy luật phân phối Student với bậc tự do là (n-2), với n là kích thước mẫu.

R-squared=0.9141, ngụ ý rằng biến vốn đầu tư giả thích được 91,41% sự thay đổi trong GDP.

Tổng bình phương các phần dư RSS=3,8404x1013 ESS= 4,0889*1013

TSS=4,4729x1014

Khoảng tin cậy 95% của hệ số là (151349.1;1307969)

Khoảng tin cậy 95% của hệ số là (1913.736; 2466.705) cho biết khi biến vốn đầu tư tăng 1 đơn vị thì giá trị trung bình của biến phụ thuộc thay đổi trong khoảng (1913.736; 2466.705).

Tài liệu tham khảo

Mamu Ramanathan (2002), Introductory Econometrics with applications, (5th edition), Harcourt College Publishers, Chương 3

Ngô Văn Thứ (2015), Giáo trình thống kê thực hành, NXB Đại học Kinh tế quốc dân, Chương 6

Chương III. PHÂN TÍCH HỒI QUY ĐA BIẾN (HỒI QUY BỘI)

Số giờ 10 giờ lý thuyết + 18 giờ thực hành+ Thuyết trình+ kiểm tra Mục tiêu của chương:

Sau khi học xong bài này, sinh viên cần đảm bảo được các yêu cầu sau:

Dựa vào vấn đề nghiên cứu biết cách xây dựng mô hình hồi quy nhiều biến.

 Phân tích kết quả ước lượng mô hình từ phương pháp OLS (đánh giá tác động của từng biến độc lập đến giá trị trung bình của biến phụ thuộc) với số liệu một mẫu cụ thể.

Dự báo giá trị của biến phụ thuộc tại các mức giá trị cụ thể của biến độc lập.

 Đánh giá sự phù hợp của hàm hồi quy trong mẫu qua hệ số xác định.

Linh hoạt phân tích mô hình với các tình huống thường gặp trong kinh tế – xã hội: các khuyết tật, các dạng mô hình.

Bài này sẽ tiếp nối ý tưởng phân tích trong bài 2. Nội dung của bài 2 đề cập đến việc đánh giá tác động của một biến độc lập X lên giá trị trung bình của biến phụ thuộc

Y khi các giả thiết từ 1 đến 3 thỏa mãn. Tuy nhiên, mô hình hồi quy đơn (còn gọi là hồi quy hai biến) thường vi phạm giả thiết 2, một giả thiết quan trọng, do trong thực tế rất ít khi sự thay đổi của biến phụ thuộc lại chỉ do một nguyên nhân (1 biến độc lập) gây nên. Khi đó kết quả ước lượng sẽ không có giá trị sử dụng. Do đó, cần phải xây dựng mô hình hồi quy bội với nhiều biến độc lập (hay còn gọi là hồi quy nhiều biến). Tính ưu việt của mô hình hồi quy bội ở chỗ nó cho phép đánh giá tác động riêng của từng biến độc lập lên biến phụ thuộc trong điều kiện các biến độc lập khác của mô hình là không đổi. Đây chính là một tiền đề quan trọng cho việc phân tích tác động giữa các đại lượng trong kinh tế – xã hội. Ngoài ra, việc đưa thêm các biến số thích hợp vào mô hình đồng

nghĩa với

việc có thêm nhiều nguyên nhân giải thích cho sự thay đổi của biến phụ thuộc, do đó góp phần cải thiện chất lượng dự báo của mô hình. Các nội dung trong bài sẽ giới thiệu về mô hình hồi quy k biến (với k ≥ 2), phương pháp OLS cho mô hình hồi quy bội, hệ số xác định bội và một vài dạng mô hình, các khuyết tật của mô hình thường gặp trong các tình huống cụ thể trong kinh tế – xã hội.

3.1. MÔ HÌNH HỒI QUY

Ví dụ 3.1: Muốn đánh giá tác động của lượng phân bón lên năng suất lúa trên tổng thể

các ruộng lúa ở đồng bằng sông Cửu Long, ta thường suy luận một cách dễ hiểu như sau, khi tăng lượng phân bón thì năng suất lúa sẽ tăng lên, do đó, hoàn toàn có thể tìm được mối liên hệ phụ thuộc về hàm số giữa các biến này như sau:

NS = f(PB)

Trong đó: NS là năng suất và PB: số lượng phân bón trên 1 hecta. Hàm này có thể được bắt đầu bằng dạng: = +

(3.1)

Trong đó: , là hằng số

Hàm số (3.1) thể hiện mối quan hệ giữa 2 biến NS và PB, tức là nếu biết giá trị của biến PB sẽ biết giá trị của biến NS một cách chắc chắn, không có sai số. Tuy nhiên, trong thực tế, điều này là không phù hợp, vì năng suất còn phụ thuộc vào nhiều yếu tố khác như lượng nước tưới, độ pH của đất, các yếu tố ngẫu nhiên như thời tiết, sâu bệnh, bão lụt… Do đó, để hợp lý hơn ta thường viết hàm (3.1) như sau:

= + +

(3.2)

Trong đó: u thể hiện cho tất cả các yếu tố khác có ảnh hưởng đến năng suất, ngoài phân bón.

Như chương 2 đã được trình bày, mô hình trên sẽ được trình bày dưới dạng mô hình hồi quy tuyến tính hai biến thể hiện mối quan hệ phụ thuộc giữa biến Y (phụ thuộc) và biến X (độc lập) có dạng như sau:

= + + (3.3)

Sai số ngẫu nhiên u là yếu tố đại diện cho các yếu tố có tác động đến biến Y ngoài biến X (biến độc lập hay còn gọi là biến giải thích, biến điều khiển). Trong mô hình (3.3) chúng ta không có các quan sát về sai số ngẫu nhiên này nên nó thường được gọi là sai số ngẫu nhiên không quan sát được. Do đó, để hàm hồi quy có ý nghĩa cần đưa ra giả thiết cho thành phần này.

Tức là, giả thiết: tại mỗi giá trị của X thì kì vọng của u bằng 0: E(u/x)= 0.

Nguyên nhân 1: Vì giả thiết trung bình sai số ngẫu nhiên bằng 0 cũng tương đương với trung bình của hàm hồi quy E(Y/Xi) = f(Xi) hay hàm hồi quy tổng thể được xác định là đi qua đúng các điểm trung bình có điều kiện. Nói đơn giản là các sai số ngẫu nhiên chỉ dao động ngẫu nhiên quanh các điểm do PRF xác định, những sự dao động ngẫu nhiên

đó triệt tiêu nhau vì không mang tính hệ thống. Tức là sai số ngẫu nhiên không tác động đến xu thế biến động trung bình do biến độc lập X giải thích.

Nguyên nhân 2: Theo ví dụ về phân bón ở trên, có nghĩa là tại mỗi mức phân bón bất kì, tác động tổng hợp các yếu tố như ngày công chăm sóc, lượng nước tưới lên năng suất lúa đều bằng nhau và bằng 0. Giả thiết về trung bình hay vì vọng về sai số ngẫu nhiên này bằng 0 là để đảm bảo ý nghĩa của hệ số : tác động của sự thay đổi của biến X một đơn vị lên giá trị trung bình của biến phụ thuộc. Nếu kì vọng trên bị thay đổi và sự thay đổi đó được đo bởi sai số ngẫu nhiên u (giả sử E(u/PB=10) = 0 và E(u/PB=11) = 6) thì lượng thay đổi của năng suất lúa khi phân bón thay đổi 1 đơn vị sẽ là + 6 đơn vị. Cũng vì những điều này nên trên thực tế, mô hình hồi quy 2 biến chỉ đánh giá được tác động của 1 biến độc lập X lên giá trị trung bình của biến phụ thuộc Y khi các điều kiện về mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên với kích thước n và phương sai sai số ngẫu nhiên là bằng nhau tại mọi giá trị Xi.

Hay var (u/x) = var ( | ) = .

Nguyên nhân 3: Do tương quan giữa biến X với các sai số ngẫu nhiên. Theo giả thiết thì tương quan này bằng 0, tương đương: cov[X, u] = 0, tức là nếu X và u tương quan với nhau thì giả thiết về kì vọng của sai số ngẫu nhiên bằng 0 sẽ không được thỏa mãn. (Công lao động = CLD)

Với ví dụ về phân bón, ta thấy rõ rằng, ngoài phân bón, công lao động có ý nghĩa rất quan trọng tới hoạt động nâng cao năng suất cây trồng. Lượng công lao động càng lớn thì năng suất thu được càng cao. Hay giữa biến PB và biến công lao động thường có tương quan cao. Điều này nói chung gây ra sự tương quan giữa biến u với biến năng suất  cov(NS, u) khác 0.

Chính điều này đã khiến người ta phải đưa thêm 1 biến Công lao động vào mô hình 3 biến như sau:

= + + + (3.4)

Khi chúng ta thêm 1 biến công lao động vào mô hình (3.4) sai số ngẫu nhiên u không còn chứa đựng tác động của yếu tố công lao đông nữa, do đó, nó không còn là nhân tố gây nên sự vi phạm giả thiết về kì vọng của sai số ngẫu nhiên bằng 0, tức là nếu có sự tương quan giữa biến độc lập với biến phụ thuộc thì kì vọng của sai số ngẫu nhiên sẽ khác 0. Lúc này ta gọi biến độc lập trong mô hình có tương quan với sai số ngẫu nhiên là biến độc lập nội sinh. Như vậy, nếu trong mô hình có biến độc lập nội sinh thì các

ước lượng OLS sẽ là ước lượng chệch, mô hình này có vấn đề. Trên thực tế thì vấn đề biến độc lập nội sinh xảy ra khá phổ biến với mô hình hai biến trong phân tích kinh tế xã hội. Do biến phụ thuộc Y thường chịu tác động của nhiều yếu tố và các yếu tố này có thể tương quan với nhau, khi đó, nếu chỉ chọn 1 yếu tố làm biến độc lập thì biến này sẽ rất có khả năng tương quan với sai số ngẫu nhiên trong mô hình. Và một giải pháp cho vấn đề này đó chính là đưa thêm biến độc lập vào mô hình, mô hình đó có tên gọi

là mô hình hồi quy bội hay mô hình hồi quy đa biến. * Một số ưu điểm của mô hình hồi quy bội

- Chất lượng dự báo tốt hơn do đưa thêm các biến phù hợp, làm tăng khả năng giải thích của mô hình về sự thay đổi của biến phụ thuộc, gia tăng chất lượng dự báo của mô hình.

- Cung cấp dự báo hữu ích hơn do có thể dự báo cho biến phụ thuộc tại các giá trị cụ thể của từ 2 biến độc lập trở lên tốt hơn so với 1 biến độc lập nội sinh.

- Cho phép sử dụng dạng hàm phong phú hơn như log – log, bán loga, phi tuyến hay đa thức cho nhiều dạng biến như biến giả

- Cho phép thực hiện các phân tích phong phú hơn do cho phép đánh giá tác động tổng hợp đồng thời của biến độc lập lên biến phụ thuộc.

CÁC PHƯƠNG PHÁP CHỌN MẪU

Xác định cỡ (kích thước) mẫu