Dạng và các giả thiết của mô hình

(vii) Dạng của mô hình

Ví dụ 3.2: Nhiều các nghiên cứu trên thế giới quan tâm tới mối quan hệ giữa thu nhập

và trình độ học vấn. Chúng ta kỳ vọng rằng, ít ra về trung bình mà nói, học vấn càng cao,

thì thu nhập càng cao. Vì vậy, chúng ta có thể lập phương trình hồi quy sau:

ℎ ℎậ = + ọ ấ + (3.5)

Tuy nhiên, mô hình này đã bỏ qua một yếu tố khá quan trọng là mọi người thường có mức

thu nhập cao hơn khi họ làm việc lâu năm hơn, bất kể trình độ học vấn của họ thế nào. Vậy

nên, mô hình tốt hơn cho mục đích nghiên cứu của chúng ta sẽ là:

Nhưng người ta cũng thường quan sát thấy, thu nhập có xu hướng tăng chậm dần khi người

ta càng nhiều tuổi hơn so với thời trẻ. Để thể hiện điều đó, chúng ta mở rộng mô hình như

ℎ ℎậ = + ọ ấ + ổ + ổ + (3.7)

Như vậy ta có mô hình hồi quy 3 biến:

= + + + (3.8)

PRF: PRM:

Trong đó: là hệ số tự do

, , … là các hệ số hồi quy riêng Y là biến phụ thuộc

là các biến độc lập

- Hệ số là giá trị trung bình của Y khi X2i = X3i = 0. - Hệ số cho biết khi X2 tăng một đơn vị thì trung bình của Y thay đổi như thế nào trong điều kiện X3 không thay đổi.

- Hệ số cho biết khi X3 tăng một đơn vị thì trung bình của Y thay đổi như thế nào trong điều kiện X2 không thay đổi.

- Giả sử mọi giả thiết của phương pháp OLS đều được thoả mãn.

Mô hình hồi quy tuyến tính k biến tổng thể có thể viết dưới dạng như sau:

= + + + ⋯ + + (3.9)

Trong đó: Y là biến phụ thuộc và các Xj (j = 1,2,3…k) là các biến độc lập. Lưu ý rằng dù có đưa bao nhiêu biến độc lập vào mô hình thì vẫn tồn tại những yếu tố có tác động đến biến phụ thuộc mà khó có thể quan sát hết hoặc không muốn đưa vào mô hình, do đó, tồn tại sai số ngẫu nhiên u, đại diện cho các yếu tố ngoài biến Xj (j=2…k), có tác động đến Y nhưng không đưa vào mô hình như là biến số.

Mô hình hồi quy tổng thể là mô hình xây dựng trên toàn bộ các phần tử của tổng thể, toàn bộ các phần tử chứa đựng dấu hiệu nghiên cứu, chứa đứng mối quan hệ đang xem

2 3 1 2 2 3 3 ( / i, i) i i E Y X X   X  X 1 2 2 3 3 ;( 1 ) i i i i Y   X  X U i N 2i, 3i X X 1 E Y X( / 2i X3i 0)     2 3 2 2 ( / , ) E Y X X X     2 3 3 3 ( / , ) E Y X X X    

xét. Trên thực tế, tổng thể là những tập hợp rất lớn, không thể thu thập được toàn bộ hệ thống thông tin và cũng không đảm bảo rằng thông tin thu thập được là hoàn toàn chính xác, do đó, việc xây dựng mô hình hồi quy cho toàn bộ tổng thể sẽ mang tính định hướng. Do vậy, cần thiết xây dựng hàm hồi quy tổng thể Population Regression Function để mô tả mối quan hệ giữa trung bình của biến phụ thuộc và biến độc lập, xác định trên toàn bộ tổng thể. Hàm hồi quy tổng thể cho biết xu thế biến động về mật trung bình của biến phụ thuộc theo biến độc lập.

Như vậy, ta có hàm hồi quy tổng thể k biến:

( | ) = + + + ⋯ +

- Hàm hồi quy tổng thể (PRF) và mô hình hồi quy tổng thể (PRM) có dạng: PRF: PRM: - Trong đó: Y là biến phụ thuộc là các biến độc lập gọi là hệ số chặn

gọi là các hệ số góc riêng phần (các hệ số hồi quy)

- Giá trị của k cho biết: Số biến và số tham số cần ước lượng của mô hình.

- Hệ số là giá trị trung bình của Y khi .

- Hệ số cho biết khi Xm tăng một đơn vị

thì trung bình của Y thay đổi như thế nào trong điều kiện các biến Xj;( ) không thay đổi.

- Ký hiệu các véc tơ:

- Khi đó PRF và PRM có thể viết dưới dạng ma trận:

2 3 1 2 2 3 3 ( / i, i,..., ki) i i ... k ki E Y X X X   X  X   X 1 2 2 3 3 ... ;( 1 ) i i i k ki i Y   X  X   X U i N 2i, 3i,..., ki X X X 1  2, ,...,3 k    1 E Y X( / 2i X3i ... Xki 0)       0;( 2 ) mi X    m k 2 3 ( / , ,..., ) ;( 2 )k m m E Y X X X m k X       j m   1 21 1 1 1 2 22 2 2 2 2 1 1 1 1 ... 1 ... ... ... ... ... ... ... ... 1 ... k k n n n kn k n k k n n Y X X U Y X X U Y X U Y X X U                                                            

và

- Giả sử mọi giả thiết của phương pháp OLS đều được thoả mãn.

Các giả thiết của mô hình

Xét các giả thiết sau:

Giả thiết 1: Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên, kích thước n: {( , ), = 1,2,3, … }

Khi đó, mô hình trên cho từng quan sát mẫu như sau:

= + + + ⋯ + +

Trong đó, là sai số ngẫu nhiên cho quan sát thứ I, bao hàm các yếu tố có ảnh hưởng đến ngoài .

Giả thiết này đảm bảo rằng các cũng như các là độc lập với nhau, tức là lượng phân bón ở ruộng thứ là không liên quan gì đến lượng phân bón ở thửa ruộng thứ 2 trong mẫu, hay chi tiêu của hộ gia đình thứ 1 không liên quan gì đến chi tiêu của hộ gia đình thứ 2. Mẫu là ngẫu nhiên với số liệu chéo, với chuỗi thời gian thì không tương quan chuỗi.

 Giả thiết 2: Trung bình sai số ngẫu nhiên bằng 0: ( | ) = 0

Giả thiết này cho biết tại mỗi giá trị X = bất kì thì trung bình ảnh hưởng của các yếu tố ngoài X lên Y là bằng 0. Hay theo ví dụ: tại mỗi mức phân bón bất kì, tác động tổng hợp của các yếu tố công lao động, số ngày chăm sóc, lượng nước tưới lên năng suất lúa đều bằng nhau và bằng 0. Giả thiết này nhằm đảm bảo ý nghĩa của hệ số tức là tác động của sự thay đổi biến X một đơn vị lên giá trị trung bình của biến phụ thuộc. * Giả thiết 3: Phương sai của sai số ngẫu nhiên tại các giá trị đều bằng nhau

Phương sai là mức độ dao động, hay độ phân tán, độ phủ của các quan sát. Nếu độ phủ này đồng đều có nghĩa là phân phối của sai số ngẫu nhiên u tại mọi X luôn cùng bằng một hằng số nào đó. Nếu phương sai sai số ngẫu nhiên mà khác nhau tại các giá trị khác nhau thì ước lượng này bị chệch, có nghĩa là không chính xác.

( ) = 

Giả thiết 4: Giữa các biến độc lập (j=2-k) không có mối quan hệ đa cộng tuyến hoàn hảo, nghĩa là không tồn tại các hằng số l ,l , …l không đồng thời bằng 0 sao cho:

l +l +l = 0. : ( )

Nếu các biến có quan hệ đa cộng tuyến hoàn hảo thì sẽ có ít nhất 1 biến trong các biến này suy ra được từ các biến còn lại, nói cách khác, thông tin từ biến này đã được chứa đựng trong các thông tin của các biến còn lại. Giả thiết 4 đặt ra là để loại trừ vấn đề này.

Hình III-1. Biến phụ thuộc Y và các biến Xj không chứa hiện tượng đa cộng tuyến

Hình III-2. Các trường hợp đa cộng tuyến

Giải thích về điều này như sau:

Thuật ngữ đa cộng tuyến do Ragnar Frisch đề nghị. Khởi đầu nó có nghĩa là sự tồn tại mối quan hệ tuyến tính “hoàn hảo” hoặc chính xác giữa một số hoặc tất cả các biến giải thích trong một mô hình hồi qui. Đối với hồi qui k biến liên quan đến các biến X1, X2, ..., Xk (với X1 = 1 đối với mọi quan sát kể cả số hạng tung độ gốc), một quan hệ tuyến tính chính xác được cho là tồn tại khi thỏa điều kiện sau:

l +l + l + ⋯ + l = 0 (3.10)

Tuy nhiên, ngày nay, thuật ngữ đa cộng tuyến được dùng với nghĩa rộng hơn, bao gồm trường hợp đa cộng tuyến hoàn hảo như công thức trên cũng như trường hợp các biến X có tương quan với nhau nhưng không hoàn hảo như dưới đây:

l +l + l + ⋯ + l + = 0 (3.11)

với i là số hạng sai số ngẫu nhiên.

Tại sao mô hình hồi qui tuyến tính cổ điển giả định rằng không có vấn đề đa cộng tuyến giữa các biến X? Lý do là: Nếu đa cộng tuyến hoàn hảo theo (a), các hệ số hồi qui của các biến X là vô định và các sai số chuẩn là không xác định. Nếu đa cộng tuyến chưa hoàn hảo, như trong (b), các hệ số hồi qui, mặc dù là xác định nhưng lại có sai số chuẩn (liên quan đến bản thân các hệ số) lớn, có nghĩa là không thể ước lượng các hệ số này với độ chính xác cao.

Hình III-3. Quan điểm của Ballentine về đa cộng tuyến

Ví dụ 3.3: Giả sử để xem xét tác động của các hình thức đầu tư lên GDP sử dụng hàm

hồi quy sau đây:

= + + + + + (3.12)

Trong đó: GI: đầu tư của khu vực nhà nước PI: đầu tư của khu vực tư nhân

FDI: đầu tư trực tiếp nước ngoài I là tổng đầu tư

Mô hình này vi phạm giả thiết 4 do giữa các biến độc lập trong mô hình trên có quan hệ đa cộng tuyến hoàn hảo:

Ví dụ 3.4: Đánh giá từng loại phân bón có tác động đến năng suất lúa không, chúng ta

sử dụng mô hình hồi quy sau:

= + + + (3.14)

Trong đó: HC: lượng phân bón hữu cơ VC: lượng phân bón vô cơ

Nếu lượng phân bón hữu cơ và vô cơ là không có liên hệ gì với nhau thì mô hình trên không vi phạm giả thiết về không có đa cộng tuyến hoàn hảo. Tuy nhiên, nếu 10kg phân hữu cơ, người nông dân lại sử dụng 1kg phân vô cơ thì khi đó ta có quan hệ đa cộng tuyến hoàn hảo giữa 2 biến này.

Giả thiết 5: Các sai số ngẫu nhiên không tương quan với nhau ( , ) = 0; (∀ ≠ )  Ý nghĩa của các hệ số hồi quy:

Các hệ số hồi quy trong mô hình hồi quy bội còn được gọi là hệ số hồi quy bội. Hàm hồi quy tổng thể:

( | 2, … , ) = b1 + b2 2 + … + b

Hệ số 1: bằng giá trị trung bình của biến phụ thuộc Y khi các biến độc lập trong mô hình nhận giá trị bằng 0. Tuy nhiên, trong thực tế, hệ số này ít được quan tâm.

Các hệ số góc bj ( j = 2, 3, , k): thể hiện tác động riêng của biến Xj lên giá trị trung bình của biến phụ thuộc (còn được gọi là hệ số hồi quy riêng), là tác động của biến Xj lên giá trị trung bình của biến phụ thuộc khi các yếu tố Xs (s khác j) là không đổi. Cụ thể, khi Xj tăng hoặc giảm 1 đơn vị, trong điều kiện các biến độc lập khác không đổi, thì

Y trung bình sẽ thay đổi bj đơn vị.

Có thể nhận thấy ba khả năng có thể xảy ra đối với các hệ số góc:

 Hệ số bj > 0: khi đó mối quan hệ giữa Y và Xj là thuận chiều, nghĩa là khi Xj

tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y cũng sẽ tăng (hoặc giảm).

 Hệ số bj < 0: khi đó mối quan hệ giữa Y và Xj là ngược chiều, nghĩa là khi Xj

tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y sẽ giảm (hoặc tăng).

 Hệ số bj = 0: có thể cho rằng giữa Y và Xj không có tương quan với nhau, cụ thể là Y có thể không phụ thuộc vào Xj hay là Xj không thực sự ảnh hưởng tới Y.

Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mối quan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách tương đối. Sau đây, ta sẽ nghiên cứu một ví dụ để hiểu rõ về ý nghĩa của các hệ số trong mô hình hồi quy. Tiếp tục với ví dụ 3.4 khi phân tích tác động của lượng phân bón hữu cơ và lượng phân bón vô cơ lên năng suất lúa, ta có thể xây dựng mô hình như sau:

= b1 + b2 + b3 + (3.15) Trong đó NS là năng suất lúa/ha là biến phụ thuộc

Các biến độc lập: HC là lượng phân bón hữu cơ/ha, VC là lượng phân bón vô cơ/ha. Kết quả ước lượng mô hình với số liệu của 30 vùng chuyên canh nông nghiệp như sau:

= 1,5  0,35  0,12

Giải thích về mối quan hệ giữa các biến như sau:

 Khi không sử dụng phân bón cả hai loại hữu cơ và vô cơ (biến HC = VC = 0), năng suất lúa/ha trung bình đạt 1,5 đơn vị.

Nếu lượng phân bón hữu cơ tăng (giảm) 1 đơn vị và mức phân bón vô cơ không thay đổi thì năng suất lúa/ha trung bình sẽ tăng (giảm) 0,35 đơn vị.

Nếu lượng phân bón vô cơ tăng (giảm) 1 đơn vị và mức phân bón hữu cơ không thay đổi thì năng suất lúa/ha trung bình sẽ tăng (giảm) 0,12 đơn vị.

CÁC PHƯƠNG PHÁP CHỌN MẪU

Xác định cỡ (kích thước) mẫu