Vấn đề Đa cộng tuyến và cách xử lý - tài liệu của FETP

38 8 0
Vấn đề Đa cộng tuyến và cách xử lý - tài liệu của FETP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đáng tiếc thay, trong khi ứng dụng các dữ liệu thứ cấp (đó là các dữ liệu được một số tổ chức thu thập, như là dữ liệu về GNP do chính phủ thu thập), một nhà nghiên cứu tư nhân có lẽ k[r]

(1)

CHƯƠNG 10

V

VNN ĐĐ ĐĐAA CCNNGG TTUUYYNN V

VÀÀ CC MMUU NNHH 11

Khơng có cụm từ lạm dụng, sách kinh tế lượng lẫn tài liệu ứng dụng nhiều cụm từ “ vấn đề đa cộng tuyến.” Sự thật sống, có biến giải thích có tính cộng tuyến cao Và hồn tồn rõ ràng có thiết kế mang tính thực nghiệm X’X [nghĩa la, ma trận liệu ] thường ưa chuộng nhiều thiết kế thực nghiệm tự nhiên đem lại cho [đó mẫu cụ thể] Nhưng phàn nàn chất chưa tốt; thấy rõ ràng tự nhiên khơng mang tính góp ý xây dựng, phương cách đặc biệt cho thiết kế không tốt, hồi qui theo bước (stepwise regression) hồi qui dạng sóng (ridge regression), hồn tồn khơng thích hợp Tốt hơn, nên chấp nhận việc phi thực nghiệm [nghĩa là, liệu không thu thập thực nghiệm thiết kế] khơng có nhiều thơng tin thơng số mà ta quan tâm

Giả thiết 10 mô hình hồi qui tuyến tính cổ điển (CLRM) là: khơng có quan hệ đa cộng tuyến biến hồi qui mơ hình hồi qui Giả thiết 7, số lần quan sát phải lớn số biến hồi qui độc lập (vấn đề cỡ mẫu nhỏ), Giả thiết 8, phải có đủ trạng thái biến đổi giá trị biến hồi qui độc lập Tất giả thiết bổ sung cho giả thiết đa cộng tuyến Trong chương này, quan tâm đặc biệt đến giả thiết phi đa cộng tuyến cách trả lời câu hỏi sau:

1 Bản chất đa cộng tuyến gì?

2 Đa cộng tuyến có thật vấn đề cần phải xem xét hay không? 3 Đâu kết ứng dụng vấn đề này?

1 Thuật ngữ micronumerosity Arthur S Goldberger có nghĩa “cỡ mẫu nhỏ.” Xem A Course in

Economics, Harvard University Press, Cambridge, Mass., 1991, trang 249

2

(2)

4 Bằng cách để nhận vấn đề đa cộng tuyến?

5 Sử dụng biện pháp giải để làm giảm bớt vấn đề đa cộng tuyến?

Chúng ta xét xem Giả thiết thích hợp với giả thiết phi đa cộng tuyến

10.1 BẢN CHẤT CỦA ĐA CỘNG TUYẾN

Thuật ngữ đa cộng tuyến Ragnar Frisch đề nghị.3

Khởi đầu có nghĩa tồn mối quan hệ tuyến tính “hồn hảo” xác số tất biến giải thích mơ hình hồi qui.4

Đối với hồi qui k biến liên quan đến biến X1, X2, , Xk (với X1 =

mọi quan sát kể số hạng tung độ gốc), quan hệ tuyến tính xác cho tồn thỏa điều kiện sau:

1X1 + 2X2 + + kXk = (10.1.1)

trong 1, 2, , k số không đồng thời 0.5

Tuy nhiên, ngày nay, thuật ngữ đa cộng tuyến dùng với nghĩa rộng hơn, bao gồm trường hợp đa cộng tuyến hoàn hảo (10.1.1) trường hợp biến X có tương quan với khơng hoàn hảo đây:6

1X1 + 2X2 + + kXk + i = (10.1.2)

với i số hạng sai số ngẫu nhiên

Để thấy khác biệt đa cộng tuyến hồn hảo chưa hồn hảo, giả thiết, ví dụ,

2 Lúc (10.1.1) viết lại sau:

X2i = -

1

2

X1i -

3

2

X3i - -

k

2

Xki (10.1.3)

cho thấy X2 tương quan tuyến tính cách xác với biến khác

tìm X2 từ tổ hợp tuyến tính biến khác Trong trường hợp này, hệ số

3 Ragnar Frisch, Statistical Confluence Analysis by Means of Complete Regression Systems,(Phân tích hợp

thống kê phương tiện hệ thống hồi qui toàn phần), Institute of Economics, Olso University, xuất lần 5, 1934

4

Nghiêm khắc mà nói đa cộng tuyến đề cập đến tồn nhiều mối quan hệ tuyến tính xác, và cộng tuyến nói đến tồn mối quan hệ tuyến tính Nhưng phân biệt tồn thực tế, đa cộng tuyến dùng cho hai trường hợp

5 Các dịp để có mẫu giá trị biến hồi qui độc lập liên quan đến mơ hình thực tế

thật nhỏ trừ thiết kế, ví dụ số lần quan sát bé số biến hồi qui độc lập “có biến giả” trình bày chương 15 Xem tập 10.2

6 Nếu có hai biến giải thích, tương quan biến đánh giá bậc không (zero-order)

(3)

tương quan biến X2 tổ hợp tuyến tính vế bên phải phương trình (10.1.3) chắn

là đơn vị

Tương tự, 2 0, cơng thức (10.1.2) viết sau:

X2i = -

1

2 X1i -

3

2 X3i - -

k

2 Xki -

1

2i (10.1.3)

cho thấy X2 tổ hợp tuyến tính xác biến X khác cịn

được xác định số hạng sai số ngẫu nhiên i

Để có ví dụ số cụ thể, xem liệu có tính giả thuyết sau:

X2 X3 X3

* 10

15 18 24 30

50 75 90 120 150

52 75 97 129 152

Có thể thấy rõ ràng là X3i = 5X2i Vì vậy, có cộng tuyến hồn hảo X2 X3 hệ số

tương quan r23 đơn vị Biến X3* tạo thành từ X3 đơn giản cách cộng thêm số

sau, số lấy từ bảng số ngẫu nhiên: 2, 0, 7, 9, Bây giờ, khơng cịn có cộng tuyến hồn hảo biến X2 X3* Tuy nhiên, hai biến tương quan chặt tính tốn cho

thấy hệ số tương quan chúng 0.9959

Phương pháp đại số trước liên quan đến đa cộng tuyến Ballentine mơ tả đọng (nhớ lại hình 7.1) Trong hình này, vịng trịn Y, X2 X3 đại diện cách tương ứng

biến đổi Y (biến độc lập) theo X2 X3 (các biến giải thích) Mức độ cộng tuyến

được đánh giá độ rộng phần chung (vùng tô đen) vịng trịn X2 X3 Trong hình

10.1a, khơng có phần chung X2 X3, khơng có cộng tuyến Trong hình 10.1b

- 10.1e, có mức độ từ “thấp đến “cao” cộng tuyến phần chung X2 X3

rộng (phần tơ đen rộng), mức độ cộng tuyến cao Ở trạng thái cực đoan, X2

X3 hoàn toàn trùng (hoặc X2 hoàn toàn X3, hay ngược lại), cộng tuyến

hoàn hảo

Nhân đây, lưu ý đa cộng tuyến, định nghĩa, đề cập đến quan hệ tuyến tính biến X Nó khơng bỏ qua quan hệ phi tuyến biến X Ví dụ, xem xét mơ hình hồi qui sau:

Yi = 0 + 1Xi + 2Xi2 + 3Xỉ3 + ui (10.1.5)

trong đó, Y = tổng chi phí sản xuất X = sản lượng Các biến Xi2 (sản lượng bình phương

ra) Xi3 (sản lượng lập phương ra) rõ ràng có quan hệ theo hàm số với Xi quan hệ

(4)

cộng tuyến Tuy nhiên, ứng dụng cụ thể, hệ số tương quan đo lường cách qui ước cho thấy Xi, Xi2 Xi3 tương quan chặt, tương quan thấy,

gây khó khăn cho việc ước lượng thơng số mơ hình (10.1.5) cao xác (nghĩa với sai số chuẩn hoá hơn)

Tại mơ hình hồi qui tuyến tính cổ điển giả định khơng có vấn đề đa cộng tuyến biến X? Lý là: Nếu đa cộng tuyến hoàn hảo theo (10.1.1), hệ số hồi qui biến X

là vô định sai số chuẩn không xác định Nếu đa cộng tuyến chưa hoàn hảo, trong (10.1.2), hệ số hồi qui, xác định lại có sai số chuẩn (liên quan đến thân hệ số) lớn, có nghĩa khơng thể ước lượng hệ số với độ xác cao Các phát biểu chứng minh phần sau

Y

X3 X2

(a) Không có cộng tuyến (b) Cộng tuyến thaáp

Y

X3 X2 Y

X3 X2

(c) Cộng tuyến trung bình (d) Cộng tuyến cao (e) Cộng tuyến cao Y

X2

X3

Y

X2

X2 X3

Hình 10 Quan điểm Ballentine đa cộng tuyến

Có nhiều nguồn tạo đa cộng tuyến Theo Montgomery Peck, đa cộng tuyến nhân tố sau:7

1 Phương pháp thu thập liệu sử dụng, ví dụ, lấy mẫu phạm vi giá trị giới hạn

biến hồi qui độc lập tập hợp

7 Douglas Montgomery Elizabeth Peck, Introduction to Linear Regression Analysis (Nhập mơn phân tích hồi qui

(5)

2 Các ràng buộc mơ hình hay tổng thể lấy mẫu Ví dụ, mơ hình hồi qui

việc tiêu thụ điện theo thu nhập (X2) kích thước nhà (X3) có ràng buộc cụ thể

tổng thể, gia đình có thu nhập cao nói chung nhà rộng gia đình có thu nhập thấp

3 Đặc trưng mơ hình, ví dụ, thêm số hạng đa thức vào mơ hình hồi qui, đặc biệt

khoảng giá trị biến X nhỏ

4 Một mô hình xác định q mức Là mơ hình có nhiều biến giải thích số lần quan

sát Trường hợp thường xảy nghiên cứu y học số bệnh nhân phải thu thập thông tin bệnh nhân lượng lớn biến

10.2 ƯỚC LƯỢNG TRONG TRƯỜNG HỢP ĐA CỘNG TUYẾN HOÀN HẢO

Như đề cập, trường hợp đa cộng tuyến hoàn hảo, hệ số hồi qui không xác định sai số chuẩn chúng vơ hạn Hiện tượng giải thích dạng mơ hình hồi qui ba biến Sử dụng dạng độ lệch, tất biến diễn tả độ lệch chúng so với trung bình mẫu Chúng ta viết mơ hình hồi qui ba biến sau:

yi = ^2 x2i + ^3 x3i + u^ i (10.2.1)

Bây giờ, theo chương ta có:

^2 =

(yix2i )(x23i - ) (yix3i )(x2ix3i )

(x22i )(x23i - ) (x2ix3i)

(7.4.7)

^3 =

(yix3i )(x22i - ) (yix2i )(x2ix3i )

(x22i )(x23i - ) (x2ix3i)

(7.4.8)

Giả sử X3i = X2i, với  số khác (ví dụ, 2, 4, 1.8 ect.) Thay vào (7.4.7) ta có

^

= (yix2i )( )

2

x22i - (yix2i )(x22i )

(x22i )(2x22i - ) 2(x22i)

=

0 (10.2.2)

Đây biểu thức khơng xác định Người đọc kiểm tra lại ^ không xác định.3

8 Một cách nhìn khác là: Theo định nghĩa, hệ số tương quan biến X

2 X3 , r23 , (x2ix3i /) x22ix23i

Nếu r2

23 = 1, cộng tuyến hoàn hảo X2 X3 , mẫu số (7.4.7) 0, khơng thể ước lượng

(6)

Tại có kết biểu thức (10.2.2)? Nhớ lại ý nghĩa ^2 :^ mức

độ thay đổi giá trị trung bình Y X2 thay đổi đơn vị, với điều kiện X3 giữ cố

định Nhưng X3 X2 cộng tuyến hồn hảo khơng có cách để giữ cố định X3 Khi

X2 thay đổi, X3 thay đổi nhân tố  Điều có nghĩa khơng có cách tách riêng

các ảnh hưởng X2 X3 từ mẫu cho trước Đối với mục đích thực tiễn, X2 X3

không thể phân biệt Trong kinh tế lượng ứng dụng, vấn đề gây thiệt hại nhiều chủ định tách riêng hồn tồn ảnh hưởng riêng phần biến X lên biến phụ thuộc

Để thấy khác biệt này, thay X3i = X2i vào biểu thức (10.2.1),

chúng ta có biểu thức sau [ xem thêm (7.1.10)]:

yi = ^2 x2i + ^ (3 x2i) + u^ i

= (^ + ^3 )x2i + u^ i

= ^ x2i + u^ i (10.2.3)

với ^ = (^2 + ^ ) (10.2.4)

Sử dụng công thức thông dụng OLS (10.2.3) ta có

^ = (^2 + ^ ) =

x2iyi

x22i

(10.2.5)

Vì vậy, ước lượng , khơng có cách để ước lượng riêng

2 3; xác thì:

^

= ^2 + ^3 (10.2.6)

cho phương trình có hai ẩn số (lưu ý  cho trước) có vơ số nghiệm cho (10.2.6) ứng với giá trị cho trước ^  Ví dụ với số hạng cụ thể, ^ = 0.8  = Ta có

0.8 = ^2 + 2^3 (10.2.7)

hoặc

^2 = 0.8 - 2^3 (10.2.8)

Bây chọn giá trị ^3 tùy ý, có lời giải cho ^2 Chọn giá trị khác cho ^3 ,

chúng ta lại có lời giải khác cho ^2 Cho dù cố gắng

không thể tìm cho ^ giá trị

(7)

giải cho tổ hợp tuyến tính hệ số này.Tổ hợp tuyến tính (^2 + ^3 )

ước lượng , với giá trị  cho trước.9

Nhân đây, lưu ý trường hợp đa cộng tuyến hoàn hảo, phương sai sai số chuẩn

^2 ^3 xác định cách tiêng biệt (Xem tập 10.21.)

10.3 ƯỚC LƯỢNG TRONG TRƯỜNG HỢP CÓ ĐA CỘNG TUYẾN “CAO” NHƯNG “KHƠNG HỒN HẢO”

Đa cộng tuyến hồn hảo trường hợp thuộc thái cực Thơng thường, khơng tồn mối quan hệ tuyến tính xác biến X, đặc biệt liệu liên quan đến chuỗi thời gian kinh tế Vì vậy, chuyển sang dùng mơ hình hồi qui ba biến dạng độ lệch (10.2.1), thay dùng đa cộng tuyến xác, có

x3i = x2i + i (10.3.1)

với  i số hạng sai số ngẫu nhiên x2ii = (Tại sao?)

Một cách ngẫu nhiên, mơ hình Ballentine hình từ 10.1b đến 10.1e đại diện cho trường hợp đa cộng tuyến khơng hồn hảo

Trong trường hợp này, hệ số hồi qui 2 3 ước lượng Ví dụ, thay

(10.3.1) vào (7.4.5), có

^2 =

(yix2i)(2 x22i + 2i) - (yix2i + yii)(x22i)

x22i(2x22i + 2i) - (x22i)

2 (10.3.2)

với x2ii = Có thể thiết lập biểu thức tương tự cho ^3

Bây giờ, khác với (10.3.2), khơng có lý để tin (10.3.2) khơng thể ước lượng Dĩ nhiên, i khơng đủ nhỏ, hay nói cách khác không gần 0, (10.3.1) mô tả

cộng tuyến gần hoàn hảo quay lại trường hợp không xác định (10.2.2)

10.4 ĐA CỘNG TUYẾN: KHƠNG CĨ CHUYỆN GÌ CẢ MÀ CŨNG LÀM RỐI LÊN? HỆ QUẢN LÝ THUYẾT CỦA ĐA CỘNG TUYẾN

Hãy nhớ lại thỏa giả định mơ hình cổ điển, ước lượng OLS ước lượng hồi qui BLUE ( BUE, có thêm giả định chuẩn) Bây thấy đa cộng tuyến chặt, trường hợp gần đa cộng tuyến (near multicollinearity), ước lượng

9 tài liệu kinh tế lượng, hàm số (

^

+ 3

^

(8)

QLS có tính chất BLUE.10

Vậy vấn đề đa cộng tuyến làm ầm lên chuyện gì? Như Christopher Achen nhận xét (lưú ý thêm điều Leamer đề cập đến phần mở đầu chương này):

Những sinh viên bắt đầu học phương pháp luận lo lắng biến độc lập họ có tương quan với gọi vấn đề đa cộng tuyến Nhưng vấn đề đa cộng tuyến không vi phạm giả định Các ước lượng quán không thiên lệch chắn xảy sai số chuẩn chúng ước lượng cách xác Ảnh hưởng đa cộng tuyến gây khó khăn cho việc đạt ước lượng hệ số với sai số chuẩn nhỏ Nhưng số lần quan sát gây nên tác động đến biến độc lập với phương sai nhỏ (Nói tóm lại, mức độ lý thuyết, đa cộng tuyến, số lần quan sát bé, phương sai nhỏ biến độc lập vấn đề giống nhau.) Vì câu hỏi “ Tơi nên làm với đa cộng tuyến?” giống câu hỏi “Tơi nên làm tơi có số lần quan sát ít?” Khơng có câu trả lời thống kê cho vấn đề này.11

Quay lại với tầm quan trọng cỡ mẫu, Goldberger đặt thuật ngữ cỡ mẫu nhỏ (micronumerosity), để đối lại từ đa âm tiết ngoại lai multicollinearity (đa cộng tuyến) Theo Goldberger, cỡ mẫu nhỏ xác (exact micronumerosity) (tương ứng đa cộng tuyến chính xác) xảy n, kích thước mẫu , 0, trường hợp đó, ước lượng không thể Cỡ mẫu gần nhỏ (near micronumerosity), giống gần đa cộng tuyến hoàn hảo, xảy số lần quan sát vừa đủ vượt số thông số ước lượng

Leamer, Achen Goldberger họ tiếc thiếu quan tâm đến vấn đề cỡ mẫu mà lại quan tâm mức đến vấn đề đa cộng tuyến Đáng tiếc thay, ứng dụng liệu thứ cấp (đó liệu số tổ chức thu thập, liệu GNP phủ thu thập), nhà nghiên cứu tư nhân có lẽ khơng thể quan tâm nhiều đến kích thước liệu mẫu có lẽ phải đối phó với “ vấn đề ước lượng đủ quan trọng để biện hộ cho việc xử lý vấn đề [vấn đề đa cộng tuyến] vi phạm mơ hình CLR [mơ hình hồi qui cổ điển]” 12

Thứ nhất, trường hợp gần đa cộng tuyến hàm ước lượng OLS không thiên lệch Nhưng khơng thiên lệch tính chất mẫu bội việc lấy mẫu lập lại Điều có nghĩa là, giữ cố định giá trị biến X, có mẫu lập lại tính hàm ước lượng OLS cho mẫu này, trung bình giá trị mẫu hội tụ giá trị thực tổng thể ước lượng số lượng mẫu tăng Nhưng điều khơng nói lên điều tính chất hàm ước lượng mẫu cho trước

10 Bởi gần đa cộng tuyến tự thân khơng vi phạm giả định khác liệt kê chương 7, ước

lượng OLS BLUE xác định

11 Christopher H Achen, Interpreting and Using Regression, (Diễn dịch Sử dụng Hồi qui), Sage Publications,

Beverly Hills, Calif., 1982, trang 82-83

12 Peter Kennedy, Hướng dẫn môn Kinh tế lượng, (A guide to economics), 3d ed., The MIT Press, Cambride, Mass.,

(9)

Thứ hai, cộng tuyến khơng xóa bỏ tính chất phương sai nhỏ nhất: Trong loại hàm ước lượng không thiên lệch tuyến tính, hàm ước lượng OLS có phương sai nhỏ nhất; nghĩa là, hàm ước lượng có hiệu Nhưng khơng có nghĩa phương sai hàm ước lượng OLS phải thiết nhỏ (tương đối so với giá trị hàm ước lượng này) mẫu cho trước nào, chứng minh cách ngắn gọn

Thứ ba, đa cộng tuyến đặc biệt tượng mẫu (hồi qui) theo nghĩa cho dù biến X khơng tương quan tuyến tính tổng thể, chúng tương quan mẫu cụ thể đó: Khi đặt lý thuyết hàm hồi qui tổng thể (population regression function - PRF), tin biến X mơ hình có ảnh hưởng riêng biệt độc lập đến biến phụ thuộc Y Nhưng mẫu cho trước sử dụng để kiểm tra PRF số toàn biến X cộng tuyến cao đến độ tách ảnh hưởng riêng biến lên Y Vì nói mẫu khiến công việc xấu lý thuyết cho biến X quan trọng Tóm lại, mẫu khơng đủ “giàu” để chứa biến X phân tích

Để minh họa, xem lại ví dụ tiêu dùng - thu nhập chương Các nhà kinh tế lượng lý luận rằng, ngồi thu nhập, giàu có người tiêu dùng yếu tố định quan trọng chi tiêu cho tiêu dùng Vì vậy, viết

Tiêu dùngi = 1 + 2 Thu nhậpi + 3 Sự giàu cói + ui

Bây có liệu thu nhập giàu có, hai biến có lẽ tương quan chặt, khơng muốn nói hồn hảo: Những người giàu có thường có thu nhập cao Vì vậy, lý thuyết thu nhập giàu có nhân tố logic để giải thích hành vi chi tiêu cho tiêu dùng, thực tế (đó mẫu) khó phân biệt tác động riêng biệt thu nhập giàu có đến chi tiêu cho tiêu dùng

Một cách lý tưởng, để đánh giá tác động riêng biệt giàu có thu nhập lên chi tiêu cho tiêu dùng cần có đủ số quan sát mẫu cá nhân giàu có với thu nhập thấp, người có thu nhập cao giàu (nhớ lại giả định 8) Mặc dù điều thực nghiên cứu chéo liên khu vực (cross-sectional studies) ( cách tăng cỡ mẫu), khó đạt chuỗi thời gian tổng hợp (aggregate time series work)

(10)

10.5 HỆ QUẢ THỰC TẾ CỦA ĐA CỘNG TUYẾN

Trong trường hợp gần đa cộng tuyến đa cộng tuyến cao, thường phải đối đầu với hệ sau:

1 Mặc dù BLUE, hàm ước lượng OLS có phương sai đồng phương sai lớn, gây

khó khăn cho việc ước lượng xác

2 Vì hệ 1, khoảng tin cậy có khuynh hướng rộng nhiều, dẫn đến việc dễ dàng chấp

nhận “giả thiết H0 zero” (zero null-hypothesis) (đó hệ số thực tập hợp 0)

hơn

3 Cũng hệ 1, tỷ số t nhiều hệ số có khuynh hướng khơng có ý nghĩa thống

4 Mặc dù tỷ số t nhiều hệ số khơng có ý nghĩa thống kê, R2, dùng để đánh giá độ

thích hợp, cao

5 Các hàm ước lượng OLS sai số chuẩn chúng nhạy thay đổi

nhỏ liệu

Các hệ xác định sau

Phương sai đồng phương sai ước lượng OLS lớn

Để thấy phương sai đồng phương sai lớn, nhớ lại mơ hình (10.2.1) phương sai đồng phương sai ^2 ^3 tính sau

var(^ ) =

2

x22i (1 - r223)

(7.4.12)

var (^3 ) =

2

x23i (1 - r223)

(7.4.15)

cov (^2 ,^3 ) =

- r2232

(1 - r223) x22ix23i

(7.4.17) với r23 hệ số tương quan X2 X3

Từ (7.4.12) (7.4.15) ta thấy rõ ràng r23 tiến đến 1, cộng tuyến gia tăng,

phương sai hai hàm ước lượng tăng giới hạn r23 = 1, hàm ước lượng

vô hạn Từ (7.4.17) rõ ràng r23 tiến đến 1, đồng phương sai hai ước lượng

tăng giá trị tuyệt đối.[Chú ý:cov(^ ,2 ^ )= cov(3 ^ ,3 ^2 )]

Tốc độ gia tăng phương sai đồng phương sai thấy qua yếu tố lạm

phát phương sai (variance-inflation factor _ VIF), định nghĩa sau

VIF =

(11)

VIF cho thấy phương sai hàm ước lượng tăng nhanh diện đa cộng tuyến Khi r2

23 1, VIF tiến đến vơ hạn Đó độ cộng tuyến gia tăng, phương sai

của hàm ước lượng gia tăng, giới hạn độ cộng tuyến, phương sai trở thành vơ hạn Như thấy, khơng có cộng tuyến X2 X3, VIF

Sử dụng định nghĩa này, diễn tả (7.4.12) (7.4.15) sau var(^2 ) =

2

x22i

VIF (10.5.2)

var(^3 ) =

2

x23i

VIF (10.5.3)

các biểu thức cho thấy phương sai ^2 ^3 tỷ lệ với VIF

Để có khái niệm phương sai đồng phương sai tăng r23 tăng,

xem bảng 10.1, trình bày giá trị phương sai đồng phương sai ứng với giá trị r23 Như bảng này, gia tăng r23 có ảnh hưởng nghiêm trọng đến phương sai đồng

phương sai ước lượng hàm ước lượng OLS Khi r23 = 0.50, var(^2 ) 1.33 lần

phương sai r23 = 0, r23 0.95 var(^2 ) lớn gấp 10 lần khơng có đa cộng

tuyến Và kỳ lạ thay, r23 tăng từ 0,95 đến 0.995 làm phương sai ước lượng tăng gấp 100

lần so với khơng có cộng tuyến Ảnh hưởng nghiêm trọng tương tự đồng phương sai Tất điều thấy qua hình 10.2

Nhân tiện, kết vừa thảo luận dễ dàng mở rộng cho mơ hình k biến (xem tập 10.15 10.16)

Bảng 10 Ảnh hưởng gia tăng r23 đến var(^2 ) cov(^2 ,^3 )

Giá trị r23

(1)

VIF (2)

var(^2 )

(3)*

var( ^2) (r23 0)

var (^2) (r23 = 0)

(4)

cov(^2 ,^3 )

(5) 0.00 0.50 0.70 0.80 0.90 0.95 0.97 0.99 0.995 0.999 1.00 1.33 1.96 2.78 5.76 10.26 16.92 50.25 100.00 500.00 2

(12)

Ghi chú: A = 

x22i

B = - 

2

x22ix

3i

* Để tìm ảnh hưởng gia tăng r23 lên var (^3 ), ý A =

2

x23i

r23 = 0, yếu tố phóng đại phương sai đồng phương sai giữ nguyên

Khoảng tin cậy rộng

Vì sai số chuẩn lớn nên khoảng tin cậy thông số tổng thể liên quan có khuynh hướng lớn hơn, thấy từ bảng 10.2 Ví dụ, r23 = 0.95, khoảng tin cậy cho 2 lớn

hơn 10.26 so với r23 = 0, khoảng

A 1.33A 5.26A

var(^ )2

0 0.5 0.8 0.9 1.0 r23

Hình 10 var(^ ) hàm r2 23

Bảng 10 Tác động gia tăng cộng tuyến lên khoảng tin cậy 95% ^2 : ^2

1.96 se(^2 ) Giá trị

r23

Độ tin cậy 95% cho 2

^

A = 

2

(13)

0.00 0.50

0.95

0.99

0.999

^2  1.96

2

x22i

^2  1.96 (1.33)

2

x22i

2 ^

 1.96 (10.26)

2

x22i

^2  1.96 (100)

2

x22i

2 ^

 1.96 (500) 

2

x22i Chú ý: Chúng ta sử dụng phân phối chuẩn để thuận tiện ta giả định biết 2 Vì sử dụng 1.96 khoảng tin cậy 95% cho phân phối chuẩn

Sai số chuẩn tùy thuộc vào giá trị khác r23 lấy từ bảng 10.1

Do đó, trường hợp đa cộng tuyến cao, liệu mẫu thích hợp với tập hợp nhiều loại giả thiết Chính vậy, xác suất để chấp nhận giả thiết sai (đó sai lầm loại II) gia tăng

Tỉ số t “khơng có ý nghĩa”

Nhớ lại để kiểm tra giả thiết Ho:2 = 0, sử dụng tỉ số t, ^2 /se(^2 ), so sánh giá

trị ước lượng t với giá trị t tới hạn từ bảng t Nhưng thấy, trường hợp cộng tuyến cao sai số chuẩn ước lượng tăng nghiêm trọng, làm cho giá trị t nhỏ Chính vậy, trường hợp thế, dễ dàng chấp nhận giả thiết H0 giá trị

tương ứng thực tổng thể 0.13 R2 cao tỷ số t có ý nghĩa

Xem mơ hình hồi qui tuyến tính k biến sau:

Yi = 1 + 2X2i + 3X3i + + kXki + ui

Trong trường hợp đa cộng tuyến cao, tìm thấy, lưu ý nhiều hệ số độ dốc riêng phần khơng có ý nghĩa thống kê quan trọng dựa cở sở kiểm định t Tuy nhiên, R2 trường hợp lại cao, 0.9, dựa kiểm định F bác bỏ giả thiết cho 2 = 3 = = k = Thật dấu hiệu

của đa cộng tuyến  giá trị t khơng có ý nghĩa R2 lại cao (và giá trị F có ý nghĩa)!

13 Nói theo ngơn ngữ khoảng tin cậy, giá trị 

2 = gia tăng khả nằm vùng chấp nhận mức

(14)

Chúng ta xác định dấu hiệu phần sau, kết luận khơng có đáng ngạc nhiên thảo luận kiểm định riêng biệt so với kiểm định liên kết chương Như bạn nhớ lại, vấn đề thực đồng phương sai hàm ước lượng, mà công thức (7.4.17) cho thấy, liên quan đến mối tương quan biến hồi qui độc lập

Độ nhạy hàm ước lượng OLS sai số chuẩn hàm thay đổi nhỏ liệu

Chỉ cần đa cộng tuyến không hồn hảo việc ước lượng hệ số hồi qui thực giá trị ước lượng sai số chuẩn chúng trở nên vô nhạy thay đổi nhỏ số liệu

Để thấy điều này, xem Bảng 10.3 Dựa số liệu này, có hàm hồi qui bội sau:

Y^ = 1.1939 + 0.4463Xi 2i + 0.0030X3i

(0.7737) (0.1848) (0.0851)

t = (1.5431) (2.4151) (0.0358) (10.5.4)

R2 = 0.8101 r23 = 0.5523

cov(^2 ,^3 ) = - 0.00868 df =

Hàm hồi qui (10.5.4) cho thấy khơng có hệ số hồi qui tự thân có ý nghĩa mức ý nghĩa qui ước 5%, ^2 có ý nghĩa mức ý nghĩa 10% dựa kiểm định t phía

Bây xem xét Bảng 10.4 Khác biệt Bảng 10.3 Bảng 10.4 giá trị thứ ba thứ tư X3 đổi chỗ cho Sử dụng số liệu Bảng 10.4, ta có:

Y^ = 1.2108 + 0.4014Xi 2i + 0.0270X3i

(0.7480) (0.2721) (0.1252)

t = (1.6187) (1.4752) (0.2158) (10.5.5)

R2 = 0.8143 r23 = 0.8258

cov(^2 ,^3 ) = - 0.0282 df =

Bảng 10 Bảng 10

Số liệu lý thuyết Y, X2, X3 Số liệu lý thuyết Y, X2, X3

Y X2 X3 Y X2 X3

1

2

4 12 16

1

2

(15)

Do kết thay đổi nhỏ số liệu, thấy ^2 , giá trị mà có ý

nghĩa thống kê trước mức ý nghĩa 10%, khơng cịn có ý nghĩa mức ý nghĩa Cũng lưu ý (10.5.4) cov(^ ,2 ^3 ) = -0.00868 trong (10.5.5) giá trị

-0.0282 tăng gấp lần Tất thay đổi có lẽ góp phần làm gia tăng đa cộng tuyến Trong (10.5.4) r23 = 0.5523, trong (10.5.5) giá trị lại 0.8285 Tương tự, sai

số chuẩn ^2 ^3 tăng hai hàm hồi qui, tượng thường gặp cộng tuyến

Trước lưu ý với đa cộng tuyến cao, ta ước lượng hệ số hồi qui riêng phần cách xác tổ hợp tuyến tính hệ số lại ước lượng xác Sự việc chứng minh hàm hồi qui (10.5.4) (10.5.5) Trong hàm hồi qui đầu, tổng hai hệ số độ dốc riêng phần 0.4493 hàm thứ hai giá trị 0.4284, gần Không thế, sai số chuẩn gần giống nhau, 0.1550 0.1823.14

Tuy nhiên, lưu ý hệ số X3 thay đổi nghiêm

trọng, từ 0.003 đến 0.027

Hệ cỡ mẫu nhỏ

Rập khuôn theo hệ đa cộng tuyến, cách hài hước, Goldberger trích dẫn xác hệ tương tự cỡ mẫu nhỏ, là, phân tích dựa cỡ mẫu nhỏ.15

Người đọc nên xem phân tích Goldberger để hiểu ông ta coi cỡ mẫu nhỏ quan trọng (hoặc không quan trọng) tương tự đa cộng tuyến

10.6 VÍ DỤ MINH HỌA: CHI TIÊU CHO TIÊU DÙNG TRONG QUAN HỆ VỚI THU NHẬP VÀ SỰ GIÀU CÓ

Để minh họa điểm thảo luận đây, xem lại ví dụ tiêu thụ-thu nhập chương Trong bảng 10.5 lấy lại số liệu bảng 3.2 thêm vào số liệu giàu có người tiêu dùng, sau đó, dựa vào bảng 10.5 có hàm hồi qui sau:

Y^ = 24.7747 + 0.9415Xi 2i - 0.0424X3i

(6.7525) (0.8229) (0.0.807)

t = (3.6690) (1.1442) (-0.5261) (10.6.1)

R2 = 0.9635 R-2 = 0.9531 df =

Hàm hồi qui (10.6.1) cho thấy thu nhập giàu có giải thích việc 96% biến đổi chi tiêu cho tiêu dùng, nhiên khơng có hệ số độ dốc có ý nghĩa thống kê riêng

14

Các sai số chuẩn tính theo cơng thức se(2

^ + 3

^

) = var(2

^

) + var(3

^

)+ 2cov(2

^ ,3

^ )

(16)

biệt Hơn nữa, biến giàu có khơng có ý nghĩa thống kê mà cịn có dấu sai Một tiên nghiệm, thường kỳ vọng tương quan dương tiêu dùng giàu có Mặc dù ^2 ^3 khơng có ý nghĩa thống kê riêng biệt, kiểm định giả thiết cho ^ =

^3 đồng thời 0, giả thiết bị bác bỏ, bảng 10.6 cho thấy Với giả định

thường gặp có

F = 4282.7770 46.3494

= 92.4019 (10.6.2)

Giá trị F rõ ràng có ý nghĩa

Rất thú vị nhìn kết dạng hình học (Hình 10.3) Dựa vào hàm hồi qui (10.6.1), thiết lập khoảng tin cậy 95% cho 2 3 theo thủ tục thông thường thảo

luận chương Như khoảng cho thấy, riêng khoảng có chứa giá trị ì vậy, cách riêng biệt, chấp nhận giả thiết cho rằng: hai hệ số độ dốc riêng phần đồng thời Nhưng thiết lập khoảng tin cậy kết hợp để kiểm định giả thiết ^2 = ^3 = 0, giả thiết khơng thể chấp nhận khoảng tin cậy liên kết, thật

là hình elip, khơng chứa điểm 0.16

Như trình bày, cộng tuyến cao, kiểm định biến hồi qui độc lập riêng biệt không đáng tin cậy; trường hợp vậy, kiểm định F tổng thể cho thấy có mối quan hệ Y biến hồi qui độc lập khác hay không

Ví dụ trình bày cách nghiêm trọng mà vấn đề cộng tuyến gây Sự thực là, kiểm định F có ý nghĩa giá trị t X2 X3 riêng biệt khơng có

ý nghĩa; tức hai biến tương quan chặt đến độ không thẻ tách riêng ảnh hưởng cá nhân thu nhập giàu có đến tiêu dùng Từ kiện này, lập hàm hồi qui X3

theo X2, ta có

X^3i = 7.5454 + 10.1909X2i

(29.4758) (0.1643) (10.6.3)

t = (0.2560) (62.0405) R2 = 0.9979

cho thấy có đa cộng tuyến gần hoàn hảo X3 X2

16 Như lưu ý phần 5.3, đề tài khoảng tin cậy liên kết phức tạp Độc giả quan tâm xem phần tham

(17)

0.1448

- 0.2332

- 1.004 2.887 2

^ khoảng tin cậy

95% 3

khoảng tin cậy 95% 2

^

Hình 10 3: Khoảng tin cậy riêng cho 2 3 khoảng tin cậy kết hợp (elip) cho 2 3

Bây xem điều xảy lập hàm hồi qui Y theo X2

Y^ = 24.4545 + 0.5091Xi 2i

(6.4138) (0.0357) (10.6.4)

t = (3.8128) (14.2432) R2 = 0.9621

Trong (10.6.1) biến thu nhập khơng có ý nghĩa thống kê biến lại có ý nghĩa cao Nếu thay lập hồi qui Y theo X2 ta lập hàm hồi qui theo X3, ta có

Y^ = 24.411 + 0.0498Xi 2i

(6.874) (0.0037) (10.6.5)

t = (3.551) (13.29) R2 = 0.9567

Chúng ta thấy giàu có có ảnh hưởng quan trọng đến chi tiêu cho tiêu dùng, (10.6.1) biến ảnh hưởng đến chi tiêu cho tiêu dùng

(18)

10.7 PHÁT HIỆN VẤN ĐỀ ĐA CỘNG TUYẾN

Sau tìm hiểu chất hệ đa cộng tuyến, câu hỏi thường đặt là: cách biết cộng tuyến tồn tình cho trước, đặc biệt mơ hình liên quan đến nhiều hai biến giải thích? Lúc này, thật hữu ích nằm lịng khuyến cáo Kmenta:

1 Đa cộng tuyến câu hỏi mức độ, phân biệt có ý diện hay

khơng diện đa cộng tuyến mà mức độ khác đa cộng tuyến

2 Vì đa cộng tuyến đề cập đến điều kiện biến giải thích giả định khơng ngẫu nhiên,

đây đặc điểm mẫu khơng phải tổng thể

Vì vậy, khơng “kiểm định đa cộng tuyến” có thể, muốn, đo lường mức độ đa cộng tuyến mẫu cụ thể nào.17

Bởi đa cộng tuyến tượng mẫu quan trọng xuất tập số liệu phi thực nghiệm lớn thu thập hầu hết ngành khoa học xã hội, khơng có phương pháp để phát đo lường độ mạnh Những có vài qui tắc kinh nghiệm, số thông thường số ngoại lệ, qui tắc kinh nghiệm giống Bây xem xét vài trường hợp qui tắc kinh nghiệm

1 R2 cao tỷ số t có ý nghĩa Như lưu ý, tượng “ cổ điển” đa cộng

tuyến Nếu R2

cao 0.8, kiểm định F hầu hết trường hợp bác bỏ giả thiết: hệ số độ dốc riêng phần đồng thời 0, kiểm định t riêng biệt cho thấy khơng có hệ số độ dốc khác khơng, theo ý nghĩa thống kê Sự thật minh họa rõ ràng ví dụ tiêu dùng - thu nhập - giàu có

Mặc dù chuẩn đoán hợp lý, khuyết điểm “quá nhấn mạnh theo hướng đa cộng tuyến xem có hại ảnh hưởng biến giải thích lên biến Y tách riêng được.”18

2 Các hệ số tương quan đôi (pair-wise correlations) biến hồi qui độc lập

Một qui tắc kinh nghiệm khác nêu hệ số tương quan đôi bậc hai biến hồi qui độc lập cao, 0.8, đa cộng tuyến trở thành vấn đề nghiêm trọng Vấn đề tiêu chuẩn là, hệ số tương quan bậc cao cho có cộng tuyến, khơng thiết hệ số phải cao có cộng tuyến trường hợp cụ thể Nói theo kỹ thuật, tương quan bậc cao điều kiện đủ không phải điều kiện cần cho diện đa cộng tuyến đa cộng tuyến tồn

17 Jan Kmenta, Elements of Econometrics, (Các thành tố Kinh tế lượng), 2d., ed., Macmillan, New York, 1986,

(19)

cả hệ số tương quan đơn hệ số tương quan bậc tương đối thấp (nhỏ 0.50) Để thấy mối liên hệ này, giả sử có mơ hình bốn biến:

Yi = 1 + 2X2i + 3X3i + 4X4i + ui

và giả sử

X4i = 2X2i + 3X3i

với 2 3 số không đồng thời Rõ ràng là, X4 tổ hợp tuyến tính

xác X2 X3, với R24.23 = 1, hệ số xác định hàm hồi qui X4 theo X2 X3

Bây nhớ lại cộng thức (7.9.6) chương 7, viết (10.7.1)

Nhưng R2

4.23 = cộng tuyến hoàn hảo, có

1 = r

2

42 + r243 - 2r42r43

1 - r223 (10.7.2)

Thật khơng khó để nhận (10.7.2) thỏa r42 = 0.5, r43 = 0.5 r23 = -0.5, giá

trị không cao

Vì vậy, mơ hình liên quan đến nhiều hai biến giải thích, hệ số tương quan bậc hay hệ số tương quan đơn không cung cấp dẫn đáng tin cậy diện đa cộng tuyến Dĩ nhiên, có hai biến giải thích, hệ số tương quan bậc đủ

3 Kiểm tra hệ số tương quan riêng phần Vì vấn đề vừa nêu dựa vào hệ số tương

quan bậc 0, Farrar Glauber đề nghị nên quan tâm đến hệ số tương quan riêng phần.19

Vì vậy, hàm hồi qui Y theo X2, X3 X4, phát R21.234

rất cao r2

12.34, r213.24 r214.23 tương đối thấp ngụ ý biến X2, X3 X4

có tương quan lẫn cao biến không cần thiết

Mặc dù nghiên cứu hệ số tương quan có lẽ có ích khơng có bảo đảm hệ số đem lại dẫn đáng tin cậy đa cộng tuyến, ngẫu nhiên R2

hệ số tương quan riêng phần đủ cao Nhưng quan trọng là, C Robert Wichers 20

kiểm định Farrar - Glauber hệ số tương quan riêng phần

18 Ibid., trang 439

19 D E Farrar R R Glauber, “ Multicollinearity in Regression Analysis: The Problem Revisited,” (Đa cộng

tuyến phân tích hồi qui: Vấn đề xem xét lại), Review of Econometrics and Statistics, số 49, 1967, trang 92-107

20 “The Detection of Multicollinearity: A Comment”, (Sự phát đa cộng tuyến: Một lời bình luận), Review of

econometrics and Statistics, số 57, 1975, trang 365-366

R24.23 =

r242 + r243 - 2r42r43

(20)

không đủ hiệu việc so sánh hệ số tương quan riêng phần cho trước với kiểu đa cộng tuyến khác

Kiểm định Farrar - Glauber bị T.Krishma,21

John O’Hagan Brendan McCabe.22 trích kịch liệt

4 Các hàm hồi qui phụ trợ Từ vấn đề đa cộng tuyến phát sinh hay nhiều biến hồi

qui độc lập tổ hợp tuyến tính hồn hảo gần hoàn hảo biến hồi qui độc lập khác nào, cách để tìm xem biến X có quan hệ với biến X khác, lập hàm hồi qui cho biến Xi theo biến X cịn lại tính R2 tương ứng, mà ta đặt R2i;

hàm hồi qui hàm hồi qui gọi hàm hồi qui phụ trợ, phụ cho hàm hồi qui Y theo biến X Kế đó, mối liên hệ sau F R2

thiết lập (8.5.11), biến

(10.7.3)

tuân theo phân phối F với độ tự k - n - k + Trong biểu thức (10.7.3) n đại diện cho cỡ mẫu, k đại diện cho số biến giải thích gồm số hạng tung độ gốc, R2

x1 x2x3 xk hệ số xác

định hàm hồi qui biến Xi theo biến X lại 23

Nếu giá trị F tính cao giá trị Fi, điều có nghĩa biến Xi cụ thể cộng tuyến với

các biến X khác; giá trị F tính khơng vượt q giá trị tới hạn Fi, nói Xi

không cộng tuyến với biến X khác, trường hợp trì biến mơ hình Nếu Fi có ý nghĩa thống kê, phải giải xem biến Xi cụ thể

này nên bị bỏ khỏi mô hình hay khơng Câu hỏi đượcđề cập đến phần 10.8

Nhưng phương pháp khơng có trở ngại, vấn đề đa cộng tuyến liên quan đến vài biến hàm hồi qui phụ trợ không bị ảnh hưởng từ đa cộng tuyến mở rộng, hệ số độ dốc ước lượng cho thấy chất phụ thuộc tuyến tính biến hồi qui độc lập Khơng may thay, có nhiều liên kết tuyến tính phức tạp, đường cong thực nghiệm có lẽ khơng có nhiều giá trị khó xác định quan hệ biến cách tách biệt.24

Thay kiểm định thơng thường giá trị R2 phụ, ta sử dụng qui tắc kinh nghiệm Klien, kinh nghiệm cho vấn đề đa cộng tuyến có lẽ vấn đề phức tạp R2

21 Multicollinearity in Regression Analysis”, (Đa cộng tuyến phân tích hồi qui), Review of Econometrics anhd

Statistics, số 57, 1975, trang 366-368

22 “Test for the Severity of Multicollinearity in Regression Analysis: A comment” (Kiểm định tính nghiêm trọng

đa cộng tuyến phân tích hồi qui), Review of Econometrics and Statistics, số 57, 1975, trang 368 - 370

23 Ví dụ, R2

x2 có cách lập hàm hồi qui X2 sau: X2i = a1 + a3X3i + ãX4i + + akXki + ui

^

24 George G Judge, R Carter Hill, William E Griffiths, Helmut Lutkepohl, Tsoung-Chao Lee, Introduction to

the Theory and Practice of Econometrics, (Nhập môn Lý thuyết Thực hành môn Kinh tế lượng), John Wiley & Sons, New York, 1982, trang 621

Ri =

R2x1 x2x3 xk / (k-2)

(21)

có từ hàm hồi qui phụ trợ có giá trị lớn R2

tồn diện, là, R2 có từ hàm hồi qui Y theo biến hồi qui độc lập.25

Dĩ nhiên, qui tắc kinh nghiệm khác, cần phải cân nhắc sử dụng kinh nghiệm

5 Giá đặc trưng số điều kiện Nếu bạn kiểm tra sản lượng SAS hàm sản xuất

Cobb-Douglas cho phụ lục 7A.7, bạn thấy SAS sử dụng giá trị đặc trưng số điều kiện để chẩn đoán đa cộng tuyến Chúng ta không thảo luận giá trị đặc trưng đây, điều dẫn vào đề tài ma trận đại số, vượt phạm vi sách này Tuy nhiên, từ giá trị đặc trưng, có gọi số điều kiện k (condition number k), định nghĩa

k = giá trị đặc trưng lớn giá trị đặc trưng nhỏ số điều kiện (condition index) (CI) định nghĩa

CI = giá trị đặc trưng lớn

giá trị đặc trưng nhỏ = k

kế có qui tắc kinh nghiệm Nếu k nằm 100 1000 có đa cộng

tuyến từ trung bình đến cao giá trị cao 1000 có đa cộng tuyến cao Hay CI (= k ) 10 30, có đa cộng tuyến từ trung bình đến cao giá trị cao 30 có đa cộng tuyến cao

Đối với ví dụ minh họa, k = 3.0/0.00002422 khoảng 123,864 CI = 123864 

352; giá trị k CI dự đốn có đa cộng tuyến cao Dĩ nhiên, k CI tính đặc trưng lớn giá trị đặc trưng khác làm tài liệu (Lưu ý: tài liệu không tính tốn cách rõ ràng giá trị k, đơn giản tính giá trị bình phương CI.) Nhân đây, lưu ý giá trị đặc trưng thấp (so sánh tương giá trị đặc trưng lớn nhất) thường dấu hiệu xác định phụ thuộc gần tuyến tính số liệu

6 Một vài tác giả tin số điều kiện cách chẩn đoán đa cộng tuyến sẵn có tốt

Những ý kiến khơng tiếp nhận rộng rãi Đối với chúng ta, CI qui tắc kinh nghiệm, có lẽ phức tạp chút Nhưng để cụ thể hơn, độc giả xem thêm tài liệu tham khảo.26

25 Lawrence R Klien, An Introduction to Econometrics, (Nhập môn kinh tế lượng), Prentice- Hall, Englewood

(22)

7 Dung sai (Tolerance) nhân tố lạm phát - phương sai Đối với mô hình hồi qui đa biến

[Y, tung độ gốc (k - 1) biến hồi qui độc lập], thấy (7.5.6) phương sai hệ số hồi qui riêng phần diễn tả

var(^ ) = j

2

x2j

(

- R2j ) (7.5.6)

= 

2

x2j

VIFj (10.7.4)

với j hệ số hồi qui (riêng phần) biến hồi qui độc lập Xj, R2j giá trị R2 hàm hồi

qui (phụ trợ) Xj theo (k - 2) biến hồi qui độc lập lại vàVIFj nhân tố lạm phát

phương sai giới thiệu lần phần 10.5 Khi R2

j tăng dần đến 1, là,

cộng tuyến Xj với biến hồi qui độc lập khác tăng, VIF tăng giới hạn

VIF trở thành vơ hạn

Vì số tác giả dùng VIF dấu hiệu xác định đa cộng tuyến: Giá trị VIF lớn biến Xj “phức tạp” cộng tuyến cao Nhưng VIF cao đến

nào trước biến hồi qui độc lập trở nên rắc rối? Như qui tắc kinh nghiệm, VIF biến vượt 10 (điều xảy R2

j vượt 0.9), biến nói

cộng tuyến cao.27

Các tác giả khác sử dụng phép đo dung sai để phát đa cộng tuyến Được định nghĩa sau

TOLj = (1 - R2j) = (1/VIFj) (10.7.5)

Rõ ràng là, TOLj = Xj không tương quan với biến hồi qui độc lập khác,

TOLj = Xj liên kết hoàn toàn với cá biến hồi qui độc lập khác

VIF (hoặc dung sai) phép đo độ cộng tuyến khơng tránh khỏi nhà phê bình Như (10.7.4) trình bày, var(^ ) phụ thuộc ba yếu tố: j 2, x2j , VIFj Một giá trị VIF cao có

thể cân 2

thấp x2j cao Nói cách khác, giá trị VIF caothì khơng phải

là điều kiện cần đủ để có phương sai sai số chuẩn cao Vì vậy, đa cộng tuyến cao, đo lường giá trị VIF cao, có lẽ khơng phải điều kiện cần để gây sai số chuẩn cao Trong thảo luận này, thuật ngữ cao thấp sử dụng với nghĩa tương đối

26 Đặc biệt xem D A Belsley, E Kuh, R E Welsch, Regression Diagonistics: Identifying Influential Data and

Sources of Collinearity, (Chẩn đoán hồi qui: Xác định ảnh hưởng cộng tuyến đến số liệu nguồn số liệu), John Wiley & Sons, New York, 1980, chương Tuy nhiên, sách không dành cho người học

27 xem David G Kleinbaum, Lawrence L Kupper, Keith E Muller, Applied Regression Analysis and Other

(23)

Để kết luận phần thảo luận việc phát đa cộng tuyến, nhấn mạnh nhiều phương pháp khác mà thảo luận có chất “thả câu” (“fishinng expeditions,”) khơng thể nói phương pháp tốt trường hợp ứng dụng cụ thể Đáng tiếc là, làm nhiều, đa cộng tuyến riêng biệt mẫu cho trước mà nhà nghiên cứu có lẽ khơng kiểm sốt hết, đặc biệt số liệu chất phi thực nghiệm - trường hợp mà nhà nghiên cứu thường gặp ngành khoa học xã hội

Một lần nữa, nhại lại đa cộng tuyến, Goldberger trích số cách phát cỡ mẫu nhỏ chẳng hạn xây dựng giá trị tới hạn cỡ mẫu, n*, nảy sinh vấn đề cỡ mẫu nhỏ cỡ mẫu thật, n, nhỏ n* Quan điểm việc nhại lại Goldberger nhấn mạnh cỡ mẫu nhỏ việc thiếu biến thiên biến giải thích gây nhiều vấn đề mà nghiêm trọng vấn đề liên quan đến đa cộng tuyến

10.8 CÁC BIỆN PHÁP GIẢI QUYẾT

Có thể làm vấn đề đa cộng tuyến trở nên nghiêm trọng? Như trường hợp phát đa cộng tuyến, khơng cịn lời hướng dẫn đáng tin cậy đa cộng tuyến đặc biệt vấn đề mẫu Tuy nhiên, cố gắng tuân theo qui tắc kinh nghiệm, việc thành cơng cịn phụ thuộc vào mức độ nghiêm trọng vấn đề cộng tuyến

1 Thông tin Giả sử xem xét mơ hình

Yi = 1 + 2X2i + 3X3i + ui

với Y = tiêu dùng, X2 = thu nhập X3 = giàu có Như lưu ý trước đây, biến thu nhập

và biến giàu có có khuynh hướng cộng tuyến cao Nhưng giả sử tin

3=0.102; là, tỷ lệ thay đổi tiêu dùng theo giàu có 1/10 tỷ lệ thay đổi tương

ứng theo thu nhập Chúng ta tạo hàm hồi qui sau

Yi = 1 + 2X2i + 0.102X3i + ui = 1 + 2Xi + ui

với Xi = X2i + 0.1X3i Một có ^ , ước lượng ^3 từ mối quan hệ

bản 2 3

Bằng cách có thơng tin đầu tiên? Thơng tin từ cơng việc thực tế trước xảy nhiều vấn đề cộng tuyến nghiêm trọng từ lý thuyết tương ứng lĩnh vực nghiên cứu Ví dụ, hàm sản xuất Cobb-Douglas (7.10.1), kỳ vọng sinh lợi không đổi theo qui mơ, (2 + 3) = trường

(24)

thông thường phần lớn số liệu mẫu, biến đổi làm giảm loại bỏ vấn đề đa cộng tuyến Nhưng có khuyến cáo việc ấn định ràng buộc tiên nghiệm vậy, “ nói chung muốn kiểm định dự đoán tiên nghiệm học thuyết kinh tế đơn giản đặt chúng số liệu mà theo số liệu chúng khơng đúng.”28

Tuy nhiên, từ phần 8.7, biết cách kiểm định cách rõ ràng hiệu lực ràng buộc

2 Kết hợp số liệu chéo (cross-sectional) số liệu chuỗi thời gian Một biến thể kỹ thuật

thông tin tương lai kỹ thuật thông tin tiên nghiệm tổ hợp liệu chéo (liên vùng) dữ liệu chuỗi thời gian, gọi góp chung số liệu (pooling the data) Giả sử muốn nghiên cứu nhu cầu xe máy Hoa Kỳ giả sử có số liệu chuỗi thời gian số lượng xe bán ra, giá trung bình xe thu nhập người tiêu dùng Cũng giả sử

lnYt = 1 + 2lnPt + 3lnIt + ut

với Y = số xe bán ra, P = giá trung bình, I = thu nhập, t = thời gian Mục tiêu ước lượng độ co giãn giá 2 độ co giãn thu nhập 3

Trong số liệu chuỗi thời gian, biến giá thu nhập nói chung có khuynh hướng cộng tuyến cao Vì vậy, sử dụng hàm hồi qui trước đây, gặp phải vấn đề đa cộng tuyến thường gặp Tobin đề nghị cách tránh khỏi vấn đề này.29

Ông ta nói có số liệu chéo (ví dụ, số liệu từ danh sách khách hàng, từ nghiên cứu ngân sách nhiều tổ chức tư nhân phủ thực hiện), có ước lượng tin cậy độ co giãn 3 tập số liệu thời điểm vậy, giá không

thay đổi nhiều Hãy xem độ co giãn giá ước lượng theo số liệu chéo ^3 Sử dụng giá

trị ước lượng này, viết hàm hồi qui chuỗi thời gian trước sau Y*t = 1 + 2lnPt + ut

với Y*

= lnY - ^3 lnI, là, Y* đại diện cho giá trị Y sau tách bỏ ảnh hưởng thu

nhập lên biến Bây có giá trị ước lượng độ co giãn giá

2 từ hàm hồi qui

Mặc dù kỹ thuật hấp dẫn, góp chung số liệu chuỗi thời gian số liệu chéo cách thức vừa đề nghị tạo vấn đề diễn dịch, ngầm giả định độ co giãn giá ước lượng theo số liệu chéo giống giá trị ước lượng theo

28

Mark B Stewart and Kenneth F Wallis, Introduction Econometrics, (Nhập môn kinh tế lượng), 2d, ed., John Wiley & Sons, A Halstesd Press Book, New York, 1981, trang 154

29 J Tobin, “A Statistical Demand Function for Food in the USA,” (Hàm cầu thống kê thức ăn Hoa Kỳ)

(25)

phân tích chuỗi thời gian túy.30

Tuy nhiên, kỹ thuật sử dụng nhiều ứng dụng đáng giá trường hợp ước lượng liệu chéo không biến đổi nhiều phần liệu phần liệu khác: Một ví dụ kỹ thuật cung cấp tập 10.25

3 Bỏ qua nhiều biến thiên lệch đặc trưng Khi đối diện với vấn đề đa cộng

tuyến nghiêm trọng, việc “đơn giản” làm bỏ bớt biến cộng tuyến Vì vậy, ví dụ minh họa tiêu dùng-thu nhập-sự giàu có, bỏ biến giàu có, có hàm hồi qui (10.6.4), cho thấy là, mơ hình ngun thủy, biến thu nhập khơng có ý nghĩa thống kê, biến có ý nghĩa “cao” Nhưng bỏ biến khỏi mơ hình phạm phải thiên lệch đặc trưng

sai số đặc trưng Thiên lệch đặc trưng xuất từ đặc trưng không mơ hình sử

dụng để phân tích, vậy, học thuyết kinh tế cho thu nhập giàu có có mặt mơ hình giải thích cho việc chi tiêu cho tiêu dùng, việc bỏ qua biến giàu có tạo thành thiên lệch đặc trưng

Mặc dù thảo luận đề tài thiên lệch đặc trưng chương 13, lướt qua vấn đề phần 7.7 thấy mơ hình

Yi = Yi = 1 + 2X2i + 3X3i + ui

nhưng làm thích hợp mơ hình cách sai lầm Yi = b1 + b12X2i + u^ i (7.7.1)

kế

E(b12) = 2 + 3b32 (7.7.4)

với b32 = hệ số độ dốc hàm hồi qui X3 theo X2 Vì vậy, rõ ràng từ (7.7.4) b12

một ước lượng thiên lệch 2 miễn b23 khác (giả sử 3 khác 0; khơng vơ

nghĩa đưa X3 vào mơ hình nguyên thủy).31 Dĩ nhiên, b32 = 0, không gặp phải

vấn đề đa cộng tuyến Cũng thấy rõ ràng từ (7.7.4) b32 3 dương, E(b12) lớn

hơn 2; vậy, trung bình b12 ước lượng cao 2, dẫn đến thiên lệch dương

Tương tự, tích b323 âm, trung bình b12 thấp 2, dẫn đến thiên lệch âm

30 Để thông qua phần thảo luận ứng dụng kỹ thuật góp chung số liệu, xem Edwin Kuh, Capital Stock

Growth: A Micro-Econometric Approach, ( Sự tăng trường vốn cổ phần: Một phương pháp kinh tế vi lượng), North-Holland Publishing Company, Amsterdam, 1963, chương

31 Lưu ý b

32 không tiến đến cỡ mẫu tăng vơ hạn, kế b12 khơng thiên lệch mà cịn khơng

(26)

Từ thảo luận trên, rõ ràng việc bỏ biến khỏi mơ hình để làm giảm bớt vấn đề đa cộng tuyến dẫn đến thiên lệch đặc trưng Vì vậy, phương pháp giải có lẽ lại làm cho vấn đề xấu thêm số trường hợp, vì, đa cộng tuyến cản trở việc ước lượng xác thơng số mơ hình, việc bỏ qua biến có lẽ làm cho lạc hướng trầm trọng tìm đến giá trị thực thông số Nhớ lại hàm ước lượng OLS BLUE gần cộng tuyến

4 Biến đổi biến Giả sử có số liệu chuỗi thời gian chi tiêu cho tiêu dùng,

thu nhập giàu có Một lý đa cộng tuyến cao thu nhập giàu có số liệu theo thời gian hai biến có khuynh hướng dịch chuyển theo hướng Một cách để giảm thiểu phụ thuộc làm sau

Nếu quan hệ

Yt = 1 + 2X2t + 3X3t + ut (10.8.1)

có giá trị thời điểm t, phải có giá trị thời điểm t - gốc thời gian chọn tùy ý theo cách Vì vậy, có

Yt-1 = 1 + 2X2, t -1 + 3X3, t -1 + ut -1 (10.8.2)

Nếu lấy (10.8.1) trừ (10.8.2) ta có

Yt - Yt-1 = 2 (X2t - X2, t -1) + 3 (X3t - X3, t -1) + t (10.8.3)

với t = ut - ut -1 Biểu thức (10.8.3) gọi dạng hiệu số thứ (the first difference

form) sử dụng hàm hồi qui, không theo biến nguyên thủy mà theo hiệu số giá trị liên tục biến

Mơ hình hồi qui hiệu số thứ thường làm giảm mức độ nghiêm trọng đa cộng tuyến vì, mức độ X2 X3 tương quan cao, khơng có lý đáng

để tin hiệu số chúng tương quan cao

Tuy nhiên, biến đổi hiệu số thứ lại tạo thêm số vấn đề Số hạng sai số t xuất

trong (10.8.3) khơng thỏa giả định mơ hình hồi qui tuyến tính cổ điển, là, nhiễu khơng quan hệ với theo chuỗi thời gian Như thấy chương 12, số hạng nguyên thủy ut độc lập khơng tương quan theo chuỗi, số

hạng sai số t có tương quan theo chuỗi thời gian hầu hết trường hợp

(27)

này vấn đề cần để ý đến Hơn nữa, thủ tục hiệu số thứ có lẽ khơng thích hợp với số liệu chéo số liệu khơng có trật tự logic cho quan sát

5 Số liệu bổ sung số liệu Vì vấn đề đa cộng tuyến đặc tính mẫu,

trong mẫu khác biến cộng tuyến có lẽ khơng nghiêm trọng mẫu Thỉnh thoảng đơn giản gia tăng cỡ mẫu (nếu có thể) làm giảm bớt vấn đề cộng tuyến Ví dụ, mơ hình ba biến thấy

var (^2 ) =

2

x22i (1 - r223)

Bây cỡ mẫu tăng, x22i nói chung tăng (Tại sao?) Vì vậy, r23 cho

trước, phương sai ^ giảm, kéo theo sai số chuẩn giảm; điều giúp ước

lượng 2 xác

Để minh họa, xem hàm hồi qui sau chi tiêu cho tiêu dùng Y theo thu nhập X2 giàu có

X3 dựa 10 quan sát:32

Y^ = 24.337 + 0.8716Xi 2i - 0.0349X3i (10.8.4)

t = (3.875) (2.7726) (- 1.1595) R2 = 0.9682

Hệ số biến giàu có hàm hồi qui khơng có dấu sai mà cịn khơng có ý nghĩa thống kê mức ý nghĩa 5% Nhưng cỡ mẫu tăng lên 40 lần quan sát (vấn đề cỡ mẫu nhỏ?), ta có kết sau

Y^ = 2.0907 + 0.7299Xi 2i + 0.0605X3i (10.8.5)

t = (0.8713) (6.0014) ( 2.0014) R2 = 0.9672

Bây hệ số biến giàu có khơng có dấu mà cịn có ý nghĩa thống kê mức ý nghĩa 5%

Có thêm số liệu bổ sung số liệu “tốt hơn” ln ln dễ dàng, Judge người khác lưu ý:

Không may thay, nhà kinh tế học có số liệu bổ sung mà chịu khoảng chi phí lớn, với lựa chọn cho giá trị biến giải thích mà họ mong muốn Thêm vào đó, bổ sung biến nhiều trường hợp khơng thể kiểm sốt

(28)

được, phải biết bổ sung thêm quan sát có từ trình khác với quan sát kết hợp với tập số liệu ban đầu; là, phải chắn tằng cấu trúc kinh tế kết hợp với quan sát phải giống cấu trúc ban đầu.33

6 Giảm cộng tuyến hàm hồi qui đa thức Trong phần 7.11 thảo luận

mơ hình hồi qui đa thức Một thuộc tính đặc biệt mơ hình biến giải thích xuất với nhiều số mũ khác Vì vậy, hàm tổng chi phí bậc ba hàm hồi qui tổng chi phí theo sản lượng, (sản lượng)2, (sản lượng)3, (7.11.4), số hạng sản lượng khác

nhau tương quan với nhau, làm cho khó ước lượng xác hệ số độ dốc khác nhau.34

Trong thực tế người ta tìm thấy (các) biến giải thích diễn tả dạng độ lệch (đó là, độ lệch so với giá trị trung bình), đa cộng tuyến thật giảm bớt Nhưng sau vấn đề cịn tồn tại, 35

trường hợp muốn xem xét kỹ thuật đa thức trực giao.36

7 Các phương pháp khác giải vấn đề đa cộng tuyến Các kỹ thuật thống kê đa biến

như phân tích nhân tố (factor analysis) thành tố (principal components) các kỹ thuật hồi qui dạng sóng (ridge regression) thường sử dụng để “giải quyết” vấn đề đa cộng tuyến Nhưng đáng tiếc kỹ thuật phạm vi sách, khơng thể thảo luận kỹ thuật cách hồn chỉnh mà khơng sử dụng đến ma trận đại số.37

10.9 CÓ NHẤT THIẾT ĐA CỘNG TUYẾN LÀ XẤU KHƠNG? CĨ LẼ KHÔNG NẾU NHƯ MỤC TIÊU CHỈ ĐƠN THUẦN LÀ TIÊN ĐỐN

Người ta nói mục tiêu phân tích hồi qui tiên đốn dự báo, đa cộng tuyến khơng phải vấn đề nghiêm trọng giá trị R2

cao tiên đốn tốt.38

điều “ miễn giá trị biến giải thích mà biến người ta mong dự báo phải tuân theo phụ thuộc gần tuyến tính xác

33 Judge et al., op cit., trang 625 Xem thêm phần 10.9

34 Như lưu ý, tương quan X, X2 X3 phi tuyến, nghiêm khắc mà nói thì, hàm hồi qui đa thức khơng

vi phạm giả định phi đa cộng tuyến mơ hình cổ điển

35 Xem R A Bradley S S Srivastava, “Correlation and Polynomial Regression,” (Tương quan Các hàm hồi

qui đa thức), American Statistician, số 33, 1979, trang 11-14

36

Xem Norman Draper Harry Smith, Applied Regression Analysis, (Phân tích hồi qui ứng dụng), 2d ed., John Wiley & Sons, New York, 1981, trang 266-274

37 Có thể đọc thêm kỹ thuật ứng dụng Samprit Chaterjee Bertram Price, Regression

Analysis by Example, (Phân tích hồi qui ví dụ), John Wiley & Sons, New York, 1977, chương 7, Xem thêm H D Vinod, “A Survey of Ridge Regression and Related Techniques for Improvements over Ordinary Least Square”, Review of Economics and Statistics, số 60, tháng 2, 1963, trang 121-131

38 Xem thêm R C Geary, “Some Results about Relation between Stochastic Variables: A Discussion Document,”

(29)

như ma trận [dữ liệu] X thiết kế ban đầu.”39

vậy, hàm hồi qui ước lượng có X2

2X3, mẫu tương lai dùng để dự báo Y, X2 gần 2X3, điều

kiện thật khó gặp thực tế (xem ghi 33), trường hợp dự đốn gia tăng khơng chắn.40

Hơn nữa, mục tiêu phân tích khơng dự báo mà ước lượng tin cậy thông số, đa cộng tuyến nghiêm trọng vấn đề thấy đa cộng tuyến nghiêm trọng dẫn đến sai số hàm ước lượng lớn

Tuy nhiên có tình huống, đa cộng tuyến có lẽ khơng gây vấn đề nghiêm trọng Đó trường hợp R2

cao hệ số hồi qui có ý nghĩa cách riêng biệt thấy qua giá trị t cao Tuy nhiên, chẩn đoán đa cộng tuyến, số điều kiện, có cộng tuyến nghiêm trọng số liệu Khi tình xuất hiện? Như Johnston lưu ý:

Trường hợp xảy hệ số riêng phần cao giá trị thực, khơng xuất tác động sai số chuẩn gia tăng và/hoặc thân giá trị thực lớn ước lượng theo chiều xuống có ý nghĩa.41

10.10 TÓM TẮT VÀ KẾT LUẬN

1 Một giả định mơ hình hồi qui tuyến tính cổ điển khơng có vấn đề đa cộng

tuyến biến giải thích X Nói rộng là, vấn đề đa cộng tuyến đề cập đến tình tồn mối quan hệ tuyến tính hồn hảo gần hồn hảo biến X

2 Các hệ đa cộng tuyến là: Nếu tồn cộng tuyến hoàn hảo biến X, hệ số

hồi qui chúng không xác định sai số chuẩn chúng vô hạn Nếu cộng tuyến cao khơng hồn hảo việc ước lượng hệ số hồi qui thực sai số chuẩn chúng có khuynh hướng lớn Kết là, giá trị tổng thể hệ số ước lượng cách xác Tuy nhiên, mục tiêu ước lượng tổ hợp tuyến tính hệ số này, hàm ước lượng, việc thực với diện đa cộng tuyến hoàn hảo

3 Mặc dù khơng có phương pháp chắn để phát cộng tuyến, có số

dẫn sau:

(a) Dấu hiệu rõ đa cộng tuyến R2 cao khơng có hệ số hồi qui có ý nghĩa thống kê dựa kiểm định qui ước t Trường hợp dĩ nhiên cực đoan

39

Judge et al, op cit., trang 619 Bạn tìm thấy trang chứng, cộng tuyến, có giá trị dự báo trung bình tốt cấu trúc cộng tuyến tiếp tục mẫu tương lai

40 Để thảo luận thật tốt, xem thêm E Malinvaud, Statistical methods of Econometrics, 2d ed., North Holland

Publishing Company, Amsterdam, 1970, trang 220-221

41 J Johnston, Econometric Methods, (Các phương pháp kinh tế lượng), 3d ed., McGraw Hill, New York, 1984,

(30)

(b) Trong mơ hình liên quan đến hai biến giải thích, phát tốt cộng tuyến có cách kiểm tra hệ số tương quan bậc hay hệ số tương quan đơn hai biến Nếu hệ số cao, thơng thường đa cộng tuyến

(c) Tuy nhiên, hệ số tương quan bậc dẫn đến sai lầm mơ hình có nhiều hai biến giải thích có hệ số tương quan bậc thấp có đa cộng tuyến cao Trong trường hợp thế, có lẽ cần phải kiểm tra hệ số tương quan riêng phần

(d) Nếu R2 cao hệ số tương quan riêng phần thấp, có đa cộng tuyến Ở nhiều biến không cần thiết Nhưng R2

cao hệ số tương quan riêng phần cao, có lẻ khơng thể phát đa cộng tuyến Cũng C Robert, Krishna Kuma, John O’Hagan Brendan McCabe nêu, có số vấn đề thống kê với kiểm định hệ số tương quan riêng phần Farrar Glauber để nghị

(e) Vì vậy, lập hàm hồi qui biến Xi theo biến X cịn lại mơ

hình tìm hệ số tương ứng R2

i Một giá trị R2i cao cho Xi tương

quan chặt với biến X cịn lại Do đó, bỏ biến khỏi mơ hình, miễn khơng gây thiên lệch đặc trưng nghiêm trọng

4 Phát đa cộng tuyến nửa nhiệm vụ Nửa lại liên quan đến việc giải

quyết vấn đề cách Một lần lại khơng có phương pháp chắn, có qui tắc kinh nghiệm Một số qui tắc kinh nghiệm nêu sau: (1) sử dụng thông tin tiên nghiệm hay thông tin ngoại lai, (2) kết hợp số liệu chéo số liệu chuỗi thời gian, (3) bỏ qua biến cộng tuyến cao, (4) biến đổi số liệu, (5) thêm số liệu bổ sung số liệu Dĩ nhiên, qui tắc kinh nghiệm qui tắc áp dụng phụ thuộc vào chất số liệu mức độ nghiêm trọng vấn đề cộng tuyến

5 Chúng ta lưu ý đến vai trò đa cộng tuyến dự báo cấu trúc

cộng tuyến tiếp tục mẫu tương lai, thật nguy hiểm sử dụng hàm hồi qui ước lượng, bị tác hại đa cộng tuyến, cho mục đích dự báo

6 Mặc dù đa cộng tuyến nhận quan tâm rộng rãi (có người cho mức)

trong tài liệu, vấn đề không quan trọng mà gặp phải nghiên cứu lý thuyết vấn đề cỡ mẫu nhỏ, nhỏ cỡ mẫu Theo Goldberger, “Khi báo nghiên cứu phàn nàn đa cộng tuyến, đọc giả phải xem liệu lời phàn nàn có cịn thuyết phục “vấn đề cỡ mẫu nhỏ” thay cho “vấn đề đa cộng tuyến”.42

Ông ta đề nghị người đọc phải định số lần quan sát n nhỏ đến cỡ trước định họ có vấn đề cỡ mẫu nhỏ, họ định giá trị R2

cao cỡ hàm hồi qui phụ trợ trước nói vấn đề cộng tuyến nghiêm trọng

(31)

BÀI TẬP Câu hỏi

10.1 Trong mơ hình hồi qui tuyến tính k biến có k biểu thức thông thường để ước lượng k giá trị chưa

biết Những biểu thức thông thường đuợc cho (9.8.3) Giả sử Xk tổ hợp tuyến tính biến X cịn lại Bằng cách bạn cho thấy trường hợp ước lượng k hệ số hồi qui?

10.2 Xét tập hợp số liệu lý thuyết phần sau Giả sử bạn muốn áp dụng mơ hình sau cho số liệu

đã cho

Yi = 1 + 2X2i + 3X3i + ui

Y X2 X3

- 10 - - - - 2 10 10 11 11 13 15 17 19 21

(a) Bạn ước lượng ba thông số chưa biết hay không? Tại có khơng? (b) Nếu khơng, hàm tuyến tính thơng số này, hàm ước lượng, bạn ước lượng

được? Trình bày tính tốn cần thiết

10.3 Nhớ lại chương 8, phần 5, xét đến đóng góp biên tế gia tăng biến

giải thích Ví dụ thảo luận liên quan đến hàm hồi qui chi tiêu cho tiêu dùng cá nhân Y theo thu nhập khả dụng cá nhân X2, xu hướng X3 Khi đưa biến X2 vào mơ hình trước sau đưa biến X3 vào, ta có bảng 8.7 Nhưng giả sử đưa X3 vào trước sau đến X2 Bảng ANOVA tương ứng với thay đổi sau:

Bảng ANOVA đưa X3 vào trước

Nguồn thay đổi SS df MSS

ESS X3 ESS thêm X2 ESS X2 X3 Do biến lại

Q1 = 64,536.2529 Q2 = 1,428.8471 Q3 = 65,965.1000

Q4 = 77.1693

1 12 64,536.2529 1,428.8471 32,982.5500 6.4310

Tổng Q5 = 66,042.2693

(32)

10.4 Nếu quan hệ 1 X1i + 2 X2i + 3 X3i = với giá trị cũa 1, 2, 3, ước luợng r12 3, r13 r23 Cũng vậy, tìm R

2 23 , R

2

2 13, R

3 12 Mức độ đa cộng tuyến trường hợp gì? Lưu ý: R2

1 23 hệ số xác định hàm hồi qui biến Y theo X2 X3 Các giá trị R2

khác giải thích tương tự

10.5 Xét mơ hình sau:

Yt = 1 + 2Xt + 3Xt -1 + 4Xt - + 5Xt - + 6Xt - + ut

với Y = tiêu dùng, X = thu nhập, t = thời gian Mơ hình địi hỏi chi tiêu cho tiêu dùng thời điểm t hàm không thu nhập thời gian mà cịn thu nhập thời kỳ trước Vì vậy, chi tiêu cho tiêu dùng quí năm 1976 hàm thu nhập q 4 q năm 1975 Mơ gọi mơ hình trễ pha phân phối, (distributed lag models), thảo luận mơ hình chương sau

(a) Bạn có nghĩ có vấn đề đa cộng tuyến mơ hay không sao? (b) Nếu bạn nghĩ có cộng tuyến, bạn giải nào?

10.6 Xem ví dụ minh họa phần 10.6 Bạn điều hòa khác biệt thiên hướng gia tăng tiêu

dùng (10.6.1) (10.6.4) nào?

10.7 Trong số liệu liên quan đến chuỗi thời gian kinh tế GNP, nguồn cung tiền tệ, thu nhập, thất

nghiệp, vv người ta thường nghi ngờ có diện đa cộng tuyến Tại sao?

10.8 Giả sử mơ hình

Yi = 1 + 2X2i + 3X3i + ui

với r23, hệ số tương quan X2 X3 , Vì vậy, số người đề nghị bạn sử dụng hàm hồi qui sau:

Yi = 1 + 2 X2i + u1 i Yi = 1 + 3 X3i + u2 I (a) Liệu có ^2 = ^ ^3 = ^3 hay không? Tại sao?

(b) Liệu ^ có ^ ^1 số tổ hợp chúng hay không? (c) Liệu có var (2

^

) = var (2 ^

) var (3 ^

) = var (3 ^

) hay khơng?

10.9 Đề cập đến ví dụ minh họa chương 7, sử dụng hàm sản xuất Cobb-Douglas

cho khu vực nông nghiệp Đài Loan Các kết hàm hồi qui cho (7.10.4) cho thấy hệ số lao động hệ số vốn có ý nghĩa thống kê riêng biệt

(a) Hãy tìm xem biến lao động vốn có tương quan cao hay không?

(b) Nếu câu (a) bạn trả lời có, bạn bỏ biến lao động khỏi mơ hình lập hàm hồi qui biến sản lượng theo nhập luợng vốn hay không?

(c) Nếu làm vậy, bạn phạm phải thiên lệch đặc trưng loại gì? Hãy xác định chất thiên lệch

10.10 Đề cập đến ví dụ 7.4 Với vấn đề này, ma trận tương quan cho sau: Xi Xi2 X3i

Xi

X2i

X3i

1 0.9742

1.0

0.9284 0.9872 1.0

(33)

(b) Bạn bỏ biến Xi 2

X3i khỏi mơ hình hay khơng?

(c) Nếu bạn bỏ biến trên, việc xảy với giá trị hệ số biến Xi ?

10.11 Hồi qui theo bước Để định tập hợp tốt biến giải thích cho mơ hình

hồi qui, nhà nghiên cứu thường dùng phương pháp hồi qui dạng sóng Trong phương pháp này tiến hành cách đưa biến X vào (hồi qui theo bước phía

trước) cách đưa tồn biến X vào hàm hồi qui đa biến đẩy biến

ra (hồi qui theo bước phía sau) Quyết định thêm bỏ biến thường dựa sở phần đóng góp biến vào ESS, đánh giá kiểm định F Với bạn biết đa cộng tuyến, bạn có đề nghị thủ tục khác hay không? Tại không?

10.12 Xác định nêu lý do, câu sau đúng, sai không chắn:

(a) Mặc dù đa cộng tuyến hoàn hảo, hàm ước lượng OLS BLUE

(b) Trong trường hợp đa cộng tuyến cao, đánh giá mức độ ý nghĩa riêng nhiều hệ số hồi qui riêng phần

(c) Nếu hàm hồi qui phụ trợ cho thấy R2i cụ thể có giá trị cao, có chứng xác đáng tính cộng tuyến cao hay khơng

(d) Các hệ số tương quan đôi cao khơng có nghĩa có đa cộng tuyến cao (e) Đa cộng tuyến vơ hại mục tiêu phân tích dự báo

(f) Nếu giữ yếu tố khác khơng đổi, VIF cao giá trị phương sai hàm OLS cao

(g) Dung sai (TOL) công cụ đo lường đa cộng tuyến tốt VIF

(h) Bạn khơng có giá trị R2 cao hàm hồi qui đa biến hệ số độ dốc riêng phần khơng có ý nghĩa thống kê cách riêng biệt theo kiểm định t

(i) Trong hàm hồi qui Y theo X2 X3 , giả sử có thay đổi nhỏ giá trị X3 Điều làm tăng var (^3 ) Ở trạng thái cực đoan, X3 giống var (^ ) vơ hạn

10.13 (a) Chứng tỏ r1 i = với i = 2,3, ,k R1 23 k =

(b) Phát có quan trọng hàm hồi qui biến X1 ( = Y) theo X2, X3, Xk?

10.14 GIả sử hệ số tương quan bậc X1 (=Y), X2, , Xk r (a) R21 23 k bao nhiêu?

(b) Các giá trị hệ số tương quan bậc gì?



10.15 Trong ma trận ký hiệu thấy chương

^

= (X’X)- X’y

(a) Điều xảy với ^ có cộng tuyến hồn hảo biến X?

(b) Bằng cách bạn biết có tồn cộng tuyến hồn hảo?

10.16 Sử dụng ma trận ký hiệu có (9.3.13)

var-cov (^ ) = 2 (X’X)- 1

 Xem lý bạn có với lý Arthur S Goldberger D> b Jochems, “Lưu ý tố thiểu bước (Stepwise Least-Square),” Journal of the American Statistical Association, số 56, tháng 3, 1961, trang 105-110



(34)

Điều xảy với giá trị ma trận var-cov (a) có đa cộng tuyến hồn hảo (b) cộng tuyến cao khơng hồn hảo

10.17 Xét ma trận tương quan sau:

X2 X3 Xk

X2 r23 r2k

R = X3 r32 r3k

Xk rk2 rk3

Bằng cách bạn tìm từ ma trận tương quan (a) có cộng tuyến hồn hảo hay khơng, (b) có cộng tuyến chưa hồn hảo hay khơng, (c) biến X không tương quan

Gợi ý: Bạn dùng Rđể trả lời câu hỏi này, với Rlà định thức ma trận R

 10.18 Các biến giải thích trực giao Giả sử mơ hình

Yi = 1 + 2X2i + 3X3i + kXki + ui

X2 đến Xk không tương quan Những biến gọi biến trực giao Nếu trường hợp thì:

(a) Cấu trúc ma trận (X’X) gì?

(b) Bạn có biểu thức ^ = (X’X)- X’y cách nào?

(c) Bản chất ma trận var-cov ^ gì?

(d) Giả sử bạn tiến hành hồi qui sau bạn muốn đưa biến trực giao khác, biến Xk + , vào mơ hình Bạn có phải tính lại tất hệ số ^ ^ trước hay khơng? Tại k có khơng?

10.19 Xét mơ hình sau:

GNPt = 1 + 2Mt + 3Mt -1 + 4 (Mt - Mt -1) + ut

với GNPt = GNP vào thời điểm t, Mt = nguồn cung tiền tệ thời điểm t, Mt -1 = nguồn cung tiền tệ thời điểm (t - 1) (Mt - Mt -1) = thay đổi nguồn cung tiền tệ thời điểm t thời điểm (t - 1) Mơ hình đòi hỏi mức GNP thời điểm t hàm nguồn cung tiền tệ thời điểm t (t - 1) thay đổi nguồn cung tiền tệ thời kỳ

(a) Giả sử bạn có số liệu để ước luợng mơ hình trên, bạn ước lượng hệ số mơ hình hay khơng? Tại có khơng?

(b) Nếu khơng, hệ số ước lượng được?

(c) Giả sử số hạng 3Mt -1 khơng có mặt mơ hình Câu trả lời bạn có giống câu (a) khơng?

(d) Lập lại câu (c), với giả định số hạng 2Mt khơng có mặt mơ hình

10.20 Chứng tỏ (7.4.7) (7.4.8) diễn tả sau

^ =

(yix2i )(x )

2

3i - (yix3i )(x2ix3i )

(x22i )(x )

2

3i (1- r

23)

(35)

^ =

(yix3i )(x )

2

2i - (yix2i )(x2ix3i )

(x22i )(x )

2

3i (1- r

23) với r23 hệ số tương quan X2 X3

10.21 Sử dụng (7.4.12) (7.4.15), chứng tỏ có cộng tuyến hồn hảo phương sai 2

^

3

^

vô hạn

10.22 Kiểm chứng lại phát biểu: sai số chuẩn tổng hệ số độ dốc ước lượng từ (10.5.4)

(10.5.5) theo thứ tự 0.1992 0.1825 (Xem phần 10.5)

10.23 Với mơ hình hồi qui k biến (9.1.1) thấy phương sai hệ số hồi qui riêng phần thứ k (k

= 2, 3, , k) biểu diễn sau var (k

^

) = n - k

2 y 2 k   

1 - R2 - R2k với 2

y = phương sai Y, 

k = phương sai biến giải thích thứ k, R

k = R

từ hàm hồi qui Xk theo biến X lại, R

2

= hệ số xác định từ hàm hồi qui đa biến (9.1.1), là, hàm hồi qui Y theo biến X lại

(a) Tất giữ nguyên, 2k tăng, chuyện xảy với var (^ )? Có liên quan k đến vấn đề đa cộng tuyến?

(b) Chuyện xảy với cơng thức cộng tuyến hồn hảo? (c) Phát biểu sau hay sai: “Phương sai ^ giảm Rk

2

tăng, ảnh hưởng R2k cao bù lại R2

cao.”

10.24 Căn vào số liệu hàng năm khu vực sản xuất Hoa Kỳ thời gian 1899-1922,

Dougherty có kết hồi qui sau:

log Y = 2.81 - 0.53 log K + 0.91 log L + 0.047t (1)

se = (1.38) (0.34) (0.14) (0.021) R2 = 0.97 F = 189.8

với Y = số sản lượng thật, K = số nhập luợng vốn thực, L = số nhập lượng lao động thực, t = thời gian xu hướng

Sử dụng số liệu, ơng ta có hàm hồi qui sau:

log (Y/L) = - 0.11 + 0.11 log (K/L) + 0.047t (2)

se = (0.04) (0.15) (0.006) R2 = 0.65 F = 19.5 (a) Có đa cộng tuyến hàm hồi qui (1) hay không? Làm bạn biết?

(b) Trong hàm hồi qui (1), dấu tiên nghiệm log K gì? Các kết có phù hợp với kỳ vọng khơng? Tại có khơng?

(c) Bạn chứng minh dạng hàm hồi qui (1) nào:(Hướng dẫn: Hàm sản xuất Cobb - Douglas.)

(d) Giải thích hàm hồi qui (1) Biến xu hướng đóng vai trị hàm hồi qui này? (e) Tính logic hàm hồi qui ước lượng (2) gì?

(36)

(f) Nếu có đa cộng tuyến hàm hồi qui (1), vấn đề đa cộng tuyến có bị giảm bớt hàm hồi qui (2) hay không? Bằng cách bạn biết được?

(g) Nếu hàm hồi qui (2) dạng giới hạn hàm hồi qui (1), tác giả đặt giới hạn gì? (Hướng dẫn: quay lại phần phạm vi.) Bằng cách bạn biết giới hạn có hiệu lực hay khơng? Bạn sử dụng kiểm định gì? Trình bày tính tốn bạn

(h) Các giá trị R2 hai hàm hồi qui so sánh hay khơng? Tại có khơng? Bạn làm cho chúng trở thành so sánh cách nào, chúng so sánh được?

Bài toán

10.25 Klein Goldberger cố gắng để sử dụng mô hình hồi qui sau vào kinh tế Hoa Kỳ:

Yi = 1 + 2X2i + 3X3i + 4X4i + ui

với Y = tiêu dùng, X2 = thu nhập tiền lương, X3 = thu nhập từ tiền lương, từ nông trại, X4 = thu nhập từ nơng trại Nhưng người ta kỳ vọng X2, X3, X4 cộng tuyến cao, nên họ có giá trị ước lượng 3 4 từ phân tích gộp sau:

3 = 0.752 4 = 0.6252 Sử dụng giá trị ước lượng này, họ thiết lập lại hàm tiêu dùng sau:

Yi = 1 + 2 (X2i + 0.75 X3i + 0.625X4i ) + ui = 1 + 2 Zi + ui với Zi = X2i + 0.75 X3i + 0.625X4i

(a) Hãy làm cho mơ hình hiệu chỉnh thích hợp với số liệu kèm tìm ước lượng 1 đến 4

(b) Bạn giải thích biến Z nào?

Năm Y X2 X3 X4 Năm Y X2 X3 X4 1936 1937 1938 1939 1940 1941 1945* 62.8 65.0 63.9 67.5 71.3 76.6 86.3 43.41 46.44 44.35 47.82 51.02 58.71 87.69 17.10 18.65 17.09 19.28 23.24 28.11 30.29 3.96 5.48 4.37 4.51 4.88 6.37 8.96 1946 1947 1948 1949 1950 1951 1952 95.7 98.3 100.3 103.2 108.9 108.5 111.4 76.73 75.91 77.62 78.01 83.57 90.59 95.47 28.26 27.91 32.30 31.39 35.61 37.58 35.17 9.76 9.31 9.85 7.21 7.39 7.98 7.42

*Số liệu năm chiến tranh 1942-1944 bị thiếu Số liệu năm khác hàng triệu 1939 đô - la

Nguồn: L R Klein A S Goldberger, An Economic Model of the United States, (Mơ hình kinh tế Mỹ) 1929-1952, North Holland Publishing Company, Amsterdam, 1964, trang 131

10.26 Bảng sau cho số liệu nhập khẩu, GNP, số giá tiêu dùng (CPI) Mỹ thời kỳ

1970-1983

Hàng hóa nhập khẩu, GNP, CPI, Mỹ, 1970 – 1983

Năm Nhập hàng hóa (triệu $)

GNP (tỉ $) CPI, hạng mục (1967 = 100)

(37)

1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 45,579 55,797 70,499 103,811 98,185 124,228 151,907 176,010 212,028 249,781 265,086 247,667 261,312 1,077.6 1,185.9 1,326.4 1,434.2 1,549.2 1,718.0 1,918.3 2,163.9 2,417.8 2,631.7 2,957.8 3,069.3 3,304.8 121.3 125.3 133.1 147.7 161.2 170.5 181.5 195.4 217.4 246.8 272.4 289.1 298.4

Nguồn: Economic Report of the President, 1985 Số liệu nhập từ bảng B-98 (trang 344), GNP từ bảng B-1 (trang 232) CPI từ bảng B-52 (trang 291)

Bạn xem mơ hình sau:

ln Nhập khẩut = 1 + 2 ln GNPt + 3 ln CPIt + ui (a) Ước lượng thơng số mơ hình này, sử dụng số liệu cho bảng (b) Bạn có nghi ngờ có đa cộng tuyến số liệu hay không?

(c) Kiểm tra chất cộng tuyến, sử dụng số điều kiện (d) Lập hàm hồi qui: (1) ln Nhập khẩut = A1 + A2 ln GNPt

(2) ln Nhập khẩut = B1 + B2 ln CPIt (3) ln GNPt = C1 + C2 ln CPIt

Dựa vào hàm hồi qui này, bạn nói chất đa cộng tuyến số liệu?

(e) Giả sử có đa cộng tuyến số liệu ^2 ^3 có ý nghĩa riêng biệt mức ý nghĩa 5% kiểm định F tồn diện có ý nghĩa Trong trường hợp có nên quan tâm vấn đề cộng tuyến hay không?

10.27 Liên quan đến tập 7.23 hàm nhu cầu gà Mỹ

(a) Sử dụng mơ hình logarit tuyến tính, logarit kép (double-log), để ước lượng hàm hồi qui phụ trợ khác Có hàm này?

(b) Từ hàm hồi qui phụ trợ này, bạn định xem hàm hồi qui cộng tuyến cao cách nào? Bạn sử dụng kiểm định gì? Trình bày chi tiết tính tốn bạn

(c) Nếu có cộng tuyến cao số liệu, biến bạn bỏ để giảm mức độ trầm trọng vấn đề cộng tuyến? Nếu bạn làm vậy, bạn gặp phải vấn đề kinh tế lượng gì?

(d) Bạn có đề nghị khác cách bỏ số biến để giảm bớt vấn đề cộng tuyến? Giải thích

10.28 Bảng kèm theo trình bày số liệu loại xe chở khách bán Mỹ hàm

của nhiều biến

(a) Xây dựng mô hình tuyến tính logarit tuyến tính để ước lượng hàm cầu xe ô tô Mỹ

(b) Nếu bạn định chọn tất biến hồi qui độc lập cho bảng làm biến giải thích, bạn có nghĩ gặp phải vấn đề đa cộng tuyến không? Tại sao?

(38)

Năm Y X2 X3 X4 X5 X6 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 10,227 10,872 11,350 8,775 7,539 9,994 11,046 11,194 10,559 8,979 8,535 4,980 9,179 10,394 11,039 11,450 112.0 111.0 111.1 117.5 127.6 135.7 142.9 153.8 166.0 179.3 190.2 197.6 202.6 208.5 215.2 224.4 121.3 125.3 133.1 147.7 161.2 170.5 181.5 195.3 217.7 247.0 272.3 286.6 297.4 307.6 318.5 323.4 776.8 839.6 949.8 1,038.4 1,142.8 1,252.6 1,379.3 1,551.2 1,729.3 1,918.0 2,127.6 2,261.4 2,428.1 2,670.6 2,841.1 3,002.1 4.89 4.55 7.38 8.61 6.16 5.22 5.50 7.78 10.25 11.28 13.73 11.20 8.69 9.65 7.75 6.31 79,367 82,153 85,064 86,784 85,846 88,752 92,017 96,048 98,824 99,303 100,397 99,526 100,834 105,005 107,150 109,597

Y = Xe chở khách bán (hàng ngàn), không điều chỉnh theo mùa X2 = Xe mới, Chỉ số giá tiêu dùng,1967 = 100, không điều chỉnh theo mùa

X3 = Chỉ số giá tiêu dùng, mục, người tiêu dùng thành thị, 1967 = 100,

không điều chỉnh theo mùa

X4 = thu nhập cá nhân chi tiêu (PDI), tỉ đô-la, không điều chỉnh theo mùa

X6 = lực lượng lao động thị có nghề nghiệp (hàng ngàn), không điều

chỉnh theo mùa

Ngày đăng: 08/04/2021, 18:52

Tài liệu cùng người dùng

Tài liệu liên quan