tham khao
BÀI TẬP 2 (Problem Set 2) HỒI QUY ĐƠN BIẾN Hạn nộp: Lớp trưởng tập trung bài các bạn, sắp xếp bài theo thứ tự A, B, C… trong danh sách lớp và nộp một lần cho cô theo đúng quy định. Lưu ý: Trễ hạn nộp không nhận bài. A. Phần lý thuyết I. CÁC CÂU HỎI TỰ LUẬN Câu 1. Ước lượng LS cho kết quả: xy ⋅+= 2 ^ 1 ˆ ββ ; ∑ ∑ − −− = n n n nn xx yyxx 2 2 )( ))(( ˆ β . a. Hãy chỉ ra rằng, điểm ),( yx nằm trên đường hồi quy b. Giả sử 0 ^ 2 > β . Hãy dùng đồ thị, chứng minh rằng, nếu n x tăng so với trung bình mẫu x , thì n y cũng tăng so với trung bình mẫu − y . Câu 2. Hãy chỉ ra rằng, phương pháp ước lượng LS là nhằm làm cực đại độ phù hợp 2 R . Câu 3. Chúng ta gọi β ˆ là ước lượng không chệch, nếu ββ = ˆ E . Hãy nói rõ giả thiết nào cần phải sử dụng để chứng minh ước lượng LS, β ˆ , là ước lượng không chệch. Câu 4. Tại sao có thể nói β ˆ Var là trung bình (kỳ vọng) của bình phương sai số ước lượng. Và nói rõ xem β ˆ Var lớn hay nhỏ thì là tốt? Nêu giả thuyết cơ bản nào em cần dung để chứng minh XX S Var 2 ˆ σ β = Câu 5. Tại sao sai số chuẩn (standard error) )( ^ β se tăng, thì khoảng tin cậy 90% (90% confidence interval) cũng tăng? Điều đó là tốt hơn hay tồi hơn, nếu )( ^ β se giảm. Câu 6. Giả sử ta cần kiểm định giả thuyết bH = β : 0 .vs. bH ≠ β : 1 . Chúng ta bác bỏ giả thuyết đó, ( 0 RH ), nếu )2( )( || 2 ^ ^ 0 −≥ − = Nt se b t λ β β , và chúng ta sẽ không bác bỏ ( 0 DNRH ), nếu )2( )( 2 ^ ^ −≤ − Nt se b λ β β . Nếu chúng ta tăng mức độ có ý nghĩa λ từ 5% lên 10%, thì sẽ làm khả năng bác bỏ giả thuyết giả thuyết bH = β : 0 tăng lên hay giảm đi? II. CÁC CÂU HỎI TRẮC NGHIỆM (có giải thích) Câu 1. Hãy xét các mệnh đề sau: (i) n n n eyy += ^ (ii) n n n eyyyy +−=− −− ^ )( . (a) Mệnh đề (ii) suy ra từ mệnh đề (i) (b) Mệnh đề (i) suy ra từ mệnh đề (ii) (c) Hai mệnh đề này không liên quan gì tới nhau (d) Hai mệnh đề này là tương đương nhau Câu 2. Mô hình hồi quy đơn có dạng: ,3,2,1, Nnxy nnn =++= εβα Ước lượng LS: nn xy βα ˆ ˆ ^ += và sai số ước lượng: nnn yye ˆ −= . Trong các phương trình dưới đây, phương trình nào là đúng? a. 0 = ∑ n n e b. 0 = ∑ n n n xe c. 0 = ∑ n n ε d. 0 = ∑ n n n x ε Câu 3. Với giả thuyết ở câu 2. Xét các mệnh đề sau: (i) Việc giải: 0 ˆ ) ˆ , ˆ ( = ∂ ∂ α βα S dẫn đến cái điều là ∑ = 0 n e . (ii) Điều kiện ∑ = 0 n e bao hàm cái điều là đường hồi quy đi quan điểm trung bình: ),( yx . (a) Chỉ có mệnh đề (i) là đúng (b) Chỉ có mệnh đề (ii) là đúng (c) Cả hai mệnh đề (i) và (ii) đều đúng Câu 4. Trong các phương trình dưới đây, phương trình nào là đúng? a. 0 = n E ε b. 0 2 = n E ε c. 22 σε = n E Giả thuyết sau dùng cho câu 5 và câu 6: Mô hình hồi quy đơn có dạng: ,3,2,1, 21 Nnxy nnn =++= εββ Ước lượng LS: nn xy 2 ^ 1 ˆ ˆ ββ += và sai số ước lượng: nnn yye ˆ −= . Cho các điều kiện sau: (i): ∑ = n n e 0 (ii) : 0 = ∑ n nn xe . (iii) Điểm ),( yx nằm trên đường hồi quy; (iv): ∑ ∑ − −− = n n n nn xx yyxx 2 2 )( ))(( ˆ β . Câu 5. (a) Mệnh đề (i) là được suy ra từ mệnh đề (ii) (b) Mệnh đề (ii) suy ra được từ mệnh đề (iii) (c) Mệnh đề (iii) được suy ra từ mệnh đề (iv) (d) Mệnh đề (i) suy ra mệnh đề (iii) Câu 6. (a) Mệnh đề (i) là tương đương với lượng: ∑ = n n 0 ε . (b) Mệnh đề (ii) là tương đương với: ∑ = n nn x 0 ε . (c) Mệnh đề (iii) đúng khi hàm hồi quy có dạng: ,3,2,1, 2 Nnxy nnn =+= εβ (d) Mệnh đề (iii) chỉ đúng khi hồi quy có dạng: ., .,1, 21 Nnxy nnn =++= εββ Câu 7. Xét quan hệ sau (i) : 22 ^ 2 )()( n n n n n n eyyyy ∑∑∑ +−=− −− . (ii) Quan hệ này được sử dụng để xác định hệ số 2 R (a) Chỉ có mệnh đề (i) đúng (b) Chỉ có mệnh đề (ii) đúng (c) Cả hai mệnh đề đều đúng (d) Cả hai mệnh đề đều sai. B. Phần bài toán I. MỘT SỐ BÀI TOÁN TỰ LUẬN Bài 1. Bảng 1 cho biết tỉ lệ bỏ việc trên 100 người làm việc ( t y ) và tỉ lệ thất nghiệp ( t x ) trong lĩnh vực chế tạo công nghiệp ở Mỹ trong giai đoạn 1960-1972. a. Hãy vẽ đồ thị phân bố rãi (scatter diagram) của hai tỉ lệ trên b. Gỉa sử tỉ lệ bỏ việc có quan hệ tuyến tính với tỉ lệ thất nghiệp như sau: ,3,2,1, 21 Ttxy ttt =++= εββ . Hãy ước lượng β 1 , β 2 , và độ lệch chuẩn của chúng. c. Hãy tính R 2 . d. Hãy giải thích (diễn giãi) các kết qủa của bạn. e. Hãy vẽ đồ thị của đại lượng sai số ttt yye ˆ −= . Em có thể nhận biết được điều gì từ những sai số này. Bài 2. Bảng 2 cho ta dữ liệu về giá vàng (GP), Chỉ số giá tiêu dùng (CPI), và Chỉ số chứng khoán trên thị trường chứng khoán New York (NYSE) trong thời kỳ 1977-1991 ở Mỹ. a. Hãy vẽ đồ thị phân bố rãi của GP với CPI và của NYSE với CPI trên cùng một đồ thị. b. Một quyết định đầu tư (mua vàng hay mua chứng khoán) có tính tới việc phòng ngừa lạm phát là nếu giá của nó (hàng hóa mà bạn đầu tư vào) và/hay suất sinh lợi của nó ít nhất là bắt kịp với tỉ lệ lạm phát. Để kiểm tra giả thiết này, giả sử bạn quyết định xây dựng hai mô hình sau đây, giả sử rằng đồ thị trong câu (a) gợi ý cho bạn thấy sau đây là thích hợp: GPt = α 1 + α 2 CPIt + ut NYSEt = β 1 + β 2 CPIt + ut Giả thiết của bạn có đúng không, nếu đúng thì giá trị mà bạn mong đợi của β 2 là bao nhiêu. c. Công cụ tài chính nào phòng chống lạm phát tốt hơn, vàng hay chứng khoán. Bài 3. Trong kinh tế học vĩ mô, có hai lý thuyết khác nhau liên quan đến hành vi tiêu dùng của dân chúng. Theo Keynes, tổng tiêu dùng (CONS) sẽ phụ thuộc vào tổng thu nhập (khả dụng) (YD). Trong khi đó, các nhà kinh tế học cổ điển tin rằng tiêu dùng có quan hệ nghịch biến với lãi suất (RR) trong nền kinh tế. Sử dụng số liệu trong Bảng 3 (dữ liệu từ năm 1955-1986). a. Hãy xây dựng các mô hình kinh tế cho mỗi giả thiết trên. b. Ước lượng các thông số cho mỗi mô hình. c. Dựa trên các kết quả kinh tế lượng của bạn, bạn có nhận xét gì về giá trị của hai giả thiết trên. Bài 4. Bảng 4 cho ta dữ liệu về mức tăng dân số và mức tăng GNP bình quân đầu người của Mỹ từ năm 1959 đến 1994. a. Ước lượng các thông số α ˆ và β ˆ cho mô hình GNP t = α ˆ + β ˆ POP t + e t . b. Vẽ đồ thị phân bố rãi (scatter diagram). Nhận xét về đám mây dữ liệu. Tính toán R 2 . Nếu chỉ xét dựa theo R 2 , hãy cho nhận xét về chất lượng mô hình. c. Tính toán độ lệch chuẩn (standard error) tương ứng với α ˆ và β ˆ . d. Dựa vào kiểm định t, hãy nhận xét về chất lượng của biến giải thích POP. e. Tính toán khoảng tin cậy 95% của β. Bài 5. Một công ty bảo hiểm muốn kiểm tra mối quan hệ giữa bảo hiểm nhân thọ (INSUR) với thu nhập gia đình (INC). Từ việc chọn mẫu của 20 gia đình, công ty có số liệu quan sát như sau: obs INSUR INC 1 90.00000 25.00000 2 165.0000 40.00000 3 220.0000 60.00000 4 145.0000 30.00000 5 114.0000 29.00000 6 175.0000 41.00000 7 145.0000 37.00000 8 192.0000 46.00000 9 395.0000 105.0000 10 339.0000 81.00000 11 230.0000 57.00000 12 262.0000 72.00000 13 570.0000 140.0000 14 100.0000 23.00000 15 210.0000 55.00000 16 243.0000 58.00000 17 335.0000 87.00000 18 299.0000 72.00000 19 305.0000 80.00000 20 205.0000 48.00000 1. Ước Lượng mối quan hệ giữa bảo hiểm nhân thọ (INSUR) và thu nhập gia đình (INC). 2. Đánh giá mối quan hệ đã ước lượng, cụ hể là: a. Nếu thu nhập tăng thêm 1000 USD thì bảo hiểm nhân thọ sẽ tăng lên bao nhiêu? b. Độ lệch chuẩn (standard error, (se)) của ước lượng là bao nhiêu. Và làm thế nào để sử dụng se để ước lượng khoảng tin cậy (confidence interval, (ci)) và kiểm định mức độ có ý nghĩa của biến giải thích. c. Nếu một thành viên ban quản lý tuyên bố ràng, cứ mỗi 1000 USD tăng lên về thu nhập sẽ làm tăng bảo hiểm nhân thọ lên 5000 USD. Liệu kết quả ước lượng của bạn có hỗ trợ cho lời tuyên bố này với mức ý nghĩa 5% (5% significance level)? 3. Dự đóan mức bảo hiểm nhân thọ cho hộ gia đình có thu nhập là 100 nghìn USD. Bài 6. Một đồ thị phân bố rãi thể hiện mối quan hệ giữa một biến phụ thuộc Y theo biến độc lập X như được trình bày bên dưới (X nằm trên trục hoành, Y nằm trên trục tung). Theo bạn, liệu các nhà phân tích có yên tâm khi họ tính toán ra hệ số bằng 1 không? Giải thích. Bài 7. Hội Sinh viên của một trường Đại học tại Mỹ mở một cuộc điều tra ngẫu nhiên 427 sinh viên của trường để hiểu thêm về mối quan hệ giữa điểm trung bình tích lũy đại học (COLGPA), lần lượt với điểm trung bình cuối năm phổ thông (HSGPA), điểm kiểm tra kỹ năng học tập (VSAT) và điểm kiểm tra toán trong kỳ thi SAT (MSAT). Hội Sinh viên này chạy hồi qui ra được 3 mô hình hồi qui đơn biến như sau (số trong ngoặc là standard error): COLGPA = 0.92058 + 0.52417 HSGPA + e R 2 = 0.165 (0.20463) (0.05712) COLGPA = 1.99740 + 0.00157 HSGPA + e R 2 = 0.070 (0.20463) (0.05712) COLGPA = 1.62845 + 0.00204 HSGPA + e R 2 = 0.124 (0.15135) (0.00026) a. Nhận xét ý nghĩa kinh tế của từng mô hình trong 3 mô hình trên b. Ý nghĩa của hệ số . Dựa trên hệ số xác định, mô hình nào là tốt nhất. c. Hãy tính giá trị t stat của các biến độc lập tương ứng với từng mô hình trong 03 mô hình trên với mức ý nghĩa 5%. Nhận xét về ý nghĩa của các biến giải thích trong từng mô hình. Cho biết mô hình nào là tốt nhất theo R 2 và t stat . d. Hãy tính giá trị tstat của các biến độc lập tương ứng với từng mô hình trong 03 mô hình trên với mức ý nghĩa 1%. Nhận xét về ý nghĩa của các biến giải thích trong từng mô hình. Nhận xét về ý nghĩa của các biến giải thích trong từng mô hình. Cho biết mô hình nào là tốt nhất theo R 2 và t stat . Bài 8. Giả sử chúng ta nghiên cứu mối quan hệ giữa chi tiêu cho nghiên cứu và phát triển (ký hiệu là DR & , tính bằng tỷ dollars, giá cố định 1992) với số lượng bằng sáng chế phát minh (ký hiệu là PATTENTS , tình bằng số lượng nghìn), tại Mỹ từ năm 1960 -1993. Tức là có 34 = N quan sát. Dưới đây là bảng báo cáo kết quả hồi quy )79.13()44.5( &792.0571.34 DRPATENTS += 3.399434859.0 2 === ESSNR 1. Nếu thu chi tiêu cho nghiên cứu phát triển DR & tăng thêm lên 1 tỷ dollars, thì số lượng bằng phát minh sáng chế sẽ tăng lên bao nhiêu? 2. Cho trước 042.2]32[ 025.0 = t . Hãy tìm khoảng tin cậy của hệ số β của tổng thể. 3. Hãy tìm khoảng tin cậy của hệ số α của tổng thể. 4. Nếu phương sai mẫu XX S giảm đi, thì hiệu quả ước lượng tăng hay giảm? 5. Một nhà báo nói rằng, cứ 1 tỷ dollars chi tiêu cho nghiên cứu phát triển DR & , thì sẽ làm tăng số lượng bằng phát minh sáng chế lên vào khoảng 500. Hãy kiểm định lại nhận định đó với mức độ có ý nghĩa là 10%, tức là sử dụng 679.1]32[ 05.0 = t . Bài 9. Giả sử chúng ta nghiên cứu mối quan hệ giữa thuế thu nhập (ký hiệu là TAX ), với tổng thu nhập của dân cư tại từng bang của Mỹ (ký hiệu là INCOME ), cả hai đại lượng được tính bằng tỷ dollars. Số liệu thu thập tại 51 tiểu bang. Dưới đây là bảng báo cáo kết quả hồi quy )0001.0()087.0( 142.0221.0 INCOMETAX +−= 663.3351997.0 2 === ESSNR 1. Liệu các dấu đi kèm với các hệ số ước lượng có phù họp với kỳ vọng của các em về những dấu đó không? Tại sao? 2. Các em diễn giải kết quả ước lượng này như thế nào? Khi thu nhập của một bang tăng thêm 1 tỷ dollars, thì thu thuế của chính phủ tăng bao nhiêu? 3. Cho trước 000.2]49[ 025.0 = t . Hãy tìm khoảng tin cậy của hệ số β của tổng thể. 4. Hãy tìm khoảng tin cậy của hệ số α của tổng thể. 5. Một nhà báo nói rằng, tổng thu nhập của từng bang ít có ý nghĩa giải thích cho số lượng thu thuế của bang đó. Hãy kiểm định lại nhận định đó với mức độ có ý nghĩa là 5%, tức là sử dụng 000.2]49[ 025.0 =t . II. MỘT SỐ BÀI TOÁN TRẮC NGHIỆM Bài 1. Một công ty bảo hiểm muốn đanh giá mối quan hệ giữa khoản ma bảo hiểm nhân thọ (INSUR, đo bằng 1000USD) của một gia đình, với thu nhập của gia đình đó (INC, đo bằng 1000USD). Từ số mẫu 20 quan sát mà họ đã thu thập được, ta có bảng dữ liệu đã cho trong bài 2.2 của bài tập 1 (PS1) tại lớp. Câu hỏi 1: Cơ sở lý luận cho việc lập hàm tương quan ước lượng này là: (e) Khả năng xẩy ra rủi ro (f) Số thu nhập bằng tiền bị mất đi, nếu rủi ro xẩy ra (g) Tâm lý sợ rủi ro của khách hàng mua bảo hiểm (h) Cả 3 yếu tố nêu trên Câu hỏi 2: Giả sử nhóm nghiên cứu thị trường của cty đề xuất mô hình về nhu cầu mua bảo hiểm có dạng như sau: .20 .,3,2,1, 21 =++= tINCINSUR ttt εββ Bảng kết quả ước lượng (như các em đã làm) được ghi lại như sau: Dependent Variable: INSUR Method: Least Squares Date: 03/31/09 Time: 10:00 Sample: 1 20 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C 6.854991 7.383473 0.928424 0.3655 INC 3.880186 0.112125 34.60601 0.0000 R-squared 0.985192 Mean dependent var 236.9500 Adjusted R-squared 0.984370 S.D. dependent var 114.8383 S.E. of regression 14.35730 Akaike info criterion 8.261033 Sum squared resid 3710.375 Schwarz criterion 8.360606 Log likelihood -80.61033 F-statistic 1197.576 Durbin-Watson stat 3.175965 Prob(F-statistic) 0.000000 2.1 Theo kết quả ước lượng, nếu thu nhập tăng thêm 1000USD, thì nhu cầu mua bảo hiểm sẽ tăng lên là bao nhiêu? (a) 3.880USD (3 dollars 38 xu) (b) 6.854 + 3.88 (ngàn USD) (c) 3880 USD (d) Xấp xỉ 6.854 (ngàn USD) 2.2 Nếu thành viên M1 của ban quản lý tuyên bố ràng, cứ mỗi 1000 USD tăng lên về thu nhập sẽ làm tăng bảo hiểm nhân thọ lên 5.88 (ngàn USD). Thành viên M2 nói rằng việc tăng 1000USD không có ảnh hưởng gì tới nhu cầu mua bảo hiểm nhân thọ; và thành viên M3 lại nói, cứ 1000USD tăng về thu nhập thì làm tăng nhu câu mua bảo hiểm nhân họ lên 3.99 (ngànUSD). Liệu kết quả ước lượng nêu trên có hỗ trợ cho các lời tuyên bố này với mức ý nghĩa 5% (5% significance level)? Hãy viết tóm tắt kết quả kiểm định ở mức ý nghĩa 5%, với 101.2]18[ 025.0 = t và sau đó trả lời câu hỏi: (a) Cả 3 thành viên M1, M2, M3 đều đúng (b) Chỉ có thành viên M1 và M2đúng (c) Duy nhất có thành viên M3 là đúng (d) Duy nhất có thành viên M2 là đúng Câu hỏi 3:Ban giám đốc thấy rằng, kết quả nghiên cứu tị trường của nhóm có vấn đề ở chỗ hệ số quy 1 β là rất không có ý nghĩa (Tại sao?). Họ nghi vấn về cách lập phương rình hồi quy, và đề nghị nhóm làm lại mô hình như sau: .20 .,3,2,1,)log()log( 21 =++= tINCINSUR ttt εββ Kết quả ước lượng được đưa ra như sau: Dependent Variable: LOG(INSUR) Method: Least Squares Date: 03/31/09 Time: 09:31 Sample: 1 20 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C 1.558458 0.133324 11.68922 0.0000 LOG(INC) 0.958075 0.033334 28.74210 0.0000 R-squared 0.978676 Mean dependent var 5.363576 Adjusted R-squared 0.977491 S.D. dependent var 0.470107 S.E. of regression 0.070530 Akaike info criterion -2.370917 Sum squared resid 0.089541 Schwarz criterion -2.271344 Log likelihood 25.70917 F-statistic 826.1085 Durbin-Watson stat 2.775243 Prob(F-statistic) 0.000000