LỜI CẢM ƠNBản ti u luân được hoàn thành trên cơ sở đóng góp của các thành viên với vốn kiến thức được đúc kết ra từ quá trình học và nghiên cứu môn Thống Kê -ng D/ng.. Đây cũng là một cơ
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN KINH TẾ VÀ QUẢN LÝ
~~~~~~*~~~~~~
BÀI TIỂU LUẬN HỌC PHẦN: THỐNG KÊ ỨNG DỤNG CASE 2: PREDICTING WINNINGS FOR NASCAR DRIVERS
Giảng viên hướng dẫn: Hà Thị Thư Trang
Nhóm sinh viên thực hiện: nhóm 11
HÀ NỘI – 07/2022
Trang 2LỜI CẢM ƠN Bản ti u luân được hoàn thành trên cơ sở đóng góp của các thành viên với vốn kiến thức được đúc kết ra từ quá trình học và nghiên cứu môn Thống
Kê -ng D/ng Đây cũng là một cơ hội thực hành khiến chúng em có th hi u rõ hơn về các phân tích và ki m định đặc trưng có liên quan, áp d/ng kiến thức trên giảng đường đ làm quen và rút ra được nhưng kết luân bổ ích về những hiện tượng trong những mối tương quan khác nhau và sự ảnh hưởng lẫn nhau giữa các nhân tố Chúng em xin gửi lời cảm ơn sâu sắc tới cô Hà Thị Thư Trang, Viện Kinh tế và Quản lý, Trường Đại học Bách khoa Hà Nội đã đồng hành cùng chúng em suốt quá trình nghiên cứu và học tâp, cảm ơn cô đã tân tình giảng dạy
và truyền th/ kiến thức, kinh nghiệm cũng như phong cách trình bày, đ chúng
em có thêm những bài học quý báu
Do vốn kiến thức và kĩ năng còn hạn chế nên chắc hẳn bản báo cáo này không th tránh khỏi sai sót, chúng em rất mong nhân được sự góp ý động viên của cô đ chúng em có th hoàn thiện hơn, áp d/ng tốt hơn trong các công việc sau này
Chúng em xin chân thành cảm ơn Cô
Trang 3ĐÓNG GÓP CỦA CÁC THÀNH VIÊN
1 Thực hiện thống kê mô tả các biến: Nguyễn Thị Hương Giang
2 Phân tích các câu hỏi gợi ý trong Case Problems: Lại Thế Việt, Phạm Văn Hoan, Đặng Ngọc Chính
3 Ph_n ước lượng mô hình hồi quy bội: Cả nhóm
4 Tổng kết nội dung, trình bày: Phùng Kim Thu
5 Thực hiện Slide thuyết trình: Phùng Kim Thu
2
Trang 4MỤC LỤC
I ĐẶT VẤN ĐỀ 4
II PHÂN TÍCH 6
1.Thống kê mô tả các biến: 6
1.1 Tóm tắt dữ liệu: 6
1.2 Bảng tần số và đồ thị của dữ liệu: 6
2 Phân tích theo các câu hỏi được gợi ý trong Case-Problems 11
a Câu 1: 11
b Câu 2: 14
c Câu 3: 16
d Câu 4: 19
Trang 5I ĐẶT VẤN ĐỀ
1 Đề bài:
Matt Kenseth đã thắng được cuộc đua Daytona 500 mùa giải 2012, cuộc đua quan trọng nhất của mùa giải NASCAR Chiến thắng của anh ấy không có gì ngạc nhiên vì trong mùa giải 2011, anh ấy đứng thứ 4 trong bảng xếp hạng đi m với 2330 đi m, sau Tony Stewart (2403 đi m), Carl Edwards (2403 đi m) và Kevin Harvick (2345 đi m) Năm 2011, anh kiếm được 6.183.580 đô la khi thắng ba Ba Lan (tay đua nhanh nhất vòng loại), chiến thắng ba cuộc đua, về đích ở top 5 với 12times và về đích ở top 10 với 20times Hệ thống tính đi m của NASCAR năm 2011 đã phân bổ 43 đi m cho tay đua về đích đ_u tiên, 42
đi m cho tay đua về thứ hai, và cứ thế giảm xuống 1 đi m cho tay đua về đích ở
vị trí thứ 43 Ngoài ra, bất kỳ tay đua nào dẫn đ_u vòng đua nhận được 1 đi m thưởng, tay đua dẫn đ_u vòng đua nhiều nhất nhận được thêm đi m thưởng và người chiến thắng cuộc đua được thưởng 3 đi m thưởng Tuy nhiên, số đi m tối
đa mà một tay đua có th kiếm được trong bất kỳ cuộc đua nào là 48 Bảng 1
hi n thị dữ liệu của mùa giải 2011 cho 35 tay đua hàng đ_u (trích: trang web NASCAR 28 tháng 2 năm 2011)
4
Trang 6Driver Points Poles Wins Top 5 Top 10 Winnings
($)
Carl Edwards 2403 3 1 19 26 8,485,990 Kevin Harvick 2345 0 4 9 19 6,197,140 Matt Kenseth 2330 3 3 12 20 6,183,580 Brad
Jimmie Johnson 2304 0 2 14 21 6,296,360 Dale Earnhardt
A.J
Martin Truex Jr 937 1 0 3 12 3,955,560 Marcos
Jamie
David
David Gilliland 572 0 0 1 2 3,878,390
Bảng 1: Dữ liệu mùa giải 2011 cho 35 tay đua hàng đầu
II PHÂN TÍCH
Trang 71 Thống kê mô tả các biến:
1.1.Tóm tắt dữ liệu:
1.2 Bảng tần số và đồ thị của dữ liệu:
1.2.1 Điểm số (Points)
0-7 0-7 7-14 7-14 14-21 14-21 21-26 21-26
0
2
4
6
8
10
12
14
0% 20% 40% 60% 80% 100%
120%
12
10 11
2
0 34%
63%
94% 100%
0%
Histogram
Trang 8Nhận xét: Đi m (Points) chủ yếu tập trung trong khoảng từ 745-1298 và từ 1851-2403, khá cao
- Giá trị trung bình: 1304,2
- Độ lệch chuẩn: 766,6
- Biến thiên từ 192 đến 2403
I.2.2 Số lần thắng Pole (Poles)
Trang 9Nhận xét: H_u hết các tay đua đều không giành được pole, một số giành được pole 1 l_n và số ít người được 2, 3 l_n pole
- Giá trị trung bình: 0,94
- Độ lệch chuẩn: 1,1099
- Biến thiên từ 0 đến 3
I.2.3 Số lần thắng (Wins) :
8
Trang 10Nhận xét: H_u hết số l_n thắng của các tay đua là 0.
- Giá trị trung bình: 1
- Độ lệch chuẩn: 1,4
- Biến thiên từ 0 đến 5
I.2.4 Số lần trong top 5 (Top 5):
Trang 11Nhận xét: Ph_n lớn các tay đua nằm trong Top 5 từ 0-5 l_n.
- Giá trị trung bình: 5,11
- Độ lệch chuẩn: 4,86
- Biến thiên từ 0 đến 20
I.2.5 Số lần trong Top 10 (Top 10):
Nhận xét: Số l_n đạt trong Top 10 phân bổ khá đều trong khoảng từ 0-21 l_n, riêng khoảng từ 21-26 l_n đạt Top 10 chỉ có 2 người chiếm 6% Độ tin cây được
dự đoán chủ yếu là Tốt và Rất Tốt
- Giá trị trung bình: 10,23
- Độ lệch chuẩn: 7,15
- Biến thiên từ 0 đến 26
2 Phân tích theo các câu hỏi được gợi ý trong Case-Problems
Phân tích hồi quy
10
Trang 12Giả sử:
- là biến ph/ thuộc Winnings
- X1, X , X , X l_n lượt là các biến độc lập Poles, Wins, Top 5, Top 10.2 3 4
a Câu 1:
- Phương trình hồi quy:
biến động của biến ph/ thuộc
Trang 13- Phương trình hồi quy:
= 4093477.71 + 612032.5758xX2
biến động của biến ph/ thuộc
- Sự ảnh hưởng của biến độc lập X3 đến biến ph/ thuộc
- Phương trình hồi quy:
= 3537775.2411 + 228328.0814xX3
12
Trang 14- Với R Square = 0.7416 ➪ Biến độc lập X3 giải thích được 74.16% sự biến động của biến ph/ thuộc
Sự ảnh hưởng của biến độc lập X3 đến biến ph/ thuộc
- Phương trình hồi quy:
= 3049156.661 + 161934.0136xX4
- Với R Square = 0.8060 -> Biến độc lập X4 giải thích được 80.60% sự biến động của biến ph/ thuộc
Vậy, do Biến độc lập X4 (Top 10) có R Square lớn nhất và P-value của biến X4 << 0.05 nên ta có th kết luận biến X4 dự đoán chiến thắng tốt nhất trong 4 biến
b Câu 2:
Trang 15- Phương trình hồi quy:
- Từ phương trình hồi quy ta có th đưa ra kết luận:
+ X1 cứ tăng 1 thì giảm trung bình 12938.9208 và ngược lại
+ X2 cứ tăng 1 thì tăng trung bình 13544.8127 và ngược lại
+ X3 cứ tăng 1 thì tăng trung bình 71629.3933 và ngược lại
+ X4 cứ tăng 1 thì tăng trung bình 117070.5768 và ngược lại
- R Square = 0.8205 => cho thấy 82,05% biến thiên của biến ph/ thuộc Winnings có th được giải thích bởi mối liên hệ tuyến tính giữa các biến ph/c thuộc Winnings với 4 biến độc lập Poles, Wins, Top5, Top10
- Adjusted R Square = 0.7966 => cho thấy 79.66% sự biến thiên của biến ph/ thuộc có th giải thích bởi mô hình hồi quy bội
Đánh giá ý nghĩa toàn diện mô hình
- H0: R = 02
- H1: R ≠ 02
- F = MSR/MSE = 11586832038700.5/ 338005258749.844 = 34.28
- Với mức ý nghĩa là =0,05 và n=35, k=4
(; = (;0,05) = 2,69
14
Trang 16F > (;
Wins, Top 5, Top 10 có th giải thích một cách có ý nghĩa cho biến thiên của biến ph/ thuộc Winnings
Đánh giá ý nghĩa của từng biến độc lập riêng biệt
Biến X (Pole)1
- H0: �1 = 0
- H1: �1 ≠ 0
- t(n-k-1, α/2) = 2.042
- t1 = (b – 0)/(S(b )) = -12938.9208/107205.0751 = -0.121 1
- |t1| < t(n-k-1, α/2) => chấp nhận giả thuyết H0
Biến X (Wins)2
- H0: �2 = 0
- H1: �2 ≠ 0
- t(n-k-1, α/2) = 2.042
- t2 = (b – 0)/(S(b )) = 13544.8127/111226.2163 = 0.122 2
- |t2| < t(n-k-1, α/2) => chấp nhận giả thuyết H0
Biến X (Top 5)3
- H0: �3 = 0
- H1: �3 ≠ 0
- t(n-k-1, α/2) = 2.042
- t3 = (b – 0)/(S(b )) = 71629.3933/50666.8677 = 1.413 3
- |t3| < t(n-k-1, α/2) => chấp nhận giả thuyết H0
Biến X (Top 10)4
- H0: �4 = 0
- H1: �4 ≠ 0
- t(n-k-1, α/2) = 2.042
- t4 = (b – 0)/(S(b )) = 117070.5768/33432.8838 = 3.54 4
Trang 17- |t4| > t(n-k-1, α/2) => bác bỏ giả thuyết H0
Biến X có ý nghĩa giải thích cho Winnings.4
c Câu 3:
Giả sử:
- là biến ph/ thuộc Winnings
- X1, X , X , X l_n lượt là các biến độc lập Poles, Wins, Top 2-5, Top 6-102 3 4
16
Trang 18- Phương trình hồi quy:
- Từ phương trình hồi quy ta có th đưa ra kết luận:
- R Square = 0.8205 => cho thấy 82,05% biến thiên của biến ph/ thuộc Winnings có th được giải thích bởi mối liên hệ tuyến tính giữa các biến ph/c thuộc Winnings với 4 biến độc lập Poles, Wins, Top 2-5, Top 6-10
- Adjusted R Square = 0.7966 => cho thấy 79.66% sự biến thiên của biến ph/ thuộc có th giải thích bởi mô hình hồi quy bội
Trang 19Đánh giá ý nghĩa toàn diện mô hình
- H0: R2 = 0
- H1: R2 ≠ 0
- F = MSR/MSE = 11586832038700.5/ 338005258749.844 = 34.28
- Với mức ý nghĩa là =0,05 và n=35, k =4
=> (; = (;0,05) = 2,69
=> F > (; => bác bỏ giả thuyết H0
=> Mô hình hồi quy bội với các biến độc lập Poles, Wins, Top 2-5, Top 6-10 có th giải thích một cách có ý nghĩa cho biến thiên của biến ph/ thuộc Winnings
Đánh giá ý nghĩa của từng biến độc lập riêng biệt
Biến X (Pole)1
- H0: �1 = 0
- H1: �1 ≠ 0
- t(n-k-1, α/2) = 2.042
- t1 = (b – 0)/(S(b )) = -12938.9208/107205.0751 = -0.121 1
- |t1| < t(n-k-1, α/2) => chấp nhận giả thuyết H0
=> biến X không có ý nghĩa giải thích cho Winnings.1
Biến X (Wins)2
- H0: �2 = 0
- H1: �2 ≠ 0
- t(n-k-1, α/2) = 2.042
- t2 = (b – 0)/(S(b )) = 202244.7828/90225.8683 = 2.242 2
- |t2| > t(n-k-1, α/2) => bác bỏ giả thuyết H0
=> biến X có ý nghĩa giải thích cho Winnings.1
Biến X (Top 2-5)3
- H0: �3 = 0
- H1: �3 ≠ 0
- t(n-k-1, α/2) = 2.042
- t3 = (b – 0)/(S(b )) = 188699.9701/34586.3223 = 5.453 3
- |t3| > t(n-k-1, α/2) => bác bỏ giả thuyết H0
=> biến X có ý nghĩa giải thích cho Winnings.3
Biến X (Top 6-10)4
- H0: �4 = 0
- H1: �4 ≠ 0
- t(n-k-1, α/2) = 2.042
- t4 = (b – 0)/(S(b )) = 117070.5768/33432.8838 = 3.54 4
- |t4| > t(n-k-1, α/2) => bác bỏ giả thuyết H0
=> biến X có ý nghĩa giải thích cho Winnings.4
18
Trang 20d Câu 4:
Vậy ta thấy mô hình hồi quy ở câu 3 có 3 biến độc lập có ý nghĩa giải thích cho Winnings trong khi mô hình hồi quy ban đ_u chỉ có duy nhất 1 biến độc lập
có ý nghĩa giải thích cho Winnings, do đó nên chọn mô hình hồi quy ở câu 3 đ
dự đoán cho biến ph/ Winnings