![bài tiểu luận thống kê ứng dụng predicting winnings for nascar drivers](https://123docz.net/image/doc_normal.png)
Đang tải... (xem toàn văn)
Thông tin tài liệu
Thực hi n thệ ống kê mô t ả các biến cùng nhau họp trên teams để làm : Ngô Anh Hùng, Nguyễn Đăng Khoa Đỗ Văn , An, Cấn Thụy An, Nguyễn Đình Long Vũ2.. Phân tích các câu hỏi gợi ý trong
Trang 11
ĐẠI HỌC BÁCH KHOA HÀ NỘI
Case 2: Predicting Winnings for NASCAR Drivers
Trang 22
ĐÓNG GÓP CỦA CÁC THÀNH VIÊN
1 Thực hi n thệ ống kê mô t ả các biến ( cùng nhau họp trên teams để làm ): Ngô Anh Hùng, Nguyễn Đăng Khoa Đỗ Văn , An, Cấn Thụy An, Nguyễn Đình Long Vũ
2 Phân tích các câu hỏi gợi ý trong Case Problems:
- Câu 1: Ngô Anh Hùng, Nguyễn Đăng Khoa, Đỗ Văn An, Cấn Thụy An, Nguyễn Đình Long Vũ - Câu 2: Ngô Anh Hùng, Nguyễn Đăng Khoa
- Câu 3: Ngô Anh Hùng, Nguyễn Đăng Khoa
- Câu 4: Ngô Anh Hùng, Nguyễn Đăng Khoa, Đỗ Văn An, Cấn Thụy An, Nguyễn Đình Long Vũ3 Tổng hợp, trình bày bài tiểu lu n: Ngô Anh Hùng ậ
Trang 33
MỤC LỤC
I Thống kê mô tả ề các biến nghiên c u quan tâm v ứ 4
Thống kê mô tả các biến 4
Trang 44 Thống kê mô t ả các biến
Descriptive Statistics
N Range Minimum Maximum Mean Std Deviation Variance Statistic Statistic Statistic Statistic Statistic Std Error Statistic Statistic Points 35 2211 192 2403 1304.20 129.574 766.568 587626.047 Poles 35 3 0 3 94 188 1.110 1.232 Wins 35 5 0 5 1.00 236 1.393 1.941 Top 2-5 35 18 0 18 4.11 671 3.969 15.751 Top 6-10 35 12 0 12 5.11 587 3.471 12.045 Top 5 35 19 0 19 5.11 822 4.861 23.634 Top 10 35 26 0 26 10.23 1.208 7.146 51.064 Winnings ($) 35 6214100 2271890 8485990 4705510.29 217872.613 1288951.762 1661396644626.
388 Valid N (listwise) 35
1 Điểm số ( Points )
Points
Frequency Percent Valid Percent
Cumulative Percent Valid 192 1 2.9 2.9 2.9
268 1 2.9 2.9 5.7 398 1 2.9 2.9 8.6 508 1 2.9 2.9 11.4 541 1 2.9 2.9 14.3 572 1 2.9 2.9 17.1 670 1 2.9 2.9 20.0 757 1 2.9 2.9 22.9 795 1 2.9 2.9 25.7 820 1 2.9 2.9 28.6 846 1 2.9 2.9 31.4 902 1 2.9 2.9 34.3 906 1 2.9 2.9 37.1 930 1 2.9 2.9 40.0 932 1 2.9 2.9 42.9 935 1 2.9 2.9 45.7 936 1 2.9 2.9 48.6
Trang 55
947 1 2.9 2.9 54.3 997 1 2.9 2.9 57.1 1013 1 2.9 2.9 60.0 1041 1 2.9 2.9 62.9 1047 1 2.9 2.9 65.7 2246 1 2.9 2.9 68.6 2262 1 2.9 2.9 71.4 2284 2 5.7 5.7 77.1 2287 1 2.9 2.9 80.0 2290 1 2.9 2.9 82.9 2304 1 2.9 2.9 85.7 2319 1 2.9 2.9 88.6 2330 1 2.9 2.9 91.4 2345 1 2.9 2.9 94.3 2403 2 5.7 5.7 100.0 Total 35 100.0 100.0
Nhận xét:
- Điểm số “Points”của các tuyển th ch yủ ủ ếu t p trung ậ ở khoảng từ 750-1000 và khoảng 2250-2500,- Giá trị trung bình: 1304,2
- Độ l ch chu n: 766,6 ệ ẩ
Trang 66 2 Poles
Poles
Frequency Percent Valid Percent
Cumulative Percent Valid 0 17 48.6 48.6 48.6
1 8 22.9 22.9 71.4 2 5 14.3 14.3 85.7 3 5 14.3 14.3 100.0 Total 35 100.0 100.0
Nhận xét:
- Biến “Poles” tập trung ở khoảng 0 có thể thấy đa phần tuyển thủ có số “Poles” là 1 lần, 2 l n ,3 lầ ần là không nhi u, ề- Giá trị trung bình: 0,94
- Độ l ch chuệ ẩn: 1,1099- Biến thiên từ 0 đến 3
Trang 77
Wins
Frequency Percent Valid Percent
Cumulative Percent Valid 0 18 51.4 51.4 51.4
1 9 25.7 25.7 77.1 2 2 5.7 5.7 82.9 3 3 8.6 8.6 91.4 4 2 5.7 5.7 97.1 5 1 2.9 2.9 100.0 Total 35 100.0 100.0
Nhận xét:
- Các tuyển th có s lủ ố ần thắng ch yủ ếu là 0.- Giá trị trung bình: 1
- Độ l ch chu n: 1,4 ệ ẩ- Biến thiên từ 0 đến 5
Trang 88
Top 5
Frequency Percent Valid Percent
Cumulative Percent Valid 0 4 11.4 11.4 11.4
1 5 14.3 14.3 25.7 2 5 14.3 14.3 40.0 3 3 8.6 8.6 48.6 4 5 14.3 14.3 62.9 5 2 5.7 5.7 68.6 8 2 5.7 5.7 74.3 9 3 8.6 8.6 82.9 10 1 2.9 2.9 85.7 12 1 2.9 2.9 88.6 13 1 2.9 2.9 91.4 14 2 5.7 5.7 97.1 19 1 2.9 2.9 100.0 Total 35 100.0 100.0
Nhận xét:
- Các tuyển th có s lủ ố ần đặt Top 5 tập trung khoảng 1-3 l n, ầ- Giá trị trung bình: 5,11,
- Độ l ch chu n: 4,86, ệ ẩ- Biến thiên từ 0 đến 20.
Trang 99 5 Top 10
Top 10
Frequency Percent Valid Percent
Cumulative Percent Valid 0 4 11.4 11.4 11.4
1 1 2.9 2.9 14.3 2 2 5.7 5.7 20.0 3 1 2.9 2.9 22.9 4 1 2.9 2.9 25.7 5 2 5.7 5.7 31.4 6 1 2.9 2.9 34.3 7 1 2.9 2.9 37.1 8 3 8.6 8.6 45.7 10 3 8.6 8.6 54.3 12 3 8.6 8.6 62.9 14 2 5.7 5.7 68.6 15 1 2.9 2.9 71.4 16 2 5.7 5.7 77.1 17 1 2.9 2.9 80.0 18 2 5.7 5.7 85.7 19 2 5.7 5.7 91.4 20 1 2.9 2.9 94.3 21 1 2.9 2.9 97.1 26 1 2.9 2.9 100.0 Total 35 100.0 100.0
Trang 1010 Nhận xét:
- Các tuy n th có s l n nể ủ ố ầ ằm trong Top 10 tập trung vào khoảng t ừ 0-20 ầ l n, phân b ố khá đều - Giá trị trung bình: 10,23
- Độ l ch chuệ ẩn: 7,15- Biến thiên từ 0 đến 26 6 Winnings ( $ )
Winnings ($) Frequency Percent Valid Percent
Cumulative Percent Valid 2271890 1 2.9 2.9 2.9
2559500 1 2.9 2.9 5.7 2838320 1 2.9 2.9 8.6 2868220 1 2.9 2.9 11.4 3229210 1 2.9 2.9 14.3 3807780 1 2.9 2.9 17.1 3830910 1 2.9 2.9 20.0 3853690 1 2.9 2.9 22.9 3856010 1 2.9 2.9 25.7 3878390 1 2.9 2.9 28.6 3955560 1 2.9 2.9 31.4 4163690 1 2.9 2.9 34.3 4203660 1 2.9 2.9 37.1
Trang 1111
4318050 1 2.9 2.9 42.9 4374770 1 2.9 2.9 45.7 4505650 1 2.9 2.9 48.6 4579860 1 2.9 2.9 51.4 4750390 1 2.9 2.9 54.3 4775160 1 2.9 2.9 57.1 4794770 1 2.9 2.9 60.0 4825560 1 2.9 2.9 62.9 5020780 1 2.9 2.9 65.7 5087740 1 2.9 2.9 68.6 5303020 1 2.9 2.9 71.4 5401190 1 2.9 2.9 74.3 5633950 1 2.9 2.9 77.1 5912830 1 2.9 2.9 80.0 5936470 1 2.9 2.9 82.9 6161020 1 2.9 2.9 85.7 6183580 1 2.9 2.9 88.6 6197140 1 2.9 2.9 91.4 6296360 1 2.9 2.9 94.3 6529870 1 2.9 2.9 97.1 8485990 1 2.9 2.9 100.0 Total 35 100.0 100.0
Trang 1212
- Số ti n các tuy n thề ể ủ dành được tập trung chủ yếu ở khoảng từ 4000000$ đến 5000000$ - Giá trị trung bình: 4705510.29
- Độ l ch chuệ ẩn: 1288951.762- Biến thiên từ 2271890 đến 8485990
II Phân tích theo các nội dung câu hỏi được gợi ý trong Case-problems Câu 1:
Std Error of the Estimate
Change Statistics R Square
Change F Change df1 df2 Sig F Change 1 406a.165 140 1195602.053 165 6.517 1 33 015 a Predictors: (Constant), Poles
6.517 015b
Residual 47172320903241.734
33 1429464269795.204 Total 5648748591729
7.125 34
a Dependent Variable: Winnings ($) b Predictors: (Constant), Poles
Coefficients a
Model
Unstandardized Coefficients Standardized
Coefficients
t Sig
Correlations Collinearity Statistics B Std Error Beta Zero-order Partial Part Tolerance VIF 1 (Constant) 4260870.614 266797.095 15.970 000
Poles 471587.531 184736.916 406 2.553 015 406 406 406 1.000 1.000 a Dependent Variable: Winnings ($)
Phương trình hồi quy: 끫 뢘 = 4260870.614 + 471587.531 ∗끫뢖1
Với R = 0.406 trong khoảng 0.4-0.6 nên biến X1 và Y có tương quan tuyến tính
Trang 1313
Model Summary
Model R R Square
Adjusted R Square
Std Error of the Estimate
Change Statistics R Square
Change F Change df1 df2 Sig F Change 1 662a.438 421 981108.684 438 25.684 1 33 000 a Predictors: (Constant), Wins
25.684 000b
Residual 31764950247259.297
33 962574249916.948 Total 5648748591729
7.125 34
a Dependent Variable: Winnings ($) b Predictors: (Constant), Wins
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
t Sig
Correlations
Collinearity Statistics B Std Error Beta Zero-order Partial Part Tolerance VIF 1 (Constant) 4093477.710 205150.140 19.954 000
Wins 612032.576 120766.131 662 5.068 000 662 662 662 1.000 1.000 a Dependent Variable: Winnings ($)
Phương trình hồi quy: 끫 뢘 = 40933477.710 + 612032.576 ∗끫뢖2
Với R = 0.662 trong khoảng 0.6-0.8 nên bi n X2 ế và Y có tương quan tuyến tính m nh ạ
Trang 1414
Model Summary
Model R R Square
Adjusted R Square
Std Error of the Estimate
Change Statistics R Square
Change F Change df1 df2 Sig F Change 1 861a.742 734 665054.416 742 94.714 1 33 000 a Predictors: (Constant), Top 5
94.714 000b
Residual 14595813432910.523
33 442297376754.864 Total 5648748591729
7.125 34
a Dependent Variable: Winnings ($) b Predictors: (Constant), Top 5
Coefficients a
Model
Unstandardized Coefficients Standardized
Coefficients
t Sig
Correlations Collinearity Statistics B Std Error Beta Zero-order Partial Part Tolerance VIF 1 (Constant) 3537775.241 164420.731 21.517 000
Top 5 228328.081 23461.332 861 9.732 000 861 861 861 1.000 1.000 a Dependent Variable: Winnings ($)
Phương trình hồi quy: 끫 뢘 = 3537775.241 + 228328.081 ∗끫뢖3 Với R = 0.861 lớn hơn 0.8 nên biến X và Y có tương quan tuyế3 n tính rất mạnh
Trang 1515
Model Summary
Model R R Square
Adjusted R Square
Std Error of the Estimate
Change Statistics R Square
Change F Change df1 df2 Sig F Change 1 898a.806 800 576313.100 806 137.073 1 33 000 a Predictors: (Constant), Top 10
137.073 000b
Residual 10960514029649.268
33 332136788777.251 Total 5648748591729
7.125 34
a Dependent Variable: Winnings ($) b Predictors: (Constant), Top 10
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
Phương trình hồi quy: 끫 뢘 = 3049156.661 + 161934.014 ∗끫뢖4 Với R = 0.898 lớn hơn 0.8 nên biến X và Y có tương quan tuyế4 n tính rất mạnh
Ta thấy biến độc lập X4 ( Top 10 ) có hệ ố tương quan R = 0.898 lớn nh s ất trong 4 biến V y biậ ến X4 ( Top 10 ) có tác động lên biến ph thu c Y ( Winnings ) là nhiều nhất ụ ộ
Trang 1616
Model Summary
Model R R Square
Adjusted R Square
Std Error of the Estimate
Change Statistics R Square
Change F
Change df1 df2 Sig F Change 1 906a.820 797 581382.197 820 34.280 4 30 000
34.280 000b
Residual 10140157762495.287
30 338005258749.843 Total 5648748591729
7.125 34
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
t Sig
Correlations Collinearity Statistics B Std Error Beta Zero-order Partial Part Tolerance VIF 1 (Constant) 3140367.087 184229.024 17.046 000
Poles -12938.921 107205.075 -.011 -.121 905 406 -.022 -.009 702 1.424 Wins 13544.813 111226.216 015 122 904 662 022 009 414 2.416 Top 5 71629.393 50666.868 270 1.414 168 861 250 109 164 6.103 Top 10 117070.577 33432.884 649 3.502 001 898 539 271 174 5.741
Phương trình hồi quy: 끫 뢘 = 3140367.087 − 12938.921∗끫뢖1 + 13544.813 ∗끫뢖2 + 71629.393∗끫뢖3 + 117070.577 ∗끫뢖4- Từ phương trình hồi quy trên ta có thể ết luậ k n:
• Khi X1 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ giảm 12938.921 đơn vị • Khi X2 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 13544.813 đơn vị• Khi X3 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 71629.393 đơn vị• Khi X4 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 117070.577 đơn vị- R = 0.906 > 0.8, biến Y có tương quan rất mạnh với các biến phụ thu c X1, X2, X3, X4 ộ
- Adjusted R Square =79.7% các biến độ ậc lp giải thích được 79.7% sự biến thiên c a biủ ến ph thuụ ộc Phần còn lại 20.3% được giải thích bởi các biến ngoài mô hình và sai số ngẫu nhiên
Trang 1717 Cặp gi thuy t: Hả ế 0: R2= 0 ; H : R1 2≠ 0
끫 롲 =끫뢀끫뢀끫뢀끫뢀끫뢀끫뢀= 34.28 Với mức ý nghĩa α = 0.05, n =35, k = 4 F(k,n-k-1, α)= F(4, 30, 0.05) = 2.69 F=34.28 > 2.69
Bác bỏ gi thuyả ết H0 Mô hình hồi quy bội với các biến độc lập Poles, Wins, Top 5, Top 10 với bi n phế ụ thuộc Winnings có mối quan h ệ tương quan tuyến tính
- Đánh giá ý nghĩa của từng biến độ ập riêng bi t c l ệ• Biến X1 ( Poles )
Cặp gi thuyả ết: H0: β1= 0 ; H1: β1≠ 0끫룂끫뢼끫뢼11− 0=끫뷺
끫뢀끫뢀�끫뷺1�=끫뢞1− 0끫뢀(끫뢞1)= −
12938.921107205.075= −0.12 |끫룂끫뢼끫뢼1| = 0.122 < t(30,0.025) = 2.042
Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X1 và biến Y • Biến X2 ( Wins )
Cặp gi thuyả ết: H0: β2= 0 ; H1: β2≠ 0끫룂끫뢼끫뢼22− 0=끫뷺
끫뢀끫뢀�끫뷺2�=끫뢞2− 0끫뢀(끫뢞2)=
13544.813111226.216= 0.122 |끫룂끫뢼끫뢼2| = 0.122 < t(30,0.025) = 2.042
Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X2 và biến Y • Biến X3 ( Top 5 )
Cặp gi thuyả ết: H0: β3= 0 ; H1: β3≠ 0끫룂끫뢼끫뢼33− 0=끫뷺
끫뢀끫뢀�끫뷺3�=끫뢞3− 0끫뢀(끫뢞3)=
71629.39350666.868= 1.414 |끫룂끫뢼끫뢼3| = 1.414 < t(30,0.025) = 2.042
Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X3 và biến Y • Biến X4 ( Top 10 )
Cặp gi thuyả ết: H0: β4= 0 ; H1: β4≠ 0끫룂끫뢼끫뢼44− 0=끫뷺
끫뢀끫뢀�끫뷺4�=끫뢞4− 0끫뢀(끫뢞4)=
117070.57733432.884= 3.5 |끫룂끫뢼끫뢼4| = 3.5 > t(30,0.025) = 2.042
Bác bỏ gi thuyả ết H0. T n tồ ại mối quan h ệ tương quan tuyến tính giữa biến X4 và bi n Y ế
Trang 1818 Đặt: Biến ph thu c là Winnings ($) ụ ộ
Bi n ph thu c X1, X2, X3, X4 lế ụ ộ ần lượt là các biến độ ập Poles, Wins, Top 2-5, Top 6-10c l
Model Summary
Model R R Square
Adjusted R Square
Std Error of the Estimate
Change Statistics R Square
Change F Change df1 df2 Sig F Change 1 906a.820 797 581382.197 820 34.280 4 30 000 a Predictors: (Constant), Top 6-10, Poles, Wins, Top 2-5
34.280 000b
Residual 10140157762495.312
30 338005258749.844 Total 5648748591729
7.125 34
a Dependent Variable: Winnings ($)
b Predictors: (Constant), Top 6-10, Poles, Wins, Top 2-5
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
t Sig
Correlations
Collinearity Statistics
Phương trình hồi quy: 끫 뢘 = 3140367.087 − 12938.921 ∗끫뢖1 + 202244.783 ∗끫뢖2 + 188699.970 ∗끫뢖3 + 117070.577 ∗끫뢖4- Từ phương trình hồi quy trên ta có thể ết luậ k n:
• Khi X1 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ ảm 12938.921 đơn vị gi• Khi X2 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 202244.783 đơn vị• Khi X3 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 188699.970 đơn vị• Khi X4 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 117070.577 đơn vị
Trang 19Bác bỏ gi thuyả ết H0 Mô hình hồi quy bội với các biến độc lập Poles, Wins, Top 2-5, Top 6-10 và bi n ph thuế ụ ộc Winnings có mối quan h ệ tương quan tuyến tính
- Đánh giá ý nghĩa của từng biến độ ập riêng bi t c l ệ• Biến X1 ( Poles )
Cặp gi thuyả ết: H0: β1= 0 ; H1: β1≠ 0끫룂끫뢼끫뢼11− 0=끫뷺
끫뢀끫뢀�끫뷺1�=끫뢞1− 0끫뢀(끫뢞1)= −
12938.921107205.075= −0.12 |끫룂끫뢼끫뢼1| = 0.122 < t(30,0.025) = 2.042
Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X1 và biến Y • Biến X2 ( Wins )
Cặp gi thuyả ết: H0: β2= 0 ; H1: β2≠ 0끫룂끫뢼끫뢼22− 0=끫뷺
끫뢀끫뢀�끫뷺2�=끫뢞2− 0끫뢀(끫뢞2)=
202244.79390225.868= 2.24 |끫룂끫뢼끫뢼2| = 2.24>t(30,0.025) = 2.042
Bác bỏ gi thuy t H Tả ế 0 ồn tại mối quan h ệ tương quan tuyến tính giữa biến X2 và bi n Y ế• Biến X3 ( Top 2-5 ):
Cặp gi thuyả ết: H0: β3= 0 ; H1: β3≠ 0끫룂끫뢼끫뢼33− 0=끫뷺
끫뢀끫뢀�끫뷺3�=끫뢞3− 0끫뢀(끫뢞3)=
188699.9734586.322= 5.456 |끫룂끫뢼끫뢼3| = 5.456>t(30,0.025) = 2.042
Bác bỏ gi thuy t H T n tả ế 0 ồ ại mối quan h ệ tương quan tuyến tính giữa biến X3 và bi n Y ế• Biến X4 ( Top 6-10 ):
Cặp gi thuyả ết: H0: β4= 0 ; H1: β4≠ 0
Trang 2020 끫룂끫뢼끫뢼44− 0=끫뷺
끫뢀끫뢀�끫뷺4�=끫뢞4− 0끫뢀(끫뢞4)=
117070.57733432.884= 3.5 |끫룂끫뢼끫뢼4| = 3.5 > t(30,0.025) = 2.042
Bác bỏ gi thuyả ết H0, T n tồ ại mối quan h ệ tương quan tuyến tính gi a bi n X4 và bi n Y ữ ế ếCâu 4:
Mô hình hồi quy ở câu 3 có 3 biến độc lập (Wins,Top 2-5,Top 6-10) có tác động lên biến Winnings mà trong khi mô hình hồi quy ban đầu ( ở câu 2 ) chỉ có duy nhất 1 biến đ c lập ộ (Top 10) có tác động lên biến Winnings Do đó ta nên chọn mô hình hồi quy ở câu 3 để ự đoán cho biến phụ thuộc Winnings d
Với phương trình hồi quy:
끫 뢘 = 3140367.087 − 12938.921 ∗끫뢖1 + 202244.783∗끫뢖2 + 188699.970∗끫뢖3 + 117070.577 ∗끫뢖4Trong đó Y là biến số tiền dành được từ chi n thế ắng “Winnings”, X là bi1 ến “Poles”, X là bi2 ến “Wins”, X3 là biến “Top 2-5”, X4 là biến “Top 6-10”
Ngày đăng: 17/06/2024, 17:28
Xem thêm:
Tài liệu cùng người dùng
Tài liệu liên quan