bài tiểu luận thống kê ứng dụng predicting winnings for nascar drivers

20 1 0
Tài liệu đã được kiểm tra trùng lặp
bài tiểu luận thống kê ứng dụng predicting winnings for nascar drivers

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Thực hi n thệ ống kê mô t ả các biến cùng nhau họp trên teams để làm : Ngô Anh Hùng, Nguyễn Đăng Khoa Đỗ Văn , An, Cấn Thụy An, Nguyễn Đình Long Vũ2.. Phân tích các câu hỏi gợi ý trong

Trang 1

1

ĐẠI HỌC BÁCH KHOA HÀ NỘI

Case 2: Predicting Winnings for NASCAR Drivers

Trang 2

2

ĐÓNG GÓP CỦA CÁC THÀNH VIÊN

1 Thực hi n thệ ống kê mô t ả các biến ( cùng nhau họp trên teams để làm ): Ngô Anh Hùng, Nguyễn Đăng Khoa Đỗ Văn , An, Cấn Thụy An, Nguyễn Đình Long Vũ

2 Phân tích các câu hỏi gợi ý trong Case Problems:

- Câu 1: Ngô Anh Hùng, Nguyễn Đăng Khoa, Đỗ Văn An, Cấn Thụy An, Nguyễn Đình Long Vũ - Câu 2: Ngô Anh Hùng, Nguyễn Đăng Khoa

- Câu 3: Ngô Anh Hùng, Nguyễn Đăng Khoa

- Câu 4: Ngô Anh Hùng, Nguyễn Đăng Khoa, Đỗ Văn An, Cấn Thụy An, Nguyễn Đình Long Vũ3 Tổng hợp, trình bày bài tiểu lu n: Ngô Anh Hùng ậ

Trang 3

3

MỤC LỤC

I Thống kê mô tả ề các biến nghiên c u quan tâm v ứ 4

Thống kê mô tả các biến 4

Trang 4

4 Thống kê mô t ả các biến

Descriptive Statistics

N Range Minimum Maximum Mean Std Deviation Variance Statistic Statistic Statistic Statistic Statistic Std Error Statistic Statistic Points 35 2211 192 2403 1304.20 129.574 766.568 587626.047 Poles 35 3 0 3 94 188 1.110 1.232 Wins 35 5 0 5 1.00 236 1.393 1.941 Top 2-5 35 18 0 18 4.11 671 3.969 15.751 Top 6-10 35 12 0 12 5.11 587 3.471 12.045 Top 5 35 19 0 19 5.11 822 4.861 23.634 Top 10 35 26 0 26 10.23 1.208 7.146 51.064 Winnings ($) 35 6214100 2271890 8485990 4705510.29 217872.613 1288951.762 1661396644626.

388 Valid N (listwise) 35

1 Điểm số ( Points )

Points

Frequency Percent Valid Percent

Cumulative Percent Valid 192 1 2.9 2.9 2.9

268 1 2.9 2.9 5.7 398 1 2.9 2.9 8.6 508 1 2.9 2.9 11.4 541 1 2.9 2.9 14.3 572 1 2.9 2.9 17.1 670 1 2.9 2.9 20.0 757 1 2.9 2.9 22.9 795 1 2.9 2.9 25.7 820 1 2.9 2.9 28.6 846 1 2.9 2.9 31.4 902 1 2.9 2.9 34.3 906 1 2.9 2.9 37.1 930 1 2.9 2.9 40.0 932 1 2.9 2.9 42.9 935 1 2.9 2.9 45.7 936 1 2.9 2.9 48.6

Trang 5

5

947 1 2.9 2.9 54.3 997 1 2.9 2.9 57.1 1013 1 2.9 2.9 60.0 1041 1 2.9 2.9 62.9 1047 1 2.9 2.9 65.7 2246 1 2.9 2.9 68.6 2262 1 2.9 2.9 71.4 2284 2 5.7 5.7 77.1 2287 1 2.9 2.9 80.0 2290 1 2.9 2.9 82.9 2304 1 2.9 2.9 85.7 2319 1 2.9 2.9 88.6 2330 1 2.9 2.9 91.4 2345 1 2.9 2.9 94.3 2403 2 5.7 5.7 100.0 Total 35 100.0 100.0

Nhận xét:

- Điểm số “Points”của các tuyển th ch yủ ủ ếu t p trung ậ ở khoảng từ 750-1000 và khoảng 2250-2500,- Giá trị trung bình: 1304,2

- Độ l ch chu n: 766,6 ệ ẩ

Trang 6

6 2 Poles

Poles

Frequency Percent Valid Percent

Cumulative Percent Valid 0 17 48.6 48.6 48.6

1 8 22.9 22.9 71.4 2 5 14.3 14.3 85.7 3 5 14.3 14.3 100.0 Total 35 100.0 100.0

Nhận xét:

- Biến “Poles” tập trung ở khoảng 0 có thể thấy đa phần tuyển thủ có số “Poles” là 1 lần, 2 l n ,3 lầ ần là không nhi u, ề- Giá trị trung bình: 0,94

- Độ l ch chuệ ẩn: 1,1099- Biến thiên từ 0 đến 3

Trang 7

7

Wins

Frequency Percent Valid Percent

Cumulative Percent Valid 0 18 51.4 51.4 51.4

1 9 25.7 25.7 77.1 2 2 5.7 5.7 82.9 3 3 8.6 8.6 91.4 4 2 5.7 5.7 97.1 5 1 2.9 2.9 100.0 Total 35 100.0 100.0

Nhận xét:

- Các tuyển th có s lủ ố ần thắng ch yủ ếu là 0.- Giá trị trung bình: 1

- Độ l ch chu n: 1,4 ệ ẩ- Biến thiên từ 0 đến 5

Trang 8

8

Top 5

Frequency Percent Valid Percent

Cumulative Percent Valid 0 4 11.4 11.4 11.4

1 5 14.3 14.3 25.7 2 5 14.3 14.3 40.0 3 3 8.6 8.6 48.6 4 5 14.3 14.3 62.9 5 2 5.7 5.7 68.6 8 2 5.7 5.7 74.3 9 3 8.6 8.6 82.9 10 1 2.9 2.9 85.7 12 1 2.9 2.9 88.6 13 1 2.9 2.9 91.4 14 2 5.7 5.7 97.1 19 1 2.9 2.9 100.0 Total 35 100.0 100.0

Nhận xét:

- Các tuyển th có s lủ ố ần đặt Top 5 tập trung khoảng 1-3 l n, ầ- Giá trị trung bình: 5,11,

- Độ l ch chu n: 4,86, ệ ẩ- Biến thiên từ 0 đến 20.

Trang 9

9 5 Top 10

Top 10

Frequency Percent Valid Percent

Cumulative Percent Valid 0 4 11.4 11.4 11.4

1 1 2.9 2.9 14.3 2 2 5.7 5.7 20.0 3 1 2.9 2.9 22.9 4 1 2.9 2.9 25.7 5 2 5.7 5.7 31.4 6 1 2.9 2.9 34.3 7 1 2.9 2.9 37.1 8 3 8.6 8.6 45.7 10 3 8.6 8.6 54.3 12 3 8.6 8.6 62.9 14 2 5.7 5.7 68.6 15 1 2.9 2.9 71.4 16 2 5.7 5.7 77.1 17 1 2.9 2.9 80.0 18 2 5.7 5.7 85.7 19 2 5.7 5.7 91.4 20 1 2.9 2.9 94.3 21 1 2.9 2.9 97.1 26 1 2.9 2.9 100.0 Total 35 100.0 100.0

Trang 10

10 Nhận xét:

- Các tuy n th có s l n nể ủ ố ầ ằm trong Top 10 tập trung vào khoảng t ừ 0-20 ầ l n, phân b ố khá đều - Giá trị trung bình: 10,23

- Độ l ch chuệ ẩn: 7,15- Biến thiên từ 0 đến 26 6 Winnings ( $ )

Winnings ($) Frequency Percent Valid Percent

Cumulative Percent Valid 2271890 1 2.9 2.9 2.9

2559500 1 2.9 2.9 5.7 2838320 1 2.9 2.9 8.6 2868220 1 2.9 2.9 11.4 3229210 1 2.9 2.9 14.3 3807780 1 2.9 2.9 17.1 3830910 1 2.9 2.9 20.0 3853690 1 2.9 2.9 22.9 3856010 1 2.9 2.9 25.7 3878390 1 2.9 2.9 28.6 3955560 1 2.9 2.9 31.4 4163690 1 2.9 2.9 34.3 4203660 1 2.9 2.9 37.1

Trang 11

11

4318050 1 2.9 2.9 42.9 4374770 1 2.9 2.9 45.7 4505650 1 2.9 2.9 48.6 4579860 1 2.9 2.9 51.4 4750390 1 2.9 2.9 54.3 4775160 1 2.9 2.9 57.1 4794770 1 2.9 2.9 60.0 4825560 1 2.9 2.9 62.9 5020780 1 2.9 2.9 65.7 5087740 1 2.9 2.9 68.6 5303020 1 2.9 2.9 71.4 5401190 1 2.9 2.9 74.3 5633950 1 2.9 2.9 77.1 5912830 1 2.9 2.9 80.0 5936470 1 2.9 2.9 82.9 6161020 1 2.9 2.9 85.7 6183580 1 2.9 2.9 88.6 6197140 1 2.9 2.9 91.4 6296360 1 2.9 2.9 94.3 6529870 1 2.9 2.9 97.1 8485990 1 2.9 2.9 100.0 Total 35 100.0 100.0

Trang 12

12

- Số ti n các tuy n thề ể ủ dành được tập trung chủ yếu ở khoảng từ 4000000$ đến 5000000$ - Giá trị trung bình: 4705510.29

- Độ l ch chuệ ẩn: 1288951.762- Biến thiên từ 2271890 đến 8485990

II Phân tích theo các nội dung câu hỏi được gợi ý trong Case-problems Câu 1:

Std Error of the Estimate

Change Statistics R Square

Change F Change df1 df2 Sig F Change 1 406a.165 140 1195602.053 165 6.517 1 33 015 a Predictors: (Constant), Poles

6.517 015b

Residual 47172320903241.734

33 1429464269795.204 Total 5648748591729

7.125 34

a Dependent Variable: Winnings ($) b Predictors: (Constant), Poles

Coefficients a

Model

Unstandardized Coefficients Standardized

Coefficients

t Sig

Correlations Collinearity Statistics B Std Error Beta Zero-order Partial Part Tolerance VIF 1 (Constant) 4260870.614 266797.095 15.970 000

Poles 471587.531 184736.916 406 2.553 015 406 406 406 1.000 1.000 a Dependent Variable: Winnings ($)

Phương trình hồi quy: 끫 뢘 = 4260870.614 + 471587.531 ∗끫뢖1

Với R = 0.406 trong khoảng 0.4-0.6 nên biến X1 và Y có tương quan tuyến tính

Trang 13

13

Model Summary

Model R R Square

Adjusted R Square

Std Error of the Estimate

Change Statistics R Square

Change F Change df1 df2 Sig F Change 1 662a.438 421 981108.684 438 25.684 1 33 000 a Predictors: (Constant), Wins

25.684 000b

Residual 31764950247259.297

33 962574249916.948 Total 5648748591729

7.125 34

a Dependent Variable: Winnings ($) b Predictors: (Constant), Wins

Coefficients a

Model

Unstandardized Coefficients

Standardized Coefficients

t Sig

Correlations

Collinearity Statistics B Std Error Beta Zero-order Partial Part Tolerance VIF 1 (Constant) 4093477.710 205150.140 19.954 000

Wins 612032.576 120766.131 662 5.068 000 662 662 662 1.000 1.000 a Dependent Variable: Winnings ($)

Phương trình hồi quy: 끫 뢘 = 40933477.710 + 612032.576 ∗끫뢖2

Với R = 0.662 trong khoảng 0.6-0.8 nên bi n X2 ế và Y có tương quan tuyến tính m nh ạ

Trang 14

14

Model Summary

Model R R Square

Adjusted R Square

Std Error of the Estimate

Change Statistics R Square

Change F Change df1 df2 Sig F Change 1 861a.742 734 665054.416 742 94.714 1 33 000 a Predictors: (Constant), Top 5

94.714 000b

Residual 14595813432910.523

33 442297376754.864 Total 5648748591729

7.125 34

a Dependent Variable: Winnings ($) b Predictors: (Constant), Top 5

Coefficients a

Model

Unstandardized Coefficients Standardized

Coefficients

t Sig

Correlations Collinearity Statistics B Std Error Beta Zero-order Partial Part Tolerance VIF 1 (Constant) 3537775.241 164420.731 21.517 000

Top 5 228328.081 23461.332 861 9.732 000 861 861 861 1.000 1.000 a Dependent Variable: Winnings ($)

Phương trình hồi quy: 끫 뢘 = 3537775.241 + 228328.081 ∗끫뢖3 Với R = 0.861 lớn hơn 0.8 nên biến X và Y có tương quan tuyế3 n tính rất mạnh

Trang 15

15

Model Summary

Model R R Square

Adjusted R Square

Std Error of the Estimate

Change Statistics R Square

Change F Change df1 df2 Sig F Change 1 898a.806 800 576313.100 806 137.073 1 33 000 a Predictors: (Constant), Top 10

137.073 000b

Residual 10960514029649.268

33 332136788777.251 Total 5648748591729

7.125 34

a Dependent Variable: Winnings ($) b Predictors: (Constant), Top 10

Coefficients a

Model

Unstandardized Coefficients

Standardized Coefficients

Phương trình hồi quy: 끫 뢘 = 3049156.661 + 161934.014 ∗끫뢖4 Với R = 0.898 lớn hơn 0.8 nên biến X và Y có tương quan tuyế4 n tính rất mạnh

Ta thấy biến độc lập X4 ( Top 10 ) có hệ ố tương quan R = 0.898 lớn nh s ất trong 4 biến V y biậ ến X4 ( Top 10 ) có tác động lên biến ph thu c Y ( Winnings ) là nhiều nhất ụ ộ

Trang 16

16

Model Summary

Model R R Square

Adjusted R Square

Std Error of the Estimate

Change Statistics R Square

Change F

Change df1 df2 Sig F Change 1 906a.820 797 581382.197 820 34.280 4 30 000

34.280 000b

Residual 10140157762495.287

30 338005258749.843 Total 5648748591729

7.125 34

Coefficients a

Model

Unstandardized Coefficients

Standardized Coefficients

t Sig

Correlations Collinearity Statistics B Std Error Beta Zero-order Partial Part Tolerance VIF 1 (Constant) 3140367.087 184229.024 17.046 000

Poles -12938.921 107205.075 -.011 -.121 905 406 -.022 -.009 702 1.424 Wins 13544.813 111226.216 015 122 904 662 022 009 414 2.416 Top 5 71629.393 50666.868 270 1.414 168 861 250 109 164 6.103 Top 10 117070.577 33432.884 649 3.502 001 898 539 271 174 5.741

Phương trình hồi quy: 끫 뢘 = 3140367.087 − 12938.921∗끫뢖1 + 13544.813 ∗끫뢖2 + 71629.393∗끫뢖3 + 117070.577 ∗끫뢖4- Từ phương trình hồi quy trên ta có thể ết luậ k n:

• Khi X1 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ giảm 12938.921 đơn vị • Khi X2 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 13544.813 đơn vị• Khi X3 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 71629.393 đơn vị• Khi X4 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 117070.577 đơn vị- R = 0.906 > 0.8, biến Y có tương quan rất mạnh với các biến phụ thu c X1, X2, X3, X4 ộ

- Adjusted R Square =79.7% các biến độ ậc lp giải thích được 79.7% sự biến thiên c a biủ ến ph thuụ ộc Phần còn lại 20.3% được giải thích bởi các biến ngoài mô hình và sai số ngẫu nhiên

Trang 17

17 Cặp gi thuy t: Hả ế 0: R2= 0 ; H : R1 2≠ 0

끫 롲 =끫뢀끫뢀끫뢀끫뢀끫뢀끫뢀= 34.28 Với mức ý nghĩa α = 0.05, n =35, k = 4 F(k,n-k-1, α)= F(4, 30, 0.05) = 2.69 F=34.28 > 2.69

Bác bỏ gi thuyả ết H0 Mô hình hồi quy bội với các biến độc lập Poles, Wins, Top 5, Top 10 với bi n phế ụ thuộc Winnings có mối quan h ệ tương quan tuyến tính

- Đánh giá ý nghĩa của từng biến độ ập riêng bi t c l ệ• Biến X1 ( Poles )

Cặp gi thuyả ết: H0: β1= 0 ; H1: β1≠ 0끫룂끫뢼끫뢼11− 0=끫뷺

끫뢀끫뢀�끫뷺1�=끫뢞1− 0끫뢀(끫뢞1)= −

12938.921107205.075= −0.12 |끫룂끫뢼끫뢼1| = 0.122 < t(30,0.025) = 2.042

Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X1 và biến Y • Biến X2 ( Wins )

Cặp gi thuyả ết: H0: β2= 0 ; H1: β2≠ 0끫룂끫뢼끫뢼22− 0=끫뷺

끫뢀끫뢀�끫뷺2�=끫뢞2− 0끫뢀(끫뢞2)=

13544.813111226.216= 0.122 |끫룂끫뢼끫뢼2| = 0.122 < t(30,0.025) = 2.042

Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X2 và biến Y • Biến X3 ( Top 5 )

Cặp gi thuyả ết: H0: β3= 0 ; H1: β3≠ 0끫룂끫뢼끫뢼33− 0=끫뷺

끫뢀끫뢀�끫뷺3�=끫뢞3− 0끫뢀(끫뢞3)=

71629.39350666.868= 1.414 |끫룂끫뢼끫뢼3| = 1.414 < t(30,0.025) = 2.042

Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X3 và biến Y • Biến X4 ( Top 10 )

Cặp gi thuyả ết: H0: β4= 0 ; H1: β4≠ 0끫룂끫뢼끫뢼44− 0=끫뷺

끫뢀끫뢀�끫뷺4�=끫뢞4− 0끫뢀(끫뢞4)=

117070.57733432.884= 3.5 |끫룂끫뢼끫뢼4| = 3.5 > t(30,0.025) = 2.042

Bác bỏ gi thuyả ết H0. T n tồ ại mối quan h ệ tương quan tuyến tính giữa biến X4 và bi n Y ế

Trang 18

18 Đặt: Biến ph thu c là Winnings ($) ụ ộ

Bi n ph thu c X1, X2, X3, X4 lế ụ ộ ần lượt là các biến độ ập Poles, Wins, Top 2-5, Top 6-10c l

Model Summary

Model R R Square

Adjusted R Square

Std Error of the Estimate

Change Statistics R Square

Change F Change df1 df2 Sig F Change 1 906a.820 797 581382.197 820 34.280 4 30 000 a Predictors: (Constant), Top 6-10, Poles, Wins, Top 2-5

34.280 000b

Residual 10140157762495.312

30 338005258749.844 Total 5648748591729

7.125 34

a Dependent Variable: Winnings ($)

b Predictors: (Constant), Top 6-10, Poles, Wins, Top 2-5

Coefficients a

Model

Unstandardized Coefficients

Standardized Coefficients

t Sig

Correlations

Collinearity Statistics

Phương trình hồi quy: 끫 뢘 = 3140367.087 − 12938.921 ∗끫뢖1 + 202244.783 ∗끫뢖2 + 188699.970 ∗끫뢖3 + 117070.577 ∗끫뢖4- Từ phương trình hồi quy trên ta có thể ết luậ k n:

• Khi X1 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ ảm 12938.921 đơn vị gi• Khi X2 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 202244.783 đơn vị• Khi X3 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 188699.970 đơn vị• Khi X4 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 117070.577 đơn vị

Trang 19

Bác bỏ gi thuyả ết H0 Mô hình hồi quy bội với các biến độc lập Poles, Wins, Top 2-5, Top 6-10 và bi n ph thuế ụ ộc Winnings có mối quan h ệ tương quan tuyến tính

- Đánh giá ý nghĩa của từng biến độ ập riêng bi t c l ệ• Biến X1 ( Poles )

Cặp gi thuyả ết: H0: β1= 0 ; H1: β1≠ 0끫룂끫뢼끫뢼11− 0=끫뷺

끫뢀끫뢀�끫뷺1�=끫뢞1− 0끫뢀(끫뢞1)= −

12938.921107205.075= −0.12 |끫룂끫뢼끫뢼1| = 0.122 < t(30,0.025) = 2.042

Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X1 và biến Y • Biến X2 ( Wins )

Cặp gi thuyả ết: H0: β2= 0 ; H1: β2≠ 0끫룂끫뢼끫뢼22− 0=끫뷺

끫뢀끫뢀�끫뷺2�=끫뢞2− 0끫뢀(끫뢞2)=

202244.79390225.868= 2.24 |끫룂끫뢼끫뢼2| = 2.24>t(30,0.025) = 2.042

Bác bỏ gi thuy t H Tả ế 0 ồn tại mối quan h ệ tương quan tuyến tính giữa biến X2 và bi n Y ế• Biến X3 ( Top 2-5 ):

Cặp gi thuyả ết: H0: β3= 0 ; H1: β3≠ 0끫룂끫뢼끫뢼33− 0=끫뷺

끫뢀끫뢀�끫뷺3�=끫뢞3− 0끫뢀(끫뢞3)=

188699.9734586.322= 5.456 |끫룂끫뢼끫뢼3| = 5.456>t(30,0.025) = 2.042

Bác bỏ gi thuy t H T n tả ế 0 ồ ại mối quan h ệ tương quan tuyến tính giữa biến X3 và bi n Y ế• Biến X4 ( Top 6-10 ):

Cặp gi thuyả ết: H0: β4= 0 ; H1: β4≠ 0

Trang 20

20 끫룂끫뢼끫뢼44− 0=끫뷺

끫뢀끫뢀�끫뷺4�=끫뢞4− 0끫뢀(끫뢞4)=

117070.57733432.884= 3.5 |끫룂끫뢼끫뢼4| = 3.5 > t(30,0.025) = 2.042

Bác bỏ gi thuyả ết H0, T n tồ ại mối quan h ệ tương quan tuyến tính gi a bi n X4 và bi n Y ữ ế ếCâu 4:

Mô hình hồi quy ở câu 3 có 3 biến độc lập (Wins,Top 2-5,Top 6-10) có tác động lên biến Winnings mà trong khi mô hình hồi quy ban đầu ( ở câu 2 ) chỉ có duy nhất 1 biến đ c lập ộ (Top 10) có tác động lên biến Winnings Do đó ta nên chọn mô hình hồi quy ở câu 3 để ự đoán cho biến phụ thuộc Winnings d

Với phương trình hồi quy:

끫 뢘 = 3140367.087 − 12938.921 ∗끫뢖1 + 202244.783∗끫뢖2 + 188699.970∗끫뢖3 + 117070.577 ∗끫뢖4Trong đó Y là biến số tiền dành được từ chi n thế ắng “Winnings”, X là bi1 ến “Poles”, X là bi2 ến “Wins”, X3 là biến “Top 2-5”, X4 là biến “Top 6-10”

Ngày đăng: 17/06/2024, 17:28