Thực hi n thệ ống kê mô t ả các biến cùng nhau họp trên teams để làm : Ngô Anh Hùng, Nguyễn Đăng Khoa Đỗ Văn , An, Cấn Thụy An, Nguyễn Đình Long Vũ2.. Phân tích các câu hỏi gợi ý trong
Trang 11
ĐẠI HỌC BÁCH KHOA HÀ NỘI
Case 2: Predicting Winnings for NASCAR Drivers
Nhóm 2:
Trang 22
ĐÓNG GÓP CỦA CÁC THÀNH VIÊN
1 Thực hi n thệ ống kê mô t ả các biến ( cùng nhau họp trên teams để làm ): Ngô Anh Hùng, Nguyễn Đăng Khoa Đỗ Văn ,
An, Cấn Thụy An, Nguyễn Đình Long Vũ
2 Phân tích các câu hỏi gợi ý trong Case Problems:
- Câu 1: Ngô Anh Hùng, Nguyễn Đăng Khoa, Đỗ Văn An, Cấn Thụy An, Nguyễn Đình Long Vũ
- Câu 2: Ngô Anh Hùng, Nguyễn Đăng Khoa
- Câu 3: Ngô Anh Hùng, Nguyễn Đăng Khoa
- Câu 4: Ngô Anh Hùng, Nguyễn Đăng Khoa, Đỗ Văn An, Cấn Thụy An, Nguyễn Đình Long Vũ
3 Tổng hợp, trình bày bài tiểu lu n: Ngô Anh Hùng ậ
Trang 33
MỤC LỤC
I Thống kê mô tả ề các biến nghiên c u quan tâm v ứ 4
Thống kê mô tả các biến 4
1 Điểm số ( Points ) 4
2 Poles 6
3 Wins 7
4 Top 5 8
5 Top 10 9
6 Winnings ( $ ) 10
II Phân tích theo các nội dung câu hỏi được g i ý trong Case-problems 12 ợ Câu 1: 12
Câu 2: 16
Câu 3: 18
Câu 4: 20
Trang 44
Thống kê mô t ả các biến
Descriptive Statistics
N Range Minimum Maximum Mean Std Deviation Variance Statistic Statistic Statistic Statistic Statistic Std Error Statistic Statistic Points 35 2211 192 2403 1304.20 129.574 766.568 587626.047 Poles 35 3 0 3 94 188 1.110 1.232 Wins 35 5 0 5 1.00 236 1.393 1.941 Top 2-5 35 18 0 18 4.11 671 3.969 15.751 Top 6-10 35 12 0 12 5.11 587 3.471 12.045 Top 5 35 19 0 19 5.11 822 4.861 23.634 Top 10 35 26 0 26 10.23 1.208 7.146 51.064 Winnings ($) 35 6214100 2271890 8485990 4705510.29 217872.613 1288951.762 1661396644626.
388 Valid N (listwise) 35
1 Điểm số ( Points )
Points Frequency Percent Valid Percent
Cumulative Percent Valid 192 1 2.9 2.9 2.9
268 1 2.9 2.9 5.7
398 1 2.9 2.9 8.6
508 1 2.9 2.9 11.4
541 1 2.9 2.9 14.3
572 1 2.9 2.9 17.1
670 1 2.9 2.9 20.0
757 1 2.9 2.9 22.9
795 1 2.9 2.9 25.7
820 1 2.9 2.9 28.6
846 1 2.9 2.9 31.4
902 1 2.9 2.9 34.3
906 1 2.9 2.9 37.1
930 1 2.9 2.9 40.0
932 1 2.9 2.9 42.9
935 1 2.9 2.9 45.7
936 1 2.9 2.9 48.6
Trang 55
947 1 2.9 2.9 54.3
997 1 2.9 2.9 57.1
1013 1 2.9 2.9 60.0
1041 1 2.9 2.9 62.9
1047 1 2.9 2.9 65.7
2246 1 2.9 2.9 68.6
2262 1 2.9 2.9 71.4
2284 2 5.7 5.7 77.1
2287 1 2.9 2.9 80.0
2290 1 2.9 2.9 82.9
2304 1 2.9 2.9 85.7
2319 1 2.9 2.9 88.6
2330 1 2.9 2.9 91.4
2345 1 2.9 2.9 94.3
2403 2 5.7 5.7 100.0 Total 35 100.0 100.0
Nhận xét:
- Điểm số “Points”của các tuyển th ch yủ ủ ếu t p trung ậ ở khoảng từ 750-1000 và khoảng 2250-2500,
- Giá trị trung bình: 1304,2
- Độ l ch chu n: 766,6 ệ ẩ
Trang 66
2 Poles
Poles Frequency Percent Valid Percent
Cumulative Percent Valid 0 17 48.6 48.6 48.6
1 8 22.9 22.9 71.4
2 5 14.3 14.3 85.7
3 5 14.3 14.3 100.0 Total 35 100.0 100.0
Nhận xét:
- Biến “Poles” tập trung ở khoảng 0 có thể thấy đa phần tuyển thủ có số “Poles” là 1 lần, 2 l n ,3 lầ ần là không nhi u, ề
- Giá trị trung bình: 0,94
- Độ l ch chuệ ẩn: 1,1099
- Biến thiên từ 0 đến 3
Trang 77
Wins Frequency Percent Valid Percent
Cumulative Percent Valid 0 18 51.4 51.4 51.4
1 9 25.7 25.7 77.1
2 2 5.7 5.7 82.9
3 3 8.6 8.6 91.4
4 2 5.7 5.7 97.1
5 1 2.9 2.9 100.0 Total 35 100.0 100.0
Nhận xét:
- Các tuyển th có s lủ ố ần thắng ch yủ ếu là 0
- Giá trị trung bình: 1
- Độ l ch chu n: 1,4 ệ ẩ
- Biến thiên từ 0 đến 5
Trang 88
Top 5 Frequency Percent Valid Percent
Cumulative Percent Valid 0 4 11.4 11.4 11.4
1 5 14.3 14.3 25.7
2 5 14.3 14.3 40.0
3 3 8.6 8.6 48.6
4 5 14.3 14.3 62.9
5 2 5.7 5.7 68.6
8 2 5.7 5.7 74.3
9 3 8.6 8.6 82.9
10 1 2.9 2.9 85.7
12 1 2.9 2.9 88.6
13 1 2.9 2.9 91.4
14 2 5.7 5.7 97.1
19 1 2.9 2.9 100.0 Total 35 100.0 100.0
Nhận xét:
- Các tuyển th có s lủ ố ần đặt Top 5 tập trung khoảng 1-3 l n, ầ
- Giá trị trung bình: 5,11,
- Độ l ch chu n: 4,86, ệ ẩ
- Biến thiên từ 0 đến 20
Trang 99
5 Top 10
Top 10 Frequency Percent Valid Percent
Cumulative Percent Valid 0 4 11.4 11.4 11.4
1 1 2.9 2.9 14.3
2 2 5.7 5.7 20.0
3 1 2.9 2.9 22.9
4 1 2.9 2.9 25.7
5 2 5.7 5.7 31.4
6 1 2.9 2.9 34.3
7 1 2.9 2.9 37.1
8 3 8.6 8.6 45.7
10 3 8.6 8.6 54.3
12 3 8.6 8.6 62.9
14 2 5.7 5.7 68.6
15 1 2.9 2.9 71.4
16 2 5.7 5.7 77.1
17 1 2.9 2.9 80.0
18 2 5.7 5.7 85.7
19 2 5.7 5.7 91.4
20 1 2.9 2.9 94.3
21 1 2.9 2.9 97.1
26 1 2.9 2.9 100.0 Total 35 100.0 100.0
Trang 1010
Nhận xét:
- Các tuy n th có s l n nể ủ ố ầ ằm trong Top 10 tập trung vào khoảng t ừ 0-20 ầ l n, phân b ố khá đều
- Giá trị trung bình: 10,23
- Độ l ch chuệ ẩn: 7,15
- Biến thiên từ 0 đến 26
6 Winnings ( $ )
Winnings ($) Frequency Percent Valid Percent
Cumulative Percent Valid 2271890 1 2.9 2.9 2.9
2559500 1 2.9 2.9 5.7
2838320 1 2.9 2.9 8.6
2868220 1 2.9 2.9 11.4
3229210 1 2.9 2.9 14.3
3807780 1 2.9 2.9 17.1
3830910 1 2.9 2.9 20.0
3853690 1 2.9 2.9 22.9
3856010 1 2.9 2.9 25.7
3878390 1 2.9 2.9 28.6
3955560 1 2.9 2.9 31.4
4163690 1 2.9 2.9 34.3
4203660 1 2.9 2.9 37.1
Trang 1111
4318050 1 2.9 2.9 42.9
4374770 1 2.9 2.9 45.7
4505650 1 2.9 2.9 48.6
4579860 1 2.9 2.9 51.4
4750390 1 2.9 2.9 54.3
4775160 1 2.9 2.9 57.1
4794770 1 2.9 2.9 60.0
4825560 1 2.9 2.9 62.9
5020780 1 2.9 2.9 65.7
5087740 1 2.9 2.9 68.6
5303020 1 2.9 2.9 71.4
5401190 1 2.9 2.9 74.3
5633950 1 2.9 2.9 77.1
5912830 1 2.9 2.9 80.0
5936470 1 2.9 2.9 82.9
6161020 1 2.9 2.9 85.7
6183580 1 2.9 2.9 88.6
6197140 1 2.9 2.9 91.4
6296360 1 2.9 2.9 94.3
6529870 1 2.9 2.9 97.1
8485990 1 2.9 2.9 100.0 Total 35 100.0 100.0
Trang 1212
- Số ti n các tuy n thề ể ủ dành được tập trung chủ yếu ở khoảng từ 4000000$ đến 5000000$
- Giá trị trung bình: 4705510.29
- Độ l ch chuệ ẩn: 1288951.762
- Biến thiên từ 2271890 đến 8485990
II Phân tích theo các nội dung câu hỏi được gợi ý trong Case-problems
Câu 1:
Đặt:
X1, X2, X3, X4 lần lượt là các biến độ ập Poles, Wins, Top 5, Top 10c l
Y là biến ph thu c Winnings ụ ộ
- Sự ảnh hưởng của biến độc lập X1 ( Poles ) đến biến phụ thuộc Winnings
Model Summary
Model R R Square
Adjusted R Square Std Error of the Estimate
Change Statistics
R Square Change F Change df1 df2 Sig F Change
1 406 a 165 140 1195602.053 165 6.517 1 33 015
a Predictors: (Constant), Poles
ANOVAa
Model Sum of Squares df Mean Square F Sig
1 Regression 9315165014055
.390
1 9315165014055 390 6.517 015 b
Residual 4717232090324
1.734
33 1429464269795 204 Total 5648748591729
7.125
34
a Dependent Variable: Winnings ($)
b Predictors: (Constant), Poles
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
t Sig
Correlations Collinearity Statistics
B Std Error Beta Zero-order Partial Part Tolerance VIF
1 (Constant) 4260870.614 266797.095 15.970 000
Poles 471587.531 184736.916 406 2.553 015 406 406 406 1.000 1.000
a Dependent Variable: Winnings ($)
Phương trình hồi quy: 끫 뢘 = 4260870.614 + 471587.531 ∗끫뢖1
Với R = 0.406 trong khoảng 0.4-0.6 nên biến X1 và Y có tương quan tuyến tính
Trang 1313
Model Summary
Model R R Square
Adjusted R Square Std Error of the Estimate
Change Statistics
R Square Change F Change df1 df2 Sig F Change
1 662 a 438 421 981108.684 438 25.684 1 33 000
a Predictors: (Constant), Wins
ANOVAa
Model Sum of Squares df Mean Square F Sig
1 Regression 2472253567003
7.830
1 2472253567003 7.830 25.684 000 b
Residual 3176495024725
9.297
33 962574249916.
948 Total 5648748591729
7.125
34
a Dependent Variable: Winnings ($)
b Predictors: (Constant), Wins
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
t Sig
Correlations
Collinearity Statistics
B Std Error Beta Zero-order Partial Part Tolerance VIF
1 (Constant) 4093477.710 205150.140 19.954 000
Wins 612032.576 120766.131 662 5.068 000 662 662 662 1.000 1.000
a Dependent Variable: Winnings ($)
Phương trình hồi quy: 끫 뢘 = 40933477.710 + 612032.576 ∗끫뢖2
Với R = 0.662 trong khoảng 0.6-0.8 nên bi n X2 ế và Y có tương quan tuyến tính m nh ạ
Trang 1414
Model Summary
Model R R Square
Adjusted R Square Std Error of the Estimate
Change Statistics
R Square Change F Change df1 df2 Sig F Change
1 861 a 742 734 665054.416 742 94.714 1 33 000
a Predictors: (Constant), Top 5
ANOVAa
Model Sum of Squares df Mean Square F Sig
1 Regression 4189167248438
6.600
1 4189167248438 6.600 94.714 000 b
Residual 1459581343291
0.523
33 442297376754.
864 Total 5648748591729
7.125
34
a Dependent Variable: Winnings ($)
b Predictors: (Constant), Top 5
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
t Sig
Correlations Collinearity Statistics
B Std Error Beta Zero-order Partial Part Tolerance VIF
1 (Constant) 3537775.241 164420.731 21.517 000
Top 5 228328.081 23461.332 861 9.732 000 861 861 861 1.000 1.000
a Dependent Variable: Winnings ($)
Phương trình hồi quy: 끫 뢘 = 3537775.241 + 228328.081 ∗끫뢖3
Với R = 0.861 lớn hơn 0.8 nên biến X và Y có tương quan tuyế3 n tính rất mạnh
Trang 1515
Model Summary
Model R R Square
Adjusted R Square Std Error of the Estimate
Change Statistics
R Square Change F Change df1 df2
Sig F Change
1 898 a 806 800 576313.100 806 137.073 1 33 000
a Predictors: (Constant), Top 10
ANOVAa
Model Sum of Squares df Mean Square F Sig
1 Regression 4552697188764
7.860
1 4552697188764 7.860 137.073 000 b
Residual 1096051402964
9.268
33 332136788777.
251 Total 5648748591729
7.125
34
a Dependent Variable: Winnings ($)
b Predictors: (Constant), Top 10
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
t Sig
Correlations Collinearity Statistics
B Std Error Beta
Zero-order Partial Part Tolerance VIF
1 (Constant) 3049156.661 171768.929 17.752 000
Top 10 161934.014 13831.274 898 11.708 000 898 898 898 1.000 1.000
a Dependent Variable: Winnings ($)
Phương trình hồi quy: 끫 뢘 = 3049156.661 + 161934.014 ∗끫뢖4
Với R = 0.898 lớn hơn 0.8 nên biến X và Y có tương quan tuyế4 n tính rất mạnh
Ta thấy biến độc lập X4 ( Top 10 ) có hệ ố tương quan R = 0.898 lớn nh s ất trong 4 biến V y biậ ến X4 ( Top 10 ) có tác động lên biến ph thu c Y ( Winnings ) là nhiều nhất ụ ộ
Trang 1616
Model Summary
Model R R Square
Adjusted R Square Std Error of the Estimate
Change Statistics
R Square Change
F Change df1 df2
Sig F Change
1 906 a 820 797 581382.197 820 34.280 4 30 000
ANOVAa
Model Sum of Squares df Mean Square F Sig
1 Regression 4634732815480
1.836
4 1158683203870 0.459 34.280 000 b
Residual 1014015776249
5.287
30 338005258749.
843 Total 5648748591729
7.125
34
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
t Sig
Correlations Collinearity Statistics
B Std Error Beta Zero-order Partial Part Tolerance VIF
1 (Constant) 3140367.087 184229.024 17.046 000
Poles -12938.921 107205.075 -.011 -.121 905 406 -.022 -.009 702 1.424 Wins 13544.813 111226.216 015 122 904 662 022 009 414 2.416 Top 5 71629.393 50666.868 270 1.414 168 861 250 109 164 6.103 Top 10 117070.577 33432.884 649 3.502 001 898 539 271 174 5.741
Phương trình hồi quy: 끫 뢘 = 3140367.087 − 12938.921∗끫뢖1 + 13544.813 ∗끫뢖2 + 71629.393∗끫뢖3 + 117070.577 ∗끫뢖4
- Từ phương trình hồi quy trên ta có thể ết luậ k n:
• Khi X1 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ giảm 12938.921 đơn vị
• Khi X2 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 13544.813 đơn vị
• Khi X3 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 71629.393 đơn vị
• Khi X4 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 117070.577 đơn vị
- R = 0.906 > 0.8, biến Y có tương quan rất mạnh với các biến phụ thu c X1, X2, X3, X4 ộ
- Adjusted R Square =79.7% các biến độ ậc lp giải thích được 79.7% sự biến thiên c a biủ ến ph thuụ ộc Phần còn lại 20.3% được giải thích bởi các biến ngoài mô hình và sai số ngẫu nhiên
Trang 1717
Cặp gi thuy t: Hả ế 0: R2= 0 ; H : R1 2≠ 0
끫 롲 =끫뢀끫뢀끫뢀끫뢀끫뢀끫뢀= 34.28
Với mức ý nghĩa α = 0.05, n =35, k = 4
F(k,n-k-1, α)= F(4, 30, 0.05) = 2.69
F=34.28 > 2.69
Bác bỏ gi thuyả ết H0 Mô hình hồi quy bội với các biến độc lập Poles, Wins, Top 5, Top 10 với bi n phế ụ thuộc Winnings có mối quan h ệ tương quan tuyến tính
- Đánh giá ý nghĩa của từng biến độ ập riêng bi t c l ệ
• Biến X1 ( Poles )
Cặp gi thuyả ết: H0: β1= 0 ; H1: β1≠ 0
끫룂끫뢼끫뢼1 1− 0=끫뷺
끫뢀끫뢀�끫뷺1�=
끫뢞1− 0 끫뢀(끫뢞1)= −
12938.921 107205.075= −0.12
|끫룂끫뢼끫뢼1| = 0.122 < t(30,0.025) = 2.042
Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X1 và biến Y
• Biến X2 ( Wins )
Cặp gi thuyả ết: H0: β2= 0 ; H1: β2≠ 0
끫룂끫뢼끫뢼2 2− 0=끫뷺
끫뢀끫뢀�끫뷺2�=
끫뢞2− 0 끫뢀(끫뢞2)=
13544.813 111226.216= 0.122
|끫룂끫뢼끫뢼2| = 0.122 < t(30,0.025) = 2.042
Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X2 và biến Y
• Biến X3 ( Top 5 )
Cặp gi thuyả ết: H0: β3= 0 ; H1: β3≠ 0
끫룂끫뢼끫뢼3 3− 0=끫뷺
끫뢀끫뢀�끫뷺3�=
끫뢞3− 0 끫뢀(끫뢞3)=
71629.393 50666.868= 1.414
|끫룂끫뢼끫뢼3| = 1.414 < t(30,0.025) = 2.042
Không đủ cơ sở để bác bỏ H0 Không tồn tại m i quan hệ ố tương quan tuyến tính giữa biến X3 và biến Y
• Biến X4 ( Top 10 )
Cặp gi thuyả ết: H0: β4= 0 ; H1: β4≠ 0
끫룂끫뢼끫뢼4 4− 0=끫뷺
끫뢀끫뢀�끫뷺4�=
끫뢞4− 0
끫뢀(끫뢞4)=
117070.577 33432.884= 3.5
|끫룂끫뢼끫뢼4| = 3.5 > t(30,0.025) = 2.042
Bác bỏ gi thuyả ết H0. T n tồ ại mối quan h ệ tương quan tuyến tính giữa biến X4 và bi n Y ế
Trang 1818
Đặt: Biến ph thu c là Winnings ($) ụ ộ
Bi n ph thu c X1, X2, X3, X4 lế ụ ộ ần lượt là các biến độ ập Poles, Wins, Top 2-5, Top 6-10c l
Model Summary
Model R R Square
Adjusted R Square Std Error of the Estimate
Change Statistics
R Square Change F Change df1 df2
Sig F Change
1 906 a 820 797 581382.197 820 34.280 4 30 000
a Predictors: (Constant), Top 6-10, Poles, Wins, Top 2-5
ANOVAa
Model Sum of Squares df Mean Square F Sig
1 Regression 4634732815480
1.810
4 1158683203870 0.453 34.280 000 b
Residual 1014015776249
5.312
30 338005258749.
844 Total 5648748591729
7.125
34
a Dependent Variable: Winnings ($)
b Predictors: (Constant), Top 6-10, Poles, Wins, Top 2-5
Coefficients a
Model
Unstandardized Coefficients
Standardized Coefficients
t Sig
Correlations
Collinearity Statistics
B Std Error Beta
Zero-order Partial Part Tolerance VIF
1 (Constant) 3140367.087 184229.024 17.046 000
Poles -12938.921 107205.075 -.011 -.121 905 406 -.022 -.009 702 1.424 Wins 202244.783 90225.868 219 2.242 033 662 379 173 629 1.590 Top 2-5 188699.970 34586.322 581 5.456 000 823 706 422 528 1.895 Top 6-10 117070.577 33432.884 315 3.502 001 642 539 271 738 1.354
a Dependent Variable: Winnings ($)
Phương trình hồi quy: 끫 뢘 = 3140367.087 − 12938.921 ∗끫뢖1 + 202244.783 ∗끫뢖2 + 188699.970 ∗끫뢖3 + 117070.577 ∗끫뢖4
- Từ phương trình hồi quy trên ta có thể ết luậ k n:
• Khi X1 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ ảm 12938.921 đơn vị gi
• Khi X2 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 202244.783 đơn vị
• Khi X3 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 188699.970 đơn vị
• Khi X4 tăng lên 1 đơn vị thì có thể kỳ vọng trung bình Y sẽ tăng 117070.577 đơn vị