Báo cáo bài tập lớn môn xác suất và thống kê của Lê Đình Hiệp, giảng viên thầy Nguyễn Bá Thi trường Đại học Bách Khoa Thành phố Hồ Chí Minh. Bài tập bao gồm các dạng thống kê thường gặp, cách sử dụn.g Excel để tính toán và kết luận từ các kết quả tính được. Chúc các bạn học tốt
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT &
THỐNG KÊ GV: Nguyễn Bá Thi
Họ và tên SV: Lê Đình Hiệp
Nhóm 2 lớp DT07-A
1
Trang 2Bài 1: Một nghiên cứu được tiến hành ở thành phố công nghiệp X để xác định tỷ lệ những người đi làm bằng xe máy, xe đạp và xe buýt Việc điều tra được tiến hành trên 2 nhóm, kết quả như sau:
Với mức ý nghĩa α = 5%, hãy nhận định xem có sự khác nhau về tỷ lệ sử dụng các phương tiện giao thông đi làm trong hai nhóm công nhân nam và công nhân nữ hay không
Bài giải
- Dạng bài: Kiểm định giả thiết về tỷ lệ
- Phương pháp giải:
Giả thuyết H0 : tỷ lệ công nhân nữ và công nhân nam trong việc sử dụng các phương tiện giao thông đi làm là như nhau
Công cụ giải: Sử dụng hàm SUM, hàm CHITEST trong Excel.
- Các bước thực hiện trong Excel:
Nhập các số liệu vào bảng
Tính các tổng số:
Tổng hàng: Chọn ô E3 và nhập biểu thức =SUM(B3:D3) Dùng con trỏ kéo
nút tự điền từ ô E3 tới ô E5
Tổng cột: Chọn ô B5 và nhập biểu thức =SUM(B3:B4) Dùng con trỏ kéo
nút tự điền từ ô B5 tới ô D5
Trang 3 Tính các tần số lý thuyết:
Tần số lý thuyết = (tổng hàng x tổng cột)/tổng cộng
Nhập vào B8 biểu thức =B$5*$E3/$E$5, sau đó kéo nút tự điền đến D9, ta
có bảng:
Áp dụng hàm số “CHITEST”:
Cú pháp hàm CHITEST: CHITEST (actual_range, expected_range)
Nhập vào ô C11 biểu thức = CHITEST(B3:D4, B9:D10)
- Biện luận : vì P = 0.00219 < α = 0.05 nên bác bỏ giả thiết H0
- Kết luận : tỷ lệ công nhân nữ và công nhân nam trong việc sử dụng các phương
tiện giao thông đi làm là khác nhau
3
Trang 4Bài 2: Để nghiên cứu chiều cao của nam thanh niên của hai nước A và B, người ta lấy ngẫu nhiên ở mỗi nước 28 nam thanh niên và tiến hành đo chiều cao (tính bằng cm) thì được kết quả là:
Nước A:
Chiều cao 163-167 167-171 171-175 175-179 179-183 183-187
Nước B:
Chiều cao 163-167 167-171 171-175 175-179 179-183 183-187
a) Với độ tin cậy 95%, hãy ước lượng chiều cao trung bình của nam thanh niên ở mỗi nước
b) Có ý kiến cho rằng chiều cao của nam thanh niên ở hai quốc gia trên là khác nhau Với mức ý nghĩa 0,05 hãy nhận xét về ý kiến này
Giả sử chiều cao nam thanh niên ở mỗi nước có quy luật phân phối chuẩn
Bài giải
- Dạng bài: Thống kê mô tả và phân tích phương sai 1 yếu tố
- Phương pháp giải:
Câu a): Dùng “Descriptive Statistics” trong Excel để tính toán các giá trị
thống kê như giới hạn tin cậy 95%, độ lệch chuẩn (S) và hệ số phân tán (CV)
Câu b): Dùng “Single Factor”:
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát
* Giả thiết:
H0: µ1= µ2=…µk <=> ”Các giá trị trung bình bằng nhau”
H1: µ1≠ µ2 <=> ”Có ít nhất hai giá trị trung bình khác nhau”
* Giá trị thống kê: F = MSF MSE
* Biện luận :
Nếu F < Fα (k -1; N-k) => Chấp nhận giả thiết H0
Trang 5- Các bước thực hiện trong Excel:
Nhập dữ liệu vào bảng tính
Nhấp Data Analysis, hiện ra hộp thoại rồi chọn chương trình Descriptive Statistics
thoại Data Analysis:
Nhập Input
Range:
$A$29:$G$31
Chọn Grouped By: Rows.
Output Range: $A$33.
Đánh dấu Summary statistics và Confidence Level for Mean ghi 95%.
5
Trang 6 Ta được bảng:
Kết quả câu a): Vậy ta ước lượng được giá trị trung bình của chiều cao các thanh niên là 175 ± 7,853
Sau đó sang câu b), dùng “Single Factor”:
Trang 7 Trong hộp thoại Single Factor:
Input Range: Nhập $A$15:$G$16 Grouped By: Rows.
Đánh dấu Labels in first column.
Output Range: Nhập $A$19.
7
Trang 8 Ta được bảng:
Biện luận: Ta thấy F =1,21.10-15 < F crit = 4,9646 => Chấp nhận giả thuyết H0 ở mức ý nghĩa 5%
Kết luận : Vậy chiều cao của nam thanh niên ở hai quốc gia trên là như nhau.
Trang 9Bài 3: Tính tỷ số tương quan của Y đối với X, hệ số tương quan và hệ số xác định của tập
số liệu sau đây Với mức ý nghĩa α = 5%, có kết luận gì về mối tương quan giữa Y và X (Có phi tuyến không? Có tuyến tính không?) Tìm đường hồi quy của Y đối với X
- Dạng bài: Phân tích tương quan và hồi quy
- Phương pháp giải:
Áp dụng “Correlation” trong Excel để tìm các hệ số tương quan.
Kiểm định giả thiết H0: “X và Y không có tương quan tuyến tính” qua T.
Sử dụng “Regression” trong Excel để kiểm định giả thiết H0: X và Y hồi quy
tuyến tính.
- Các bước trình bày trong Excel:
Nhập dữ liệu vào bảng tính
9
Trang 10 Áp dụng “Correlation”: Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis, sau đó chọn phương trình Correlation trong hộp thoại Data Analysis rồi nhấp
nút OK
Trong hộp thoại Correlation, lần lượt ấn định các chi tiết:
Phạm vi đầu vào (Input Range) nhập vùng $A$54:$B$64.
Grouped By: Chọn Columns (sắp xếp theo cột).
Đánh dấu Labels in first row.
Phạm vi đầu ra (Output Range): Nhập $D$55
Trang 11 Ta được bảng như hình.
Thu được hệ số tương quan r = 0.319844 và hệ số xác định r2 = 0.1023
Giả thiết H0: X và Y không có tương quan tuyến tính.
Tính T = r√ √1−r n−22 = 0.954811.
Với c = 2,306 (Dùng hàm =TINV(0,05,10-2), bậc tự do n=10-2)
|T| < c nên ta chấp nhận H0, vậy X và Y không có tương quan tuyến tính.
Tiếp theo ta kiểm định giả thiết H0: Hệ số không thích hợp.
Data Analysis
chọn
Regression:
11
Trang 12 Trong hộp thoại Regression lần lượt ấn định:
Phạm vi đầu vào Input Y Range quét ($B$54: $B$64), Input X Range quét
vùng ($A$54: $A$64)
Đánh dấu Label
Phạm vi đầu ra (Output Range), chọn ô $H$55
Đánh dấu Line fit Plots trong Residuals để vẽ đường hồi quy.
Trang 13 Ta được bảng:
Biện luận:
Hệ số góc = 0,26
Hệ số tự do = 10,4
Giá trị P của hệ số tự do (P-value) = 0,109484317> α = 0,05 => Chấp nhận giả thiết H0
=>Hệ số tự do không có ý nghĩa thống kê
Giá trị P của hệ số góc (P-value) = 0,36763004> α = 0,05 => Chấp nhận giả thiết
H0
=>Hệ số góc không có ý nghĩa thống kê
Giá trị F (Significance F) = 0,36763> α = 0,05 => Chấp nhận giả thiết H0
=>Phương trình đường hồi quy không thích hợp
Kết luận:
Hệ số tương quan r = 0,319844
Hệ số xác định r² = 0,1023
X và Y không có tương quan tuyến tính với mức ý nghĩa 5%
Không có phương trình hồi quy thích hợp
13
Trang 14Bài 4: Trên cơ sở tập số liệu sau đây hãy phân tích xem tỷ lệ đỗ loại giỏi có phụ thuộc
vào trường phổ thông và ban hay không với mức ý nghĩa α = 0,05 Ở đây z là tỷ lệ đỗ loại
giỏi (%); f là trường phổ thông số 1, 2, 3, 4; g là ban (1 = Ban A, 2 = Ban B)
- Dạng bài: Bài toán phân tích phương sai hai yếu tố có lặp
S phân tích này nhằm đánh giá s ảnh hưởng của hai yếu tố trên các giá trị quan
sát Yij(i=1, 2…r: yếu tố A; j= 1 ,2…c: yếu tố B)
* Giả thiết:
H0: µ1= µ2 =… µk <=> ”Các giá trị trung bình bằng nhau” H1: µ1≠ µ1 <=> ”ít
nhất hai giá trị trung bình khác nhau”
* Giá trị thống kê:
FR = MSB MSE và FC = MSF MSE
* Biện luận:
Nếu FR < Fα[b-1,(k-1)(b-1)] => chấp nhận H0 (yếu tố A)
Nếu FC < Fα[b-1,(k-1)(b-1)] => chấp nhận H0 (yếu tố B)
Ta giả thiết H01: yếu tố Ban không ảnh hưởng đến tỷ lệ đỗ loại giỏi của trường
Ta giả thiết H02: yếu tố trường phổ thông không ảnh hưởng đến tỷ lệ đỗ loại giỏi của trường đó
- Phương pháp giải: Tính FR và FC bằng cách sử dụng “Anova: Two-Factor With Repli
cation”.
Trang 15- Các bước thực hiện:
Nhập dữ liệu vào bảng tính
Áp dụng “Anova: Two-Factor With Repli cation” Sau đó nhập vào các yếu
tố cần thiết trong hộp thoại như Input Range, Rows per sample (Số hàng trên
mỗi mẫu), Alpha, Output Range tương tự.
15
Trang 16 Sau đó ta được kết quả.
Biện luận:
FR = 11,571429 > F0.05 = 5,317655 => Bác bỏ giả thiết H01
FC = 55,380952 > F0.05 =4,066181=> Bác bỏ giả thiết H02
Kết luận : Như vậy cả 2 yếu tố Ban và trường phổ thông đều ảnh hưởng đến
tỷ lệ đỗ loại giỏi của những trường 1, 2, 3, 4