Bài tập lớn Xác suất thống kê ĐH Bách khoa TP. Hồ Chí Minh Thời gian : Học kì II năm 2015 File Excel kèm theo : https:onedrive.live.comredir?resid=adfac44508e5f59e3435authkey=AFP7_CnIatggcithint=file%2cxlsx
Trang 1………… o O o…………
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giáo viên hướng dẫn : Nguyễn Bá Thi
Sinh viên : Phạm Quốc Du Thiên
MSSV : 51303834
Nhóm 11 - Lớp L07
Tp.HồChí Minh 07/04/2015
Trang 21 Một hãng sản xuất ôtô tiến hành một nghiên cứu nhằm xác định xem có sự khác nhau giữa tỷ lệ đàn ông và đàn bà trong việc chọn mua các loại ôtô của hãng hay không Kết quả thu được như sau:
Với mức ý nghĩa = 5%, ta cần phải đưa ra kết luận gì?
Bài giải:
- Dạng bài : bài toán kiểm định giả thuyết tỉ lệ
- Giả thuyết H0 : tỷ lệ đàn ông và đàn bà trong việc chọn mua các loại ôtô là như nhau
- Quy trình thực hiện bằng EXCEL
+ Nhập dữ liệu vào bảng tính :
+ Tính các tổng số trên bảng
Theo hàng : nhập vào E1 biểu thức “= SUM(B2:D2)”, sau đó kéo nút tự điền đến E3 Theo cột : nhập vào B4 biểu thức “= SUM(B2:B3)”, sau đó kéo nút tự điền đến E4
Ta được bảng :
+ Tính các tần số lí thuyết :
Nhập vào B9 biểu thức =B$4*$E2/$E$4, sau đó kéo nút tự điền đến D10
Trang 3Ta có bảng :
+ Áp dụng hàm Chitest để tìm kết quả :
Cú pháp hàm chitest : CHITEST (actual_range, expected_range)
Điền vào ô B12 biểu thức = CHITEST(B2:D3, B9:D10)
Kết quả ta được kết quả của P(X<X2)
- Biện luận : vì P = 0.5820927> α = 0.05 nên chấp nhận giả thuyết H0
- Kết luận : Tỷ lệ đàn ông và đàn bà trong việc chọn mua các loại ôtô là như nhau
Trang 42 Một nhà nông học tiến hành việc kiểm định hiệu quả của ba loại phân trên các cây cà chua và theo dõi số quả cà chua mọc trên mỗi cây Kết quả thu được như sau:
Loại phân
24
18
27
28
21
26
32
25
16
22
19
17 Với mức ý nghĩa = 5%, hãy so sánh số quả cà chua mọc trung bình khi bón ba loại phân A, B, C nói trên
Bài giải
- Dạng bài : Kiểm định giả thuyết trung bình
- Giả thuyết H0 : số quả cà chua mọc trung bình khi bón ba loại phân A, B, C là như
nhau
- Quy trình thực hiện bằng EXCEL
+ Nhập số liệu vào bảng tính
+ Kích hoạt Add-ins Analisis Toolpak, sau đó vào thẻ Data chọn và chọn
“Anova : Single factory”
Trang 5+ Hộp thoại Anova Single Factor xuất hiện
Input Range: phạm vi đầu vào $A$18:$C$22
Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn cột)
Labels in first column: nhãn ở cột đầu tiên (chọn)
Alpha: giá trị α =0,05
Output Range: phạm vi dữ liệu xuất ra A24
Ta thu được
Trang 6+ Biện luận : F = 3.855652 < F ngưỡng = 4.256495 nên ta chấp nhận giả thuyết H
+ Kết luận : số quả cà chua mọc trung bình khi bón ba loại phân A, B, C là như nhau
3 Tính tỷ số tương quan của Y đối với X ,hệ số tương quan và hệ số xác định của tập số liệu sau đây Với mức ý nghĩa = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không ? Có tuyến tính không ?).Tìm đường hồi quy của Y đối với X
X 210 90 240 50 240 270 130 270 90 240 130 170 50 170 210
Y 255 115 255 35 275 315 135 355 135 295 175 235 75 195 235
Bài giải
- Dạng bài : bài toán kiểm định tương quan và hồi quy
- Quy trình thực hiện bằng EXCEL
+ Phân tích tương quan tuyến tính
o Giả thuyết H0 : X và Y không có tương quan tuyến tính
o Nhập dữ liệu vào máy tính
Mở hộp thoại trong thẻ Data, chọn Corelation
Ta thu được kết quả
Trang 7
Biện luận :
n = 15
Từ bảng, ta có hệ số tương quan r = 0.9743558
Hệ số xác định r2 = 0.9493691
Giá trị của T = 15.61283 xác định theo công thức
Phân phối Student mức α = 0,05 với bậc tự do n-2 = 13, dung hàm TINV trong excel
để tính ta được c = 2.1603687
Vì |T|>c nên bác bỏ H0
Kết luận : X và Y tương quan tuyến tính
+ Phân tích tương quang phi tuyến :
o Giả thiết H1: X và Y không có tương quan phi tuyến
Copy dòng 43 và 44 đến dòng 56 ,57
Chọn vùng dữ liệu số cần sắp xếp lại, và sắp xếp theo dòng X
Ta thu được bảng số liệu
2
2 1
r n T
r
Trang 8Thống kê lại ta được số liệu :
Mở hộp thoại trong thẻ Data, chọn Anova Single Factor
Hộp thoại Anova Single Factor xuất hiện
Input Range: phạm vi đầu vào $B$60:$H$63
Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn cột)
Labels in first column: nhãn ở cột đầu tiên (chọn)
Alpha: giá trị α =0,05
Output Range: phạm vi dữ liệu xuất ra A60
Trang 9Ta nhận được kết quả
Biện luận:
n = 15 , k = 7
Tổng bình phương giữa các nhóm SSF = 114693.33
Tổng bình phương nhân tố SST = 119093.33
η2
Y/X = SSF/SST = 0.963054187 Tỷ số tương quan : ηY/X 0.981353243
Giá trị F = 0.592653396
Phân bố Fisher mức α = 0,05 với bậc tự do (k-2, n-k) = (5, 10)
Dùng hàm FINV tính được
c = F.INV.RT(0,05; 5; 10) = 0.931933161
F < c chấp nhận giả thiết H1
Trang 10+ Phân tích đường hồi quy
Giả thiết H: Hệ số không thích hợp
Nhập dữ liệu theo cột dọc bằng cách copy vùng dữ liệu A56->P57
Chọn special paste, check vào ô Transpose->OK
Trang 11Ta được bảng
Mở Data Analysis chọn Regression
Hộp thoại Regression xuất hiện
Input Y Range: $B$92:$B$107 Input X Range: $A$92:$A$107 Labels: nhãn (chọn)
Line Fit Plots: vẽ đồ thị (chọn) Output Range: $A$110
Trang 12Ta được bản số liệu
Trang 13Biện luận:
Hệ số góc = 1.169300226
Hệ số tự do = 6.10609480812639 Giá trị P của hệ số tự do (P-value) = 0.668535974062108> α = 0,05 => chấp nhận giả thiết H
->Hệ số tự do không có ý nghĩa thống kê Giá trị P của hệ số góc (P-value) = 8.41537970890307E-10< α = 0,05 => bác bỏ giả thiết H
->Hệ số góc có ý nghĩa thống kê Giá trị F (Significance F) = 8.41537970890307E-10< α = 0,05 => Bác bỏ giả thiết H
->Phương trình đường hồi quy thích hợp
Kết luận:
Tỷ số tương quan ηY/X =0.9813532
Hệ số tương quan r = 0.9743558
Hệ số xác định r² = 0.9493691
X và Y có tương quan tuyến tính với mức ý nghĩa 5%
Trang 14X và Y có tương quan phi tuyến với mức ý nghĩa 5%
Phương trình đường hồi quy của Y đối với X: Y = 01.169300226X + 6
Trang 154 Hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt động kinh tế của các hộ gia đình ở một vùng nông thôn trên cơ sở bảng số liệu về thu nhập của một số hộ tương ứng với các ngành nghề nói trên như sau(mức ý nghĩa 5 %):
Trồng lúa (1)
Trồng cây ăn quả (2)
Chăn nuôi (3)
Dịch vụ (4)
3.5:3.4:4.0 5.6:5.2:5.8 4.1:4.4:3.8 7.2:7.0:7.7
7.4:7.6:7.1 4.1:4.4:3.9 2.5:2.5:2.7 3.2:3.5:3.1
8.3:8.1:8.0 6.1:6.4:5.8 1.8:1.6:1.4 2.2:2.6:2.3
3.5:3.4:3.7 9.6:9.7:9.2 2.1:2.3:2.0 1.5:1.7:1.4
Bài giải:
- Dạng bài: bài toán phân tích phương sai hai yếu tố không lặp
- Giả thiết H: Các giá trị trung bình bằng nhau
- Quy trình thực hiện bằng EXCEL
Nhập dữ liệu :
Trang 16Tách xuất dữ liệu:
Nhập vào ô B165 phép toán “
=(VALUE(LEFT(B157,FIND(":",B157)-
1))+VALUE(MID(B157,FIND(":",B157)+1,FIND(":",B157,FIND(":",B157)+1)-
FIND(":",B157)-1))+VALUE(RIGHT(B157,LEN(B157)-FIND(":",B157,FIND(":",B157)+1))))/3”
Ta được bảng số liệu trung bình
Mở hộp thoại trong thẻ Data, chọn Anova : Two-Factor without replication
Chọn vùng dữ liệu và các thông số đi kèm như hình, -> OK, ta được bản số liệu
Trang 17Biện luận :
0.0
ow 2.004372056 5 3.862548
r
F F nên chấp nhận giả thuyết H(nghề chính)
0.05 0.119184704 3.862548
col
Kết luận :
Vậy cả nghề chính và nghề phụ đều ảnh hưởng đến thu nhập