1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo Bài tập Lớn Xác suất thống kê trường ĐH Bách Khoa TP.HCM

20 797 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 479,59 KB

Nội dung

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA…………..o..O..o………….. BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊGiáo viên hướng dẫn : Nguyễn Bá ThiSinh viên : Hồ Duy AnhMSSV: 1610043Nhóm 13 Lớp A01D 1. Một xí nghiệp may sản xuất áo khoác với 4 màu: đỏ, xanh, vàng và tím than. Số khách hàng nam và nữ mua áo khoác với các màu được ghi trong bảng sau:Đỏ XanhVàngTím thanNữ62347142Nam1252235254Với mức ý nghĩa ∝ = 1%, hãy so sánh tỷ lệ nam và nữ ưa chuộng các màu sắc nói trên?Bài giải:Dạng bài : Bài toán kiểm định giả thuyết về tỉ lệ gồm nhiều mẫu.Giả thuyết H0 : tỷ lệ nam và nữ ưa chuộng các màu sắc áo khoác là như nhau.Giả thuyết (H_0 ) ̅ : tỷ lệ nam và nữ ưa chuộng các màu sắc áo khoác là khác nhau.Phương pháp giải: dung tiêu chuẩn χ2 để so sánh.Công cụ giải: dùng công thức Chitest để giải.Quy trình thực hiện bằng EXCELNhập dữ liệu vào bảng tính : Tính các tổng số trên bảngTheo hàng : nhập vào F15 biểu thức “=SUM(B15:E15)”, sau đó kéo nút tự điền đến F17. Theo cột : nhập vào B17 biểu thức “=SUM(B15:B16)”, sau đó kéo nút tự điền đến E17.Ta được bảng : + Tính các tần số lí thuyết :Nhập vào B20 biểu thức =B17F15F17, sau đó kéo nút tự điền đến E21 Ta có bảng: + Áp dụng hàm Chitest để tìm kết quả :Cú pháp hàm chitest : CHITEST (actual_range, expected_range)Điền vào ô H33 biểu thức =CHITEST(B15:E16,B20:E21)Ta được kết quả của P(X α = 0,05 => bác bỏ giả thiết H>Hệ số góc có ý nghĩa thống kêGiá trị F (Significance F) = 0,581892224> α = 0,05 => Chấp nhận giả thiết H>Phương trình đường hồi quy tuyến tính thích hợpKết luận:Tỷ số tương quan ηYX =0,211472206Hệ số tương quan r = 0,177098Hệ số xác định r² = 0,031364 X và Y không có tương quan tuyến tính với mức ý nghĩa 5%. X và Y không có tương quan phi tuyến với mức ý nghĩa 5%. Phương trình đường hồi quy của Y đối với X: Y = 0,001145X 4. Với mức ý nghĩa 0,05 , hãy phân tích sự biến động của thu nhập (thángngười) trên cơ sở số liệu điều tra về thu nhập cả 4 loại ngành nghề ở 4 khu vực khác nhau sau đây:Loại ngành nghềNơi làm việcV1V2V3V41212200230220222220522222532412502452354240228230240Bài giải:Dạng bài: Bài toán phân tích phương sai hai nhân tố không lặp.Phương pháp giải: Phân tích phương sai hai nhân tố không lặpCông cụ giải: Anova: TwoFactor Without Replication trong Data Analysis Giả thiết H0: Trung bình thu nhập tại 4 nơi làm việc bằng nhau Trung bình thu nhập cuả 4 loại ngành nghề bằng nhau Không có sự tương tác giữa loại ngành nghề và nơi làm việcQuy trình thực hiện bằng EXCEL. Nhập dữ liệu : Mở hộp thoại trong thẻ Data, chọn Anova : TwoFactor without replication Hộp thoai Anova: TwoFactor Without Replication xuất hiện,ta chọn:Input range: A174:E178Labels: chọnAlpha: 0.05Output range: A180 Ta được bảng kết quả sau: Biện luận :Frows (Loại ngành nghề) 8,7831 F3;9;0,95  3.862548 nên bác bỏ giả thuyết H0 Fcol (Nơi làm việc) 1,232806  F3;9;0,05  3.862548 nên chấp nhận giả thuyết H0Kết luận : Với mức ý nghĩa 5% Loại ngành nghề ảnh hướng đến mức thu nhập Nơi làm việc không ảnh hướng đến mức thu nhậ

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

………… o O o…………

BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giáo viên hướng dẫn : Nguyễn Bá Thi

Sinh viên : Hồ Duy Anh

MSSV : 1610043

Nhóm 13 - Lớp A01-D

Trang 2

1 Một xí nghiệp may sản xuất áo khoác với 4 màu: đỏ, xanh, vàng và tím than Số khách hàng nam và nữ mua áo khoác với các màu được ghi trong bảng sau:

Với mức ý nghĩa = 1%, hãy so sánh tỷ lệ nam và nữ ưa chuộng các màu sắc nói trên?

Bài giải:

- Dạng bài : Bài toán kiểm định giả thuyết về tỉ lệ gồm nhiều mẫu

- Giả thuyết H0 : tỷ lệ nam và nữ ưa chuộng các màu sắc áo khoác là như nhau

- Giả thuyết H´0 : tỷ lệ nam và nữ ưa chuộng các màu sắc áo khoác là khác nhau

- Phương pháp giải: dung tiêu chuẩn χ 2 để so sánh

- Công cụ giải: dùng công thức Chitest để giải

- Quy trình thực hiện bằng EXCEL

+ Nhập dữ liệu vào bảng tính :

+ Tính các tổng số trên bảng

Theo hàng : nhập vào F15 biểu thức “=SUM(B15:E15)”, sau đó kéo nút tự điền đến F17

Theo cột : nhập vào B17 biểu thức “=SUM(B15:B16)”, sau đó kéo nút tự điền đến E17

Trang 3

Ta được bảng :

+ Tính các tần số lí thuyết :

Nhập vào B20 biểu thức =B17*F15/F17, sau đó kéo nút tự điền đến E21

Ta có bảng:

+ Áp dụng hàm Chitest để tìm kết quả :

Cú pháp hàm chitest : CHITEST (actual_range, expected_range)

Điền vào ô H33 biểu thức

=CHITEST(B15:E16,B20:E21)

Ta được kết quả của P(X<X2)

- Biện luận : vì P = 1,72E-18< α = 0.01 nên bác bỏ giả thuyết H0

Trang 4

- Kết luận :Với mức ý nghĩa 1%: Tỷ lệ nam và nữ trong việc ưa chuộng màu

sắc là khác nhau

Trang 5

2: Điểm môn toán của một học sinh khối 5 của hai trường có số liệu như sau:

Với độ tin cậy 95%, hãy ước lượng điểm trung bình môn toán của hai trường Với mức ý nghĩa 5% hãy xem xét trung bình môn toán của hai trường có thực sự khác nhau không? Gỉa sử môn Toán có quy luật phân phối chuẩn.

Bài làm:

- Dạng bài: Ước lượng khoảng trung bình tổng thể và kiểm định sự khác biệt giữa hai

trung bình tổng thể

- Phương pháp giải: Ước lương đối xứng (không biết phương sai tổng thể; n<30) và

tiêu chuẩn Student

- Công cụ giải: Descriptive statistics và t-test : Two-Sample Assuming Equal

Variance ttrong cửa sổ Data Analysis

- Quy trình thực hiện bằng EXCEL:

+ Nhập số liệu vào bảng tính:

Mở hộp thoại Data Analysis chọn Descriptive Statistics (2 lần ứng với 2 trường A

và B)

Nhập vào hộp thoại Desciptive Statistics

+Lần 1

-Input Range: phạm vi dữ liệu nhập vào (ô A36 → Z36)

-Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng)

-Labels in first row: nhãn ở cột đầu tiên (chọn)

-Output Range: phạm vi dữ liệu xuất ra (ô A40)

-Tích dấu chọn vào Summary statistics

- Confidence Level for Mean: Nhập 95 (%)

+Lần 2

-Input Range: phạm vi dữ liệu nhập vào (ô A37 → Z37)

-Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng)

-Labels in first row: nhãn ở cột đầu tiên (chọn)

-Output Range: phạm vi dữ liệu xuất ra (ô A57)

-Tích dấu chọn vào Summary statistics

- Confidence Level for Mean: Nhập 95 (%)

Trang 6

3) Ta được bảng kết quả.

Trang 7

Kết luận:

- Điểm trung bình môn toán của trường A là : 7,6 ± 0,595796.

- Điểm trung bình môn toán của trường B là : 7,32 ± 0,542404.

Phần 2: KIỂM ĐỊNH ĐIỂM TRUNG BÌNH TOÁN CỦA HAI TRƯỜNG

- Gỉa thuyết H0 : Điểm trung bình môn Toán của hai trường là như nhau

- Gỉa thuyết H´0: Điểm trung bình môn Toán của hai trường là khác nhau

- Quy trình thực hiện bằng EXCEL:

Trang 8

+ Vào thẻ Data chọn và chọn hộp thoại t-Test Two-Sample Assuming Equal Variances

+ Hộp thoại t-Test Two-Sample Assuming Equal Variances xuất hiện

 Variable 1 Range: Nhập “$A$36:$E$36” (ô A36 → Z36)

Variable 2 Range: Nhập “$A$37:$E$37” (ô A37 → Z37)

Labels: Chọn

 Alpha: giá trị α =0,05

 Output Range: phạm vi dữ liệu xuất ra D57

-Ta thu được bảng sau:

Trang 9

+ Biện luận : Ta có : | t (Stat) |=0,717242 < t (Critical two-tail) =2,010635 nên ta chấp nhận giả thuyết H0

+ Kết luận : Điểm trung bình Toán của hai trường A và B là như nhau

-Tổng kết: Với độ tin cậy là 95% ta được

+ Điểm trung bình môn toán của trường A là : 7,6 ± 0,595796

+Điểm trung bình môn toán của trường B là : 7,32 ± 0,542404

Với mức ý nghĩa 5% ta được : Điểm trung bình Toán của hai trường A và B là như nhau

3.Từ 12 cặp quan sát (x i ,y i ) sau đây của hai cặp biến (X,Y) Tính tỷ số tương quan của Y đối với X ,hệ số tương quan và hệ số xác định của tập số liệu sau đây Với mức ý nghĩa α = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không ? Có tuyến tính không ?).Tìm đường hồi quy của Y đối với X.

X 123 356 111 118 123 356 111 118 123 356 11 1 118

Y 4,2 4,1 3,7 3,9 4,5 4,1 3 3,8 2 3,1 3,4 3

Bài giải

- Dạng bài : Bài toán kiểm định tương quan và hồi quy

- Phương pháp giải: tiêu chuẩn Student và Fisher

- Công cụ giải : Correlation, Anova Single Factor và Regression trong Data Analysis

- Quy trình thực hiện bằng EXCEL

1)Phân tích tương quan tuyến tính

- Giả thuyết H0 : X và Y không có tương quan tuyến tính

- Nhập dữ liệu vào máy tính

Mở hộp thoại trong thẻ Data, chọn Corelation

Trang 10

-Nhập vào hộp thoại Correlation

+Input Range: phạm vi đầu vào (ô A81 → M82)

+Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng) +Labels in first row: nhãn ở cột đầu tiên (chọn)

+Output Range: phạm vi dữ liệu xuất ra (ô A84)

 Ta nhận được bảng kết quả

Biện luận :

n = 12

Từ bảng, ta có hệ số tương quan r = 0,177098

Trang 11

Hệ số xác định r2 = 0,031364

Giá trị của T = 0,578165497 xác định theo công thức

T=rn−2

1−r2

Phân phối Student mức α = 0,05 với bậc tự do n-2 = 10, dung hàm TINV trong excel để tính ta được c = 2,22813885 (với cú pháp sử dụng hàm Tinv như sau =tinv(0,05;12-2) )

Vì |T|<c nên chấp nhận H0

Kết luận : X và Y không có tương quan tuyến tính

2) Phân tích tương quan phi tuyến :

-Giả thiết H1: X và Y không có tương quan phi tuyến

-Copy dòng 81 và 82 đến dòng 88 ,89

-Chọn vùng dữ liệu số cần sắp xếp lại, và sắp xếp theo dòng X

Nhập dữ liệu vào bảng tính sau khi đã sắp xếp lại

Mở hộp thoại chọn Anova Single Factor

Trang 12

Nhập vào hộp thoại Anova Single Factor.

 Input Range: phạm vi đầu vào (ô A91 → E94)

 Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn cột)

 Labels in first column: nhãn ở cột đầu tiên (chọn)

 Alpha: giá trị α =0,05

 Output Range: phạm vi dữ liệu xuất ra A96

Ta nhận được bảng kết quả :

n = 12 , k = 4

Tổng bình phương giữa các nhóm SSF = 0,24

Tổng bình phương nhân tố SST = 5,366667

η2

Y/X = SSF/SST = 0,044720494  Tỷ số tương quan : ηY/X=0,211472206

Giá trị F = 0,055929

Phân bố Fisher mức α = 0,05 với bậc tự do (k-2, n-k) = (2,4)

Dùng hàm FINV tính được

c = 3.68749867 (cú pháp hàm Finv được sử dụng như sau

=finv(0,05;2;8) )

Vì F < c nên chấp nhận giả thuyết H1

Trang 13

Kết luận:

Vậy X và Y không có tương quan phi tuyến.

3) Phân tích hồi quy (sử dụng Regression)

Giả thiết H: Hệ số không thích hợp

Nhập dữ liệu theo cột dọc bằng cách copy vùng dữ liệu từ

A81:M82 Chọn special paste rồi tích vào ô transpose rồi bấm

OK

Trang 14

Ta sẽ được bảng sau :

Mở Data Analysis chọn Regression

Hộp thoại Regression xuất hiện

Input Y Range: B113:B125

Input X Range: A113:A125

Labels: nhãn (chọn)

Line Fit Plots: vẽ đồ thị (chọn) Output Range: A127

Trang 15

Ta được bảng kết quả:

Trang 16

Biện luận:

Hệ số góc = 0,001145

Hệ số tự do =3,363998 Giá trị P của hệ số tự do (P-value) = 99,05E-06< α = 0,05 => chấp nhận giả thiết H

->Hệ số tự do không có ý nghĩa thống kê Giá trị P của hệ số góc (P-value) = 0,581892> α = 0,05 => bác bỏ giả thiết H

->Hệ số góc có ý nghĩa thống kê Giá trị F (Significance F) = 0,581892224> α = 0,05 => Chấp nhận giả thiết H

->Phương trình đường hồi quy tuyến tính thích hợp

Kết luận:

Tỷ số tương quan ηY/X =0,211472206

Hệ số tương quan r = 0,177098

Hệ số xác định r² = 0,031364

X và Y không có tương quan tuyến tính với mức ý nghĩa 5%

X và Y không có tương quan phi tuyến với mức ý nghĩa 5%

Phương trình đường hồi quy của Y đối với X: Y = 0,001145X

Trang 17

4 Với mức ý nghĩa 0,05 , hãy phân tích sự biến động của thu nhập ($/tháng/người) trên

cơ sở số liệu điều tra về thu nhập cả 4 loại ngành nghề ở 4 khu vực khác nhau sau đây:

Bài giải:

-Trung bình thu nhập cuả 4 loại ngành nghề bằng nhau

- Không có sự tương tác giữa loại ngành nghề và nơi làm việc

Quy trình thực hiện bằng EXCEL Nhập dữ liệu :

Mở hộp thoại trong thẻ Data, chọn Anova : Two-Factor without replication

Trang 18

Hộp thoai Anova: Two-Factor Without Replication xuất hiện,ta chọn:

Input range: A174:E178

Labels: chọn

Alpha: 0.05

Output range: A180

Ta được bảng kết quả sau:

Trang 19

Biện luận :

F rows (Loại ngành nghề) 8,7831 F3;9;0,95  3.862548 nên bác bỏ giả thuyết H0

F col (Nơi làm việc) 1,232806  F3;9;0,05  3.862548 nên chấp nhận giả thuyết H 0

Kết luận : Với mức ý nghĩa 5%

-Loại ngành nghề ảnh hướng đến mức thu nhập

-Nơi làm việc không ảnh hướng đến mức thu nhậ

Ngày đăng: 31/07/2018, 21:13

TỪ KHÓA LIÊN QUAN

w