Báo cáo Bài Tập Lớn Xác Suất Thống Kê Nguyễn Bá Thi NHÓM 6Đại học Bách Khoa TPHCM

BTL nhóm 6 Xác suất thống kê Nguyễn Bá Thi đại học Bách Khoa TPHCM gồm 4 Bài tập lớn gồm các tiêu đề và cách giải cụ thể chi tiết từng mục trên file Excel có hướng dẫnGồm các dạng So sánh tỷ lệ, Ứoc lượng trung bình , so sánh trung bình với từng cặp dữ liệu , phân tích tương quan và hồi quy tuyến tính và phương pháp phân tích phương sai 2 nhân tố không lặp

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA TPHCM 

Giáo viên hướng dẫn: Nguyễn Bá Thi

Trang 2

CÂU 1

I.ĐỀ BÀI

Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi : Nhóm từ 40-50 tuổi và

nhóm từ 50-60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930

Oi - Các tần sô thực nghiệm (Observed Frequency)

Ei - Các tần số lý thuyết (Expacted Frequency)

Biện luận

Nếu χ2> χα2 => Bác bỏ giả thiết H0 (DF = k-1)

- Giá trị χ2 theo hàm CHITEST qua biểu thức :

Trang 3

Oij - tần số thực nghiệm của ô thuộc hàng i cột j

Eij - tần số lý thuyết của ô thuộc hàng i cột j ,

c - số cột trong bảng ngẫu nhiên(contingency table)

Nếu P ( X > χ2 ) > α => chấp nhận giả thiết H0 và ngược lại

Trang 6

II.DẠNG BÀI

+ Ước lượng trung bình

+ So sánh trung bình với từng cặp dữ liệu

III.PHƯƠNG PHÁP GIẢI

 Ước lượng trung bình:

Giá trị trung bình: x̅ = ∑ni=1xi

n Giới hạn tin cậy: 𝑡𝛼 𝑆𝑥̅

 So sánh trung bình với dữ liệu từng cặp:

Trong trường hợp hai mẫu nhỏ ( N < 30 ) phụ thuộc ( ví dụ : kết quả của một

nhóm chuột được xét nghiệm máu hai lần – trước và sau khi uống thuốc – hay một nhóm bệnh nhân trải qua hai thí nghiệm – được thử thuốc trên tay này và được thử thuốc trên tay kia ) và không giả định rằng phương sai của hai mẫu bằng nhau, bạn có thể áp dụng trắc nghiệm t để so sánh giá trị trung bình của hai mẫu

Trang 7

+ Ước lượng trung bình: Dùng chương trình Descriptive Statistics để tìm trung

bình (mean) và giới hạn tin cậy (Confidence Level)

+ So sánh trung bình với dữ liệu từng cặp: Dùng chương trình “t-TEST: PAIRED

TWO SAMPLE FOR MEANS” để tìm tiêu chuẩn kiểm định (t Stat) và phân vị hai phía (t Critical two-tail)

VI.KẾT QUẢ VÀ CÁCH TÍNH

1.Ước lượng trung bình:

Nhập vào bảng số liệu :

Trang 8

Thiết lập bảng Descriptive Statistics

+ Data Data Analysis  Descriptive Statistics

+ Input range ( phạm vi đầu vào ) :$A$9:$B$24

+ Grouped By : columns

+ Confidence Level for Mean : 95%

Trang 9

Ta có bảng số liệu xuất ra:

Trang 10

Khoảng ước lượng:

Cách

tính

E26 E11+E26 G11-G26 G11+G26 Kết quả 81.7698 87.69687 89.17626 94.82374

E11-2 So sánh trung bình với dữ liệu từng cặp

Thiết lập bảng t-Test:Paired Two Sample for Means

+ Data Data Analysis  t-Test:Paired Two Sample for Means

Ta nhập dữ liệu đầu vào như bảng với α = 0.05

Trang 11

Ta có bảng số liệu xuất ra

Giả thiết :

H0: μ1 = μ2 Chiến dịch quảng cáo không thành công

Vì |t|=3,5399 > tα/2=2,1448 nên bác bỏ giả thiết H0

VI.KẾT QUẢ

Chiến dịch quảng cáo thành công

Trang 12

Tính tỷ số tương quan,hệ số tương quan và hệ số xác định của Y đối với X Với mức

ý nghĩa α =5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không ?

Có tuyến tính không ?)? Tìm đường hồi quy tuyến tính của Y đối với X

Tính sai số tiêu chuẩn của đường hồi quy

II.DẠNG BÀI

Phân tích tương quan

Hồi quy tuyến tính

III.PHƯƠNG PHÁP GIẢI

Phân tích tương quan

Hệ số tương quan dùng để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN , tuy

nhiên chưa có một chỉ tiêu để đo mức độ phụ thuộc nói chung

Hệ số tương quan giữa X và Y rất bé thậm chí bằng không thì giữa X và Y vẫn có

một mối quan hệ phi tuyến tính rất chặt chẽ

Vậy để đo mức độ phụ thuộc của đại lượng ngẫu nhiên Y và đại lương ngẫu

nhiên X người ta đưa ra khái niệm tỷ số tương quan

Hệ số tương quan : R = SXY

√ SXXSYY = ∑n (Xi −X ̅)( Yi−Y ̅)

i=1

√∑ n ( Xi−X ̅)2i=1 ∑ n ( Yi−Y ̅)2

i=1

Trang 13

Hệ số tương quan dùng trong việc đánh giá mức độ liên quan

+Nếu R < 0.7 thì mức độ liên quan nghèo nàn

+Nếu |R|nằm trong khoảng 0.7 – 0.8 thì mức độ liên quan khá

+Nếu |R| nằm trong khoảng 0.8 – 0.9 thì mức độ liên quan tốt

+Nếu |R|< 0.9 thì mức độ liên quan xuất sắc

Với Y- Biến số phụ thuộc ( dependent/reponse variable )

X-biến cố độc lập ( independent/ predictor variable )

𝐵0 và B – các hệ số hồi quy ( regression coeficents )

Độ lệch chuẩn ( Standard Error ):

𝑆 = √ 1

𝑁 − 2∑(𝑌𝑖 − 𝑌′𝑖)

2

Kiểm định hệ số phương trình hồi quy tuyến tính:

Giả thiết: H0 : βi = 0 hệ số hồi quy không có ý nghĩa

H1 : βi ≠ 0 hệ số hồi quy có ý nghĩa

+ Sử dụng kiểm định t ( phân phối Student)

ti = |Bi −βi|

√Sn2 với Sn2 = S2

∑(Xi−X ̅) 2

Trang 14

Phân phối Student : γ = N − 2

Nếu ti < tα (N-2) thì chấp nhận H0 và ngược lại

+ Sử dụng kiểm định F ( phân phối Fischer)

Giả thiết:H0 : βi=0 phương trình hồi quy không thích hợp

H1 : βi ≠ 0 phương trình hồi quy thích hợp

F = ∑(Y′i− Y′̅ )2

∑(Yi− Y′i)2⁄(N − 2)

Phân phối fischer : v1=1 và v2 = N-2

Nếu F < Fα(1,N-2) thì chấp nhận H0 và ngược lại

Trang 15

Thiết lập bảng Correlation

Data  Analysis Correlation

Input range: phạm vi đầu vào ($A$9:$B$25)

Grouped by: nhóm dữ liệu theo hàng hoặc cột ( chọn Column – cột )

Labels in Firt Row : gắn nhãn ở hàng đầu tiên ( chọn )

Chọn New worksheet Ply ( hiện trong bảng tính mới )

Trang 16

|𝑇| < c nên chưa có cơ sở để bác bỏ H0 -> chấp nhận H0

Vậy X Y không có tương quan tuyến tính

2.PHÂN TÍCH TƯƠNG QUAN PHI TUYẾN

Trang 17

+ Input Range ( Phạm vi đầu vào ) : $K$34$F$54

+ Grouped by ( Nhóm dữ liệu theo hàng hoặc cột ) : Column

+ Labels in Firt Row ( gắn nhãn ở hàng đầu tiên ) : chọn

Ouput Range ( phạm vi đầu ra ) : $B$44

Ta có bảng đầu ra :

Trang 19

Ta có : phân bố Fischer với 𝛼 = 0.05 và (k-2,n-k) = ( 4,10 )

Tra bảng c =FINV(𝜶,k-2,n-k) =FINV(0.05,4,10) = 3.47805

Giả thiết : H1 : X Y không có tương quan phi tuyến

Ta có : F = 8.094031 > c = 3.47805  Bác bỏ giả thiết H1

Vậy X với Y có tương quan phi tuyến

3.TÌM ĐƯỜNG HỒI QUY CỦA Y ĐỐI VỚI X

Nhập lại bảng tính

Thiết lập bảng Regression :

+ Data Data Analysis  regression

+ Input Y Range ( phạm vi đầu vào Y ) : $B$70:$B$85

+ Input X Range ( phạm vi đầu vào X ) : $A$70:$A$85

+ Labels (thêm nhãn dữ liệu )

Trang 20

+Output Range ( Phạm vi đầu ra ) : $A$87

+ Line Fit Plots (Vẽ đồ thị )

Dữ liệu xuất ra :

Trang 21

+ Hệ số góc : 2.335294

+ Hệ số tự do : 85.77794

 Vậy Y = 2.335294.X + 85.77794

Độ lệch chuẩn ( Standard Error ) : S = 21.81337478

Sai số tiểu chuẩn của đường hồi quy tuyến tính : S2= 475.82332

Giả thiết : Ho : Hệ số hồi quy không có ý nghĩa

+ to = 8.6510546 > t0.05(14) = 2.145

Hay : giá trị P của hệ số tự do (p-value) : 5.45E-7 <  = 0.05  bác bỏ giả thiết Ho

 Hệ số tự do có ý nghĩa thống kê

+ t1 = 1.9740502 < t0.05(14) = 2.145

Hay Giá trị P của hệ số góc (p-value): 0.068444 >  = 0.05chấp nhận giả thiết Ho

 hệ số góc không có ý nghĩa thống kê

Trang 22

Giả thiết : H1 : phương trình hồi quy không thích hợp

+ X và Y không có tương quan tuyến tính với mức ý nghĩa 5%

+ Phương trình đường hồi quy tuyến tính Y = 2.335294X + 85.77794 là không thích hợp

Trang 24

r i=1

2

T2rc

r j=1

r i=1

Trắc nghiệm

Giả thiết :

H0 : μ1 = μ2 =… μk  “các giá trị trung bình bằng nhau”

H1 : μ1 ≠ μ2  “ Ít nhất hai giá trị trung bình khác nhau”

Trang 25

+ Nếu FR < Fa [r-1,(r-1)(c-1)]  chấp nhận giả thiết H0 ( yếu tố A )

+ Nếu FC < Fa[c-1,(r-1)(c-1)]  chấp nhận giả thiết H0 ( yếu tố B )

Thiết lập bảng : Anova Two Factor Without Replication

DataData Analysis Anova Two Factor Without Replication

+ phạm vi đầu vào ( Input Range) : $A$9:$E$12

+ nhãn dữ liệu ( Labels in First Row/Column)

+ Alpha:0.1

+ phạm vi đầu ra ( Ouput range ) : $A$14

Trang 26

 Doanh thu của cửa hàng phụ thuộc vào ngành nghề

 Doanh thu của các cửa hàng không phụ thuộc vào khu vực kinh doanh

Định dạng
Số trang	26
Dung lượng	1,23 MB