BTL nhóm 6 Xác suất thống kê Nguyễn Bá Thi đại học Bách Khoa TPHCM gồm 4 Bài tập lớn gồm các tiêu đề và cách giải cụ thể chi tiết từng mục trên file Excel có hướng dẫnGồm các dạng So sánh tỷ lệ, Ứoc lượng trung bình , so sánh trung bình với từng cặp dữ liệu , phân tích tương quan và hồi quy tuyến tính và phương pháp phân tích phương sai 2 nhân tố không lặp
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA TPHCM
Giáo viên hướng dẫn: Nguyễn Bá Thi
Trang 2CÂU 1
I.ĐỀ BÀI
Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi : Nhóm từ 40-50 tuổi và
nhóm từ 50-60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930
Oi - Các tần sô thực nghiệm (Observed Frequency)
Ei - Các tần số lý thuyết (Expacted Frequency)
Biện luận
Nếu χ2> χα2 => Bác bỏ giả thiết H0 (DF = k-1)
- Giá trị χ2 theo hàm CHITEST qua biểu thức :
Trang 3Oij - tần số thực nghiệm của ô thuộc hàng i cột j
Eij - tần số lý thuyết của ô thuộc hàng i cột j ,
c - số cột trong bảng ngẫu nhiên(contingency table)
Nếu P ( X > χ2 ) > α => chấp nhận giả thiết H0 và ngược lại
Trang 6II.DẠNG BÀI
+ Ước lượng trung bình
+ So sánh trung bình với từng cặp dữ liệu
III.PHƯƠNG PHÁP GIẢI
Ước lượng trung bình:
Giá trị trung bình: x̅ = ∑ni=1xi
n Giới hạn tin cậy: 𝑡𝛼 𝑆𝑥̅
So sánh trung bình với dữ liệu từng cặp:
Trong trường hợp hai mẫu nhỏ ( N < 30 ) phụ thuộc ( ví dụ : kết quả của một
nhóm chuột được xét nghiệm máu hai lần – trước và sau khi uống thuốc – hay một nhóm bệnh nhân trải qua hai thí nghiệm – được thử thuốc trên tay này và được thử thuốc trên tay kia ) và không giả định rằng phương sai của hai mẫu bằng nhau, bạn có thể áp dụng trắc nghiệm t để so sánh giá trị trung bình của hai mẫu
Trang 7+ Ước lượng trung bình: Dùng chương trình Descriptive Statistics để tìm trung
bình (mean) và giới hạn tin cậy (Confidence Level)
+ So sánh trung bình với dữ liệu từng cặp: Dùng chương trình “t-TEST: PAIRED
TWO SAMPLE FOR MEANS” để tìm tiêu chuẩn kiểm định (t Stat) và phân vị hai phía (t Critical two-tail)
VI.KẾT QUẢ VÀ CÁCH TÍNH
1.Ước lượng trung bình:
Nhập vào bảng số liệu :
Trang 8Thiết lập bảng Descriptive Statistics
+ Data Data Analysis Descriptive Statistics
+ Input range ( phạm vi đầu vào ) :$A$9:$B$24
+ Grouped By : columns
+ Confidence Level for Mean : 95%
Trang 9Ta có bảng số liệu xuất ra:
Trang 10Khoảng ước lượng:
Cách
tính
E26 E11+E26 G11-G26 G11+G26 Kết quả 81.7698 87.69687 89.17626 94.82374
E11-2 So sánh trung bình với dữ liệu từng cặp
Thiết lập bảng t-Test:Paired Two Sample for Means
+ Data Data Analysis t-Test:Paired Two Sample for Means
Ta nhập dữ liệu đầu vào như bảng với α = 0.05
Trang 11
Ta có bảng số liệu xuất ra
Giả thiết :
H0: μ1 = μ2 Chiến dịch quảng cáo không thành công
Vì |t|=3,5399 > tα/2=2,1448 nên bác bỏ giả thiết H0
VI.KẾT QUẢ
Chiến dịch quảng cáo thành công
Trang 12Tính tỷ số tương quan,hệ số tương quan và hệ số xác định của Y đối với X Với mức
ý nghĩa α =5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không ?
Có tuyến tính không ?)? Tìm đường hồi quy tuyến tính của Y đối với X
Tính sai số tiêu chuẩn của đường hồi quy
II.DẠNG BÀI
Phân tích tương quan
Hồi quy tuyến tính
III.PHƯƠNG PHÁP GIẢI
Phân tích tương quan
Hệ số tương quan dùng để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN , tuy
nhiên chưa có một chỉ tiêu để đo mức độ phụ thuộc nói chung
Hệ số tương quan giữa X và Y rất bé thậm chí bằng không thì giữa X và Y vẫn có
một mối quan hệ phi tuyến tính rất chặt chẽ
Vậy để đo mức độ phụ thuộc của đại lượng ngẫu nhiên Y và đại lương ngẫu
nhiên X người ta đưa ra khái niệm tỷ số tương quan
Hệ số tương quan : R = SXY
√ SXXSYY = ∑n (Xi −X ̅)( Yi−Y ̅)
i=1
√∑ n ( Xi−X ̅)2i=1 ∑ n ( Yi−Y ̅)2
i=1
Trang 13Hệ số tương quan dùng trong việc đánh giá mức độ liên quan
+Nếu R < 0.7 thì mức độ liên quan nghèo nàn
+Nếu |R|nằm trong khoảng 0.7 – 0.8 thì mức độ liên quan khá
+Nếu |R| nằm trong khoảng 0.8 – 0.9 thì mức độ liên quan tốt
+Nếu |R|< 0.9 thì mức độ liên quan xuất sắc
Với Y- Biến số phụ thuộc ( dependent/reponse variable )
X-biến cố độc lập ( independent/ predictor variable )
𝐵0 và B – các hệ số hồi quy ( regression coeficents )
Độ lệch chuẩn ( Standard Error ):
𝑆 = √ 1
𝑁 − 2∑(𝑌𝑖 − 𝑌′𝑖)
2
Kiểm định hệ số phương trình hồi quy tuyến tính:
Giả thiết: H0 : βi = 0 hệ số hồi quy không có ý nghĩa
H1 : βi ≠ 0 hệ số hồi quy có ý nghĩa
+ Sử dụng kiểm định t ( phân phối Student)
ti = |Bi −βi|
√Sn2 với Sn2 = S2
∑(Xi−X ̅) 2
Trang 14Phân phối Student : γ = N − 2
Nếu ti < tα (N-2) thì chấp nhận H0 và ngược lại
+ Sử dụng kiểm định F ( phân phối Fischer)
Giả thiết:H0 : βi=0 phương trình hồi quy không thích hợp
H1 : βi ≠ 0 phương trình hồi quy thích hợp
F = ∑(Y′i− Y′̅ )2
∑(Yi− Y′i)2⁄(N − 2)
Phân phối fischer : v1=1 và v2 = N-2
Nếu F < Fα(1,N-2) thì chấp nhận H0 và ngược lại
Trang 15Thiết lập bảng Correlation
Data Analysis Correlation
Input range: phạm vi đầu vào ($A$9:$B$25)
Grouped by: nhóm dữ liệu theo hàng hoặc cột ( chọn Column – cột )
Labels in Firt Row : gắn nhãn ở hàng đầu tiên ( chọn )
Chọn New worksheet Ply ( hiện trong bảng tính mới )
Trang 16|𝑇| < c nên chưa có cơ sở để bác bỏ H0 -> chấp nhận H0
Vậy X Y không có tương quan tuyến tính
2.PHÂN TÍCH TƯƠNG QUAN PHI TUYẾN
Trang 17+ Input Range ( Phạm vi đầu vào ) : $K$34$F$54
+ Grouped by ( Nhóm dữ liệu theo hàng hoặc cột ) : Column
+ Labels in Firt Row ( gắn nhãn ở hàng đầu tiên ) : chọn
Ouput Range ( phạm vi đầu ra ) : $B$44
Ta có bảng đầu ra :
Trang 19Ta có : phân bố Fischer với 𝛼 = 0.05 và (k-2,n-k) = ( 4,10 )
Tra bảng c =FINV(𝜶,k-2,n-k) =FINV(0.05,4,10) = 3.47805
Giả thiết : H1 : X Y không có tương quan phi tuyến
Ta có : F = 8.094031 > c = 3.47805 Bác bỏ giả thiết H1
Vậy X với Y có tương quan phi tuyến
3.TÌM ĐƯỜNG HỒI QUY CỦA Y ĐỐI VỚI X
Nhập lại bảng tính
Thiết lập bảng Regression :
+ Data Data Analysis regression
+ Input Y Range ( phạm vi đầu vào Y ) : $B$70:$B$85
+ Input X Range ( phạm vi đầu vào X ) : $A$70:$A$85
+ Labels (thêm nhãn dữ liệu )
Trang 20+Output Range ( Phạm vi đầu ra ) : $A$87
+ Line Fit Plots (Vẽ đồ thị )
Dữ liệu xuất ra :
Trang 21+ Hệ số góc : 2.335294
+ Hệ số tự do : 85.77794
Vậy Y = 2.335294.X + 85.77794
Độ lệch chuẩn ( Standard Error ) : S = 21.81337478
Sai số tiểu chuẩn của đường hồi quy tuyến tính : S2= 475.82332
Giả thiết : Ho : Hệ số hồi quy không có ý nghĩa
+ to = 8.6510546 > t0.05(14) = 2.145
Hay : giá trị P của hệ số tự do (p-value) : 5.45E-7 < = 0.05 bác bỏ giả thiết Ho
Hệ số tự do có ý nghĩa thống kê
+ t1 = 1.9740502 < t0.05(14) = 2.145
Hay Giá trị P của hệ số góc (p-value): 0.068444 > = 0.05chấp nhận giả thiết Ho
hệ số góc không có ý nghĩa thống kê
Trang 22
Giả thiết : H1 : phương trình hồi quy không thích hợp
+ X và Y không có tương quan tuyến tính với mức ý nghĩa 5%
+ Phương trình đường hồi quy tuyến tính Y = 2.335294X + 85.77794 là không thích hợp
Trang 24r i=1
2
T2rc
r j=1
r i=1
Trắc nghiệm
Giả thiết :
H0 : μ1 = μ2 =… μk “các giá trị trung bình bằng nhau”
H1 : μ1 ≠ μ2 “ Ít nhất hai giá trị trung bình khác nhau”
Trang 25+ Nếu FR < Fa [r-1,(r-1)(c-1)] chấp nhận giả thiết H0 ( yếu tố A )
+ Nếu FC < Fa[c-1,(r-1)(c-1)] chấp nhận giả thiết H0 ( yếu tố B )
Thiết lập bảng : Anova Two Factor Without Replication
DataData Analysis Anova Two Factor Without Replication
+ phạm vi đầu vào ( Input Range) : $A$9:$E$12
+ nhãn dữ liệu ( Labels in First Row/Column)
+ Alpha:0.1
+ phạm vi đầu ra ( Ouput range ) : $A$14
Trang 26 Doanh thu của cửa hàng phụ thuộc vào ngành nghề
Doanh thu của các cửa hàng không phụ thuộc vào khu vực kinh doanh