Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
1,16 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giảng viên hướng dẫn: ThS Nguyễn Kiều Dung Nhóm sinh viên thực hiện: Nhó STT Họ tên SINH VIÊN MSSV m Ngành học /Tổ Nguyễn Trọng Đồng 1913130 dự Điện-Điện tử L04 Nguyễn Quốc Đạt 1913054 Điện-Điện tử L04 Ngô Minh Đạt 1913041 Lê Văn Hợp 1913485 Điện-Điện tử L04 Điện-Điện tử L04 Nguyễn Minh Công 1912804 Điện-Điện tử L04 Võ Quốc Hưng 1913656 Điện-Điện tử L04 Nguyễn Hoàng Luân 1911551 Phạm Hồng Thái 1915119 Xây dựng L04 Điện-Điện tử L04 Lương Ngọc Nam Huy 1913523 Ký tên tham Điện-Điện tử L04 1|Page Phụ lục Bài -4 A Lập toán B Cơ sở lý thuyết C Tính tốn tay D Tính excel -7 Bài -10 A Lập toán -10 B Cơ sở lý thuyết 11 C Tính toán tay -12 D Tính excel -13 Bài -16 A Lập toán -16 B Cơ sở lý thuyết 18 C Tính tốn tay -19 D Tính excel -20 Bài -23 A Lập toán -23 B Cơ sở lý thuyết 25 C Tính tốn tay -26 D Tính excel -27 Bài -29 A Lập toán -29 B Cơ sở lý thuyết 29 C Tính tốn tay -32 2|Page D Tính excel -33 Bài -35 A Lập toán -35 B Cơ sở lý thuyết 36 C Tính tốn tay -37 D Tính excel -38 3|Page Câu 1: Chọn biến định lượng thực hiện: - Tìm đặc trưng từ mẫu liệu Tìm khoảng tin cậy cho giá trị trung bình phương sai tổng thể A Lập toán * Chọn biến định lượng: Chi phí trung bình cho hoạt động giải trí sinh viên Bài tốn: Dựa số liệu thu thập từ khảo sát, tìm đặc trưng mẫu liệu “Chi phí trung bình cho hoạt động giải trí sinh viên “ Với độ tin cậy 99%, tìm khoảng tin cậy cho giá trị trung bình phương sai tổng thể B Cơ sở lý thuyết Mẫu liệu bao gồm số đặc trưng như: Giá trị trung bình, phương sai, độ lệch chuẩn, Tính tốn giá trị đặc trưng mẫu công việc cần thiết phân tích số liệu thống kê Trung bình mẫu: n ´x = ∑x n i=1 i Phương sai mẫu hiệu chỉnh: n S= x i−´x ) ∑ ( n−1 i=1 Độ lệch mẫu hiệu chỉnh: S= √ S2 Tìm khoảng tin cậy cho giá trị trung bình phương sai tổng thể với độ tin cậy 99%: Khoảng tin cậy cho giá trị trung bình: Bài tốn thuộc trường hợp n>30 , ( n=123 ) Ta có: P ¿) = P Đặt Z α = ⌋ ꜫ √n =1−α √ n< ( ⌊ X−a s s ) ꜫ √n , ta có s X−a N (0,1) nên Φ(Z α )=1−α s Tra bảng ta tìm Z α 4|Page ε= Zα S khoảng ước lượng a (x−ꜫ ; x + ꜫ) √n Khoảng tin cậy cho phương sai tổng thể: ( n−1 ) S 2 χ (n−1) Ta có : σ2 1 , theo định lí 6.4, ta có: Với ( P χ 1−α ( n−1 ) α < ( n−1 ) S 2 < χ α ( n−1 ) =1−α σ2 ) Từ đó, với mơt mẫu cụ thể ta có khoảng ước lượng là: ( ( n−1 ) S ( n−1 ) S ; ) χ 2α ( n−1 ) χ 21−α ( n−1 ) Để thuận tiện ta xét 1 Khi khoảng ước lượng là: ( n−1 ) S ( n−1 ) S2 ( ; ) χ α ( n−1 ) χ α ( n−1 ) 1− 2 C Tính tốn tay: Từ số liệu khảo sát ta có bảng thống kê chi phí trung bình cho hoạt động giải trí sinh viên sau Số lượng phần tử mẫu: n=123 Trung bình chi phí cho hoạt động giải trí sinh viên: n ´x = 25+25+ 25+…+175+200+200+ 200+200 x i= =97.3577 (nghìn đồng) ∑ n i=1 123 Trung vị mẫu liệu: 5|Page Med=75 (nghìn đồng) Yếu vị mẫu liệu: Mod=75 (nghìn đồng) Phương sai mẫu hiệu chỉnh: ( 25−97.3577 )2 + ( 25−97.3577 )2 +…+ ( 200−97.3577 )2 + ( 200−97.3577 )2 S= =3102.592 (nghìn 123−1 đồng2) Độ lệch mẫu hiệu chỉnh: S= √3102.592=55.70092 (nghìn đồng) Giá trị lớn mẫu: Max=200 (nghìn đồng) Giá trị bé mẫu: Min=25 (nghìn đồng) Khoảng tin cậy cho giá trị trung bình: Ta có: n=123>30 Gọi x trung bình chi phí cho hoạt động giải trí sinh viên: x=97.3577 (nghìn đồng) S=55.70092 (nghìn đồng) Do mẫu n>30 ,độ tin cậy đặt toán 99% tức là: 1−α=0.99 Φ ( Z α )= 0.99 =0.495 Dựa vào bảng ta có được: Z α =2.61 ε =Z α S 2.61 55.3577 = =13.0276 (nghìn đồng) √n √123 ( ´x −ε ; x´ + ε)=(97.3577−13.0276 ; 97.3577+13.0276) (nghìn đồng) Khoảng tin cậy cho phương sai tổng thể: Ta có 1−α=99 % 6|Page α =0.005 Từ mẫu ta có S2=3102.592 Tra bảng phân phối χ với n−1=122, ta có: χ 0.005 ( 122 )=165.9795; χ 0.995 ( 122 )=85.520 Vậy khoảng tin cậy là: 122.3102.592 ; =(2280.4999 ; 4426.0291) (Nghìn đồng ) ( 122.3102.592 165.9795 85.5205 ) D Tính tốn Excel: *Phương pháp: Tại phần mềm Excel, chức Descriptive Statistics hổ trợ việc tính tốn giá trị đặc trưng mẫu Để mở chức Excel, thực bước: Data → Data Analysis → Hộp option xuất hiện, chọn Descriptive Statistics nhấn OK Hộp Data Analysis 7|Page Hộp Descriptive Statistics Tại hộp Descriptive Statistics ta nhập liệu sau Input range: Nhập đầu vào liệu Grouped by: Dữ liệu xếp theo cột (Columns) hay hàng (Rows) Output Range: Tích chọn để chọn vị trí xuất liệu đầu Summary statistics: Thống kê tóm tắt Confidence Level for Mean: Độ tin cậy cho giá trị trung bình (Lưu ý: Dữ liệu đầu vào phải định dạng Number Excel xử lý.) Sau nhập liệu ta nhấn OK, kết nhận sau: 8|Page Các giá trị nhận được liệt kê bảng sau: Statistic Mean Standard Error Describle Giá trị trung bình mẫu liệu Giá trị sai số tiêu chuẩn mẫu (thước đo khác dự đoán Median Mode Standard thực tế) Trung vị mẫu liệu Mốt mẫu liệu Độ lệch chuẩn Deviation Sample Variance Kurtosis Skewness Range Minimum Maximum Sum Count Confidence Level Phương sai Giá trị KURT Giá trị SKEW Khoảng khảo sát Giá trị nhỏ Giá trị lớn Tổng giá trị phần tử mẫu liệu Tổng số lượng phần tử mẫu Khoảng tin cậy cho giá trị trung bình Nhận xét: Giá trị Confidence Level nhận ε =13,142.22 (đồng) Để tìm khoảng tin cậy cho phương sai liệu: Trong Excel để tìm khoảng tin cậy cho phương sai liệu ta sử dụng hàm CHISQ.INV.RT 2 để tính χ α (n−1) hàm CHISQ.INV để tính χ α (n−1) 1− 9|Page Nhập hàm vào nhập hàm để tìm giá trị χ α (n−1): Kết nhận được: Ta làm tương tự để tìm giá trị χ 1− α (n−1): Kết nhận được: Dựa vào hai hết vừa có ta tính khoảng tin cậy phương sai: Ta có khoảng tin cậy phương sai: Nhận xét: khoảng tin cậy phương sai (2280.50; 4426.03) (Nghìn đồng2) Câu 2: Chọn liệu biến định lượng (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập tốn kiểm định so sánh trung bình tổng thể A Lập toán: * Chọn biến định lượng: Chỉ số đánh giá mức độ ưu tiên sinh viên với hoạt động chơi thể thao chơi game (thể thao điện tử ) 10 | P a g e Chú thích: Dữ liệu 1: Nơi sinh viên Dữ liệu 2: Mức độ ưu tiên sinh viên cho hoạt động chơi thể thao Với mức ý nghĩa α =5 %, so sánh phân bố tỉ lệ mức ưu tiên với nơi cảu sinh viên B Cơ sở lý thuyết: Trong thống kê, kiểm định chi bình phương hay kiểm tra χ (đơi đọc "khi bình phương") họ phương pháp kiểm định giả thiết thống kê thống kê kiểm định tuân theo phân bố χ giả thuyết không Dạng thống kê kiểm định thông dụng là: ( o−e)2 Với o liệu đo đạc , e giá trị dự đốn xác γ = e Xét A gồm r tính trạng, A = (A1, A2, ,Ar), cá thể tập hợp H có có tính trạng (hay phạm trù) Ai Gọi pi (i = 1, 2, r) tỷ lệ cá thể tính trạng Ai tập hợp H Khi véctơ =(p1, p2, ,pr) gọi phân bố A tập hợp H Giả sử (p1, p2, pr) phân bố (A1, A2, ,Ar) tập hợp H (q1, q2, ,qr) phân bố A = (A1, A2, ,Ar) tập hợp Y Ta nói (A1, A2, ,Ar) có phân bố X Y (p1, p2, ,pr) = (q1, q2, ,qr) p1 = q1, ,pr = qr Chúng ta muốn kiểm định xem A = (A1, A2, ,Ar) có phân số X Y hay không dựa mẫu ngẫu nhiên rút từ X Y Tổng quát hơn, giả sử ta có k tập hợp H1, H2, Hk Gọi π i=( p i1 , pi2 , … , pir ) phân bố A = (A1, A2, ,Ar) tập hợp Hi 30 | P a g e Ta muốn kiểm định giả thuyết sau: H :π 1=π 2=…=π k(Các phân bố tập hợp Hi) Chú ý H0 tương đương với hệ đẳng thức sau: { p 11= p21= = p k1 p 12= p22= = p k2 k p i = pi = = p i p 1r = p2r = = p kr Từ tập hợp chọn mẫu ngẫu nhiên Mẫu ngẫu nhiên chọn từ tập hợp Hi gọi mẫu ngẫu nhiên thứ i (i = 1, 2, k) Giả sử mẫu ngẫu nhiên thứ i: Có n1i cá thể có tính trạng A1 n2i cá thể có tính trạng A2 nri cá thể có tính trạng Ar k r Ký hiệu: nio =∑ nij ; n oj =∑ nij j=1 i=1 Như n oj kích thước mẫu thứ j, cịn nio tổng số cá thể có tính trạng Ai toàn k mẫu xét: k r n=∑ noj =∑ nio j=1 i=1 Nếu giả thiết H0 nghĩa là: { p 11= p21= = p k1= p1 p 12= p22= = p k2= p2 k p i = pi = = p i = pi p1r = p2r = =p kr = pr nio n Đó ước lượng cho xác suất để cá thể có mang tính trạng Ai số cá thể có tính trạng Ai mẫu thứ j xấp xỉ bằng: tỷ lệ chung p1, p2, pr ước lượng bởi: ^ pi = n^ij =noj × ^ p i= noj × nio n Các số n^ij (i 1,2, r; j 1,2, k)được gọi tần số lý thuyết (TSLT), số nij gọi tần số quan sát (TSQS) 31 | P a g e Ta định bác bỏ H0 TSLT cách xa TSQS cách bất thường Khoảng cách TSQS TSLT đo test thống kê sau đây: T =∑ (TSQS−TSLT )2 TSLT Người ta chứng minh H0 TSLT khơng nhỏ T có phân bố xấp xỉ phân bố với (k-1)(r-1) bậc tự Thành thử miền bác bỏ có dạng {T > c} c tìm từ điều kiện P{T > c} = Vậy c phân vị mức phân bố 2 với (k-1)(r-1) bậc tự Đối với thí nghiệm có kết quả, để so sánh tỉ số kết đó, ta dùng kiểm định 2 (chi-quared): r c γ =∑ × ∑ × i=1 j=1 (n ij −n p i)2 tổng hàng× tổng cột với npi= n pi n nij : tần số thực nghiệm; np ij: tần số lý thuyết ô (i;j); r: số hàng; c: số cột Dùng hàm CHITEST(actual_range, expected_range) Tính giá trị P(X>γ 2)=CHITEST Nếu trị P(X>γ 2)>α chấp nhận H0 ngược lại Các bước thực hiện: Bước 1: Đặt giả thuyết toán kiểm định Giả thiết kiểm định H0: X, Y độc lập Giả thiết đối H1: X, Y không độc lập Bước 2: Tìm miền bác bỏ Wα= ( χ 2α (số hàng -1)*(số cột -1) ; +∞) Bước 3: Do giả thiết X, Y độc lập nên xác suất tính theo lý thuyết là: pi j P(X A i ;Y B j ) P(X Ai ) * P(Y B j ) ni m j * n n Suy tần số lý thuyết là: E ij n * pij ni * m j n tonghangi * tong cot j kichthuocmau Tính tiêu chuẩn kiểm định: qs i; j O ij E ij E ij i; j Observed i j Expected ij Expected ij 32 | P a g e hoặc: qs n ij2 n n i; j n i m j Bước 4: Kết luận toán dựa vào tiêu chuẩn kiểm định miền bác bỏ Lưu ý: Kiểm định Chi-Bình-Phương coi xác tất giá trị bảng tần số lý thuyết lớn hay Vì bảng tần số lý thuyết xuất số nhỏ ta nên xếp lại liệu ban đầu cho thích hợp thực lại tốn C Tính tốn tay: Gọi X mức ưu tiên sinh viên với hoạt động thể thao, Y nơi sinh viên Giả thuyết kiểm định H0: X,Y độc lập “Mức ưu tiên cho hoạt động thể thao sinh viên không phụ thuộc vào nơi ở” H1: X,Y phụ thuộc “Mức ưu tiên cho hoạt động thể thao cảu sinh viên có phụ thuộc vào nơi ở” Tìm miền bác bỏ: W α =( χ 2α × ( số hàng−1 ) × ( số cột −1 ) ;+∞ ) =( χ 20,01 ×2 ×2 ;+ ∞ ) =( 9,49 ;+ ∞ ) Tính tổng cột hàng bảng tần số thực nghiệm O ij: Từ ta tính tần số lý thuyết Eij: 33 | P a g e Giá trị thống kê: α χ =∑ ( Oij −E ij ) E ij i; j (4−6,34 )2 (8−8,45)2 (12−15,83)2 = + +…+ =3,57 6,34 8,45 15,83 ( ) Hay: n2ij 42 82 152 122 122 χ =n× ∑ −n=115× + + +…+ + −115=3,57 27 ×27 27 ×36 35 × 52 35 ×36 35 ×52 i , j ni × m j qs ( ) ( ) Ta thấy: χ 2qs ∉W α ⟹Chấp nhận H0 Vậy mức độ ưu tiên cho hoạt động chơi thể thao sinh viên không phụ thuộc vào nơi bạn D Tính tốn Excel: Dạng bài: So sánh tỉ số Công cụ: Hàm CHITEST Bước 1: Nhập số liệu Bước 2: tính tổng cột hàng công cụ autosum 34 | P a g e Bước 3: Lập bảng tần số lí thuyết Bước 4: Tính p-value = hàm chitest Bước 5: kết luận Ta thấy p-value > mức ý nghĩa α = 5% 35 | P a g e ⟹ Chấp nhận H0 Vậy mức độ ưu tiên cho hoạt động chơi thể thao sinh viên không phụ thuộc vào nơi bạn Câu 6: Khảo sát hệ số tương quan biến định lượng cụ thể, dự đốn phương trình đường hồi quy tuyến tính chúng ( có hình vẽ minh họa) nhận xét mối tương quan tuyến tính biến A: Lập toán Khảo sát hệ số tương quan biến Số lần tham gia hoạt động tuần Thời gian trung bình ngày cho hoạt động giải trí Dự đốn phương trình đường hồi quy tuyến tính chúng nhận xét mối tương quan Số lần tham gia hoạt động tuần 1.50 Thời gian trung bình ngày cho hoạt động giải trí 1.50 1.50 8.00 2.50 3.50 3.00 3.00 0.50 2.50 10 11 12 6.00 3.00 3.00 3.00 3.00 1.50 … … 1.50 3.50 1.50 2.50 1.50 1.50 … … 115 116 117 118 119 120 121 122 123 124 3.00 3.00 3.00 6.00 3.00 6.00 3.00 3.00 1.50 3.00 2.50 2.50 1.50 2.50 2.50 1.50 1.50 1.50 2.50 1.50 36 | P a g e B: Cơ sơ lý thuyết Hệ số tương quan Phân tích tương quan: Hai biến số ngẫu nhiên X, Y liên quan tuyến tính, có khuynh hướng tuyến tính không liên quan đến Hệ số tương quan: Nếu R > X, Y tương quan thuận Nếu R < X, Y tương quan nghịch Nếu R = X, Y khơng tương quan Nếu | R | = X, Y có quan hệ hàm bậc Nếu | R | → X, Y có tương quan chặt (tương quan mạnh) Nếu | R | → X, Y có tương quan khơng chặt (tương quan yếu) Quan hệ X Y: Chúng ta muốn kiểm định giả thiết liên quan đến giả thiết giá trị khác hệ số tương quan tổng thể, ký hiệu, dựa phân phối mẫu hệ số tương quan mẫu R Kiểm định giả thuyết: Đối với R: (hoặc >0 Chấp nhận giả thuyết 37 | P a g e Kiểm định phương trình hồi quy: Giả thuyết: Phương trình hồi quy tuyến tính khơng thích hợp(= 0) Giả thuyết: Phương trình hồi quy tuyến tính thích hợp( ≠ 0) Trắc nghiệm F F (1, n 2) => Chấp nhận giả thuyết Dạng bài: Phân tích tương quan hồi quy Phương pháp giải: Dùng tiêu chuẩn Student Fisher C: Tính tốn tay Từ số liệu thu thập, ta tổng hợp bảng số liệu đây: Với X thời gian trung bình tham gia hoạt động giải trí ngày; Y số lần tham gia hoạt động giải trí tuần Từ bảng trên, ta dễ dàng tính kiện sau đây: n=123 , S x =1,3107 , S^x =1.3054 , ´x =2.5367 S y =2.1533, ^ S y =2.1446 , ´y =3.813 , xy ´ =10.3354 Ta tìm hệ số tương quan công thức sau: xy ´ −´x ´y 10.3354−2.5367 ×3.813 =0.2369 Hệ số tương quan: r = ^ ^ = 2.1446 ×1.3054 Sx S y Phương trình hồi quy: { xy ´ −´x ´y 10.3354−2.5367 × 3.813 = =0.389 S^x 1.30542 A= ´y −B ´x =3.813−0.389 ×2.5367=2.825 B= 38 | P a g e ⟹ y= A+ Bx=2.825+0.389 x D: Tính tốn Excel Xác định hệ số tương quan : Bước 1: Nhập bảng số liệu vào Excel 39 | P a g e Bước 2: Sử dụng công cụ “Correlation” Data/ Data Analysis Bước 3: Chọn cách mục hình Input: địa tuyệt đối chứa liệu Labels in first row New Wordksheet Ply Kết quả: 40 | P a g e Kết luận: Dựa vào kết Excel ta có hệ số tương quan: R = 0.236958 chứng tỏ “Số lần tham gia hoạt động tuần” “Thời gian trung bình ngày cho hoạt động giải trí” có quan hệ không chặt chẽ tương quan thuận Dự đốn phương trình đường hồi quy tuyến tính: Bước 1: Nhập bảng số liệu 41 | P a g e Bước 2: Sử dụng công cụ “Regression” Data/ Data Analysis Bước 3: Chọn mục hình Kết quả: 42 | P a g e Bước 4: Kết luận Kiểm định hệ số a, b có nghĩa thống kê (a hệ số tự do, b hệ số góc) Giả thuyết : a, b khơng có ý nghĩa thống kê Giả thuyết : a, b có ý nghĩa thống kê 10 P – Value = 3, 71.e 0, 05 → Bác bỏ giả thuyết Vậy hệ số tự a có ý nghĩa thống kê P – Value = 0.008319 < 0.05 → Bác bỏ giả thuyết Vậy hệ số góc b có ý nghĩa thống kê Kiểm định đường hồi quy tuyến tính Giả thuyết : Phương trình đường hồi quy tuyến tính khơng thích hợp Giả thuyết Phương trình đường hồi quy tuyến tính thích hợp Significance F = 0,008312 < 0.05 → Bác bỏ giả thuyết ^ y 2,825 0,389 x có ý Vậy hai hệ số 2,825(a) 0,389(b) phương trình hồi quy x nghĩa thống kê Nói cách khác, phương trình hồi quy thích hợp Nhận xét mối tương quan giữa “Số lần tham gia hoạt động tuần” “Thời gian trung bình ngày cho hoạt động giải trí” Bước 1: Nhập bảng số liệu 43 | P a g e T R Bước 2: Tính giá trị quan sát: T 0, 237 n2 R2 123 2, 683 0, 237 Bước 3: Tính giá trị ngưỡng c hàm TINV c = 1,979764 Biện luận: Giả thuyết H1: biến không tương quan Giả thuyết H2: biến có tương quan T c => Bác bỏ giả thuyết H1 Kết luận: biến có tương quan tuyến tính 44 | P a g e ... thống kê, kiểm định chi bình phương hay kiểm tra χ (đơi đọc "khi bình phương") họ phương pháp kiểm định giả thiết thống kê thống kê kiểm định tuân theo phân bố χ giả thuyết không Dạng thống kê. .. luận Kiểm định hệ số a, b có nghĩa thống kê (a hệ số tự do, b hệ số góc) Giả thuyết : a, b khơng có ý nghĩa thống kê Giả thuyết : a, b có ý nghĩa thống kê 10 P – Value = 3, 71.e 0,... Bác bỏ giả thuyết Vậy hệ số tự a có ý nghĩa thống kê P – Value = 0.008319 < 0.05 → Bác bỏ giả thuyết Vậy hệ số góc b có ý nghĩa thống kê Kiểm định đường hồi quy tuyến tính Giả thuyết