phương pháp thích hợp, vẽ biểu đồ istogram, tìm đường hồi qui, tìm khoảng tin cậy đối với độ dốc, tìm một khoảng tin cậy đối với giá trị trung bình của biến phụ thuộc,thực hiện tìm đường hồi qui và đánh giá năng lực dự báo c
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
642 KB
Nội dung
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI o0o BÀI TẬP LỚN MÔN Phân tích thống kê số liệu Nhóm Sinh viên: Nguyễn sỹ Mạnh Bùi Thị Trang Giáo viên hướng dẫn: Th.S Nguyễn Phương Nga Hà nội Lời Nói Đầu Trước việc nghiên cứu, tính toán cho tập liệu công việc tương đối khó khăn thời gian Nhưng ngày nay, với trợ giúp CNTT công việc đơn giản nhiều Đặc biệt SPSS for Windows cung cấp hệ thống quản lý liệu, phân tích thống kê môi trường đồ họa, sử dụng trình đơn mô tả (menu) hộp thoại (dialogue box) đơn giản để thực hầu hết công việc cho bạn Phần lớn nhiệm vụ hoàn thiện cách rê nhắp chuột Trong phần trình bày này, nhóm xin đưa số tập, phân tích tham số mô tả đặc trưngphươngphápthíchhợp,vẽbiểuđồ histogram, tìmđườnghồiqui,tìmkhoảngtincậyđộdốc,tìmkhoảngtincậygiátrịtrungbìnhbiếnphụthuộc,thựctìmđườnghồiquiđánhgiálựcdựbáo mô hình,…Bằng việc sử dụng phần mềm SPSS Do thời gian nghiên cứu hiểu biết nhiều hạn chế Chính Trình bày không tránh sai sót, mong nhận đóng góp cô giáo bạn Và chúng em xin cảm ơn cô giáo Nguyễn Phương Nga tận tình hướng dẫn nhóm chúng em làm bàobáo cáo Nhóm chúng em xin chân thành cảm ơn! I Một số tập sử dụng phần mền SPSS Bài1: Cho tập số liệu kết thực nghiệm: 33 33 32 33 30 25 31 34 22 26 29 29 32 35 24 33 34 34 X8 31 X17 34 X9 32 X18 35 A Hãy tính đại lượng đặc trưng tập số liệu B Phân tích, đánhgiá tập số liệu Bài Làm: Sắp xếp tập số liệu theo giátrị tăng dần X1 22 X10 32 X2 24 X11 33 X3 25 X12 33 X4 26 X13 33 X5 29 X14 33 X6 29 X15 34 A Tính đại lượng đặc trưng tập số liệu X7 30 X16 34 • Dùng kiểm định Alalyze→Descriptives→frequencies Bảng phân bổ tần suất Xi Cumulative Frequency Valid Percent Valid Percent Percent 22 5.6 5.6 5.6 24 5.6 5.6 11.1 25 5.6 5.6 16.7 26 5.6 5.6 22.2 29 11.1 11.1 33.3 30 5.6 5.6 38.9 31 5.6 5.6 44.4 32 11.1 11.1 55.6 33 22.2 22.2 77.8 34 16.7 16.7 94.4 35 5.6 5.6 100.0 18 100.0 100.0 Total Các đại lượng đặc trưng tập số liệu Statistics Xi N Valid Missing 18 Mean ( Trung bình) 30.5000 Std Error of Mean 91555 Median (Trung vị) 32.0000 Mode (Số trội) 33.00 Std Deviation (Độ lệch chuẩn) 3.88436 Variance (Phương sai) 15.088 Range (khoảng cách) 13.00 Minimum 22.00 Maximum 35.00 Sum Percentiles 549.00 25 28.2500 50 32.0000 75 33.2500 - M0 = 33 - Med = ½ * [Xn/2 + X(n/2+1)] = 32 X = 30,5 - S = 15,088 Đặc trưng cho sai biệt tập kết đặc trưng cho độ phân tán tập số liệu vớigiátrịtrungbìnhPhương sai lớn sai biệt độ phân tán xung quanh lớn - Sf = S2 = 3,9 có ý nghĩa phương sai - Cv = 12,7% B Phân tích đánhgiá tập số liệu mẫu - Khoảng xác tincậy tập số liệu là: Δx (p,f) = X- μ= t(p,f)* S¯x = 1,94 - Khoảng giới hạn tincậy tập số liệu là: ¯X - t(p,f) * Sf< Xi < ¯X + t(p,f) * Sf 28,57 < Xi < 32,43 (với độtincậy thống kê 95%) Bài2: Sử dụng phươngpháp nghiên cứu A, B, C D Kết làm lặp lại theo phươngpháp lần thu bảng N Ph2A 18,00 18,05 17,95 18,15 17,95 18,20 Ph2B 18,55 17,60 18,00 18,30 18,25 17,90 Ph2C 17,65 17,70 17,90 17,65 17,85 17,75 Ph2D 19,10 18,40 18,10 18,70 18,80 18,50 A Tính giátrịtrung bình, phương sai phươngpháp nhận xét B Biết giátrị thật 18,1 Phân tích đánhgiá sai số phươngpháp Bài làm: A • Dùng phần mềm SPSS Statistics ph2A N ph2B ph2C ph2D Valid 6 6 Missing 0 0 18.0500 18.1000 17.7500 18.6000 Std Error of Mean 04282 13723 04282 14142 Std Deviation 10488 33615 10488 34641 011 113 011 120 108.30 108.60 106.50 111.60 25 17.9500 17.8250 17.6500 18.3250 50 18.0250 18.1250 17.7250 18.6000 75 18.1625 18.3625 17.8625 18.8750 Mean Variance Sum Percentiles Ta X S2 Ph2A 18,05 0.012 Ph2B 18,10 0.112 Ph2C 177,75 0.018 Ph2D 18,60 0.120 Theo kết phân tích ta thấy Nếu nghiên cứu theo phươngpháp A, B , C D sai biệt số liệu kết thực nghiệm độ phân tán xung quanh giátrịtrungbình tương đối nhỏ Tuy nhiên vớiphươngpháp A nhỏ B Phân tích đánhgiá sai số phươngpháp - Phươngpháp A ta = 0,354 > = 2,57 →x ≡ μ → sai số ngẫu nhiên Xi phân bố hai phái giátrị thực trục số Sai số gặp phải ta giảm sai số ngẫu nhiên - Phươngpháp B tB = < tb = 2,57 → mắc sai số ngẫu nhiên - PhươngphápC tc = 6,48 >> tbảng(95,5) = 2,57 →x ≠ μ → sai số hệ thống Xi Tập trung phía giátrị thực trục số Ta loiaj bỏ sai số tìm nguyên nhân tD = 3,54 → mắc sai số hệ thống Bài 3: Hai nghiên cứu A B thu kết sau A B A B A B 4,40 4,42 4,75 4,29 4,60 - 4,56 4,47 4,72 4,52 4,36 - 4,42 4,70 4,53 4,57 4,75 - 4,59 4,72 4,66 4,56 4,22 - 4,55 4,53 4,90 4,66 4,45 4,55 4,50 - 4,55 4,60 4,45 - 4,39 4,64 4,66 - A Phân tích đại lượng đặc trưng tập kết thực nghiệm B So sánh giátrịtrungbìnhgiátrịphương sai thực nghiệm A B Bài làm: A.Các đại lượng đặc trưng tập số liệu Theo phân tích SPSS ta có B Ta thấy F = 2,12 < Fb(95,12,19) = 2,54 Vậy ta chấp nhận Ho bác bỏ Ha Tức chấp nhận S2A = S2B Theo kết phân tích ta có Kết A: - Khoảng tập số liệu:R= 0,68 - Giátrịtrung bình: ¯X = 4,56 - Độ lệch chuẩn Sf = 0,17 - Phương sai S2 = 0,03 Kết B: - Khoảng tập số liệu:R= 0,43 - Giátrịtrung bình: ¯X = 4,54 - Độ lệch chuẩn Sf = 0,12 - Phương sai S2 = 0,14 B So sánh phương sai Ta thấy F= S2A/S2B = 2,12 tt(0,95,9) = 2,26 Vậy hai kết nghiên cứu khác Bài 5: Xác định ảnh hưởng nhân tố A lên thí nghiệm người ta thu kết sau Hãy phân tích phương sai xem A có ảnh hưởng lên kêt thực nghiệm không? Mức nghiên cứu a1 a2 a3 Lần lặp 1 9 16 16 23 Ta có: SS1 = 12 + 42 + 92 + 42 + 92 + 162 + 92 + 162 + 232 =1812 SS2 = 1/3 (142+ 292 + 482) = 1113,7 SS3 = 1/6 (14 + 29 + 48)2 = 1380,2 Có S2A = 133,25 S2TN = 71,97 → F tính = 1,85 F bảng(95, 2,6) = 5,14 Ta thấy F tính < F bảng Vậy nhân tố A không ảnh hưởng tới kết thực nghiệm Bai : Xét quan hệ thân nhiệt ( nhiệt độ x) nhịp đập tim(mạch đập y) Họ thực thí nghiệm đưa kết bảng Tìmđườnghồi quy tuyến tính X Y (quan hệ hàm chúng) Trẻ em 10 Nhiệt độ (x) 68 65 70 62 60 55 58 65 69 63 Mach đập(y) 10 13 10 Bài làm: Phân tích SPSS sử dụng công cụ Analyze→Regression→Curve Estimation Ta có hệ số tương quan r = b = 0,886 = 0,94 Ta chọn x biến độc lập Y biếnphụ thuộc Model Summary and Parameter Estimates Dependent Variable:nhietdo Model Summary Equatio n Linear R Square 886 F df1 62.265 Parameter Estimates df2 Sig Constant 000 70.736 b1 -1.149 The independent variable is machdap Statistics nhietdo N Valid Missing Mean machdap 10 10 0 63.50 6.30 Ta có a = Y - b X = 63,5 – 0,886*6.3 = 57,9 Vậy phương trình đườnghồi quy Y = 57,9 X + 0,886 Nhìn đồ thị ta thấy có điểm nằm đườnghồi quy Điều có nghĩa kết nghiên cứu nhiệt độ mạch đập gần không tương quan tới II Chọn tập liệu (Thuộc cột file cho), tập có n30 Với tập phân tích tham số mô tả đặc trưngphươngphápthích hợp vẽbiểuđồ histogram Từ kết quả, có nhận xét tập liệu? Bài làm: Ta tiến hành chọn tập A B thuộc cột B file cho A B A B A B A B 9 11 17 11 25 9 10 18 17 26 10 11 19 27 7 12 10 20 28 13 11 21 29 14 22 30 19 15 11 23 31 11 16 10 24 12 Ta có bảng phân bổ tần suất tập liệu A A Cumulative Frequency Valid Total Valid Percent Percent 3.2 4.3 4.3 12.9 17.4 21.7 9.7 13.0 34.8 19.4 26.1 60.9 3.2 4.3 65.2 9.7 13.0 78.3 10 6.5 8.7 87.0 11 3.2 4.3 91.3 15 3.2 4.3 95.7 17 3.2 4.3 100.0 23 74.2 100.0 25.8 31 100.0 Total Missing Percent System Bảng phân bổ tần suất tập liệu B 32 B Cumulative Frequency Valid Percent Valid Percent Percent 9.7 9.7 9.7 19.4 19.4 29.0 6.5 6.5 35.5 19.4 19.4 54.8 6.5 6.5 61.3 16.1 16.1 77.4 10 3.2 3.2 80.6 11 12.9 12.9 93.5 12 3.2 3.2 96.8 19 3.2 3.2 100.0 31 100.0 100.0 Total Ta có tham số đặc trưng tập số liệu A N Valid B 23 31 Mean 7.91 7.81 Std Error of Mean 659 565 Median 7.00 7.00 5a Std Deviation 3.161 3.146 Variance 9.992 9.895 13 15 182 242 25 6.00 5.00 50 7.00 7.00 75 9.00 9.00 Missing Mode Range Sum Percentiles a Multiple modes exist The smallest value is shown Từ kết phân tích ta thấy Ftính= S2A/ S2B = < F bảng Vậy chấp nhận H0 bác bỏ Ha S2A = S2B đáng tincậyBiểuđồ Histogram tập A Biểuđồ histogram tập B III Chọn cột số 300 thuộc tính mô tả cột thuộc tính phụ thuộc, tìmđườnghồiqui phân tích chất lượng đườnghồiqui qua việc tính hệ số xác định, hệ số tương quan phân tích qua việc kiểm định giả thuyết độ dốc B mô hình Từ kết nhận được, cho biết mô hình có dùng để dựbáo không? sao? Hãy tìmkhoảngtincậy 95% độ dốc B Ý nghĩa khoảng gì? Hày tìmkhoảngtincậy 95% giátrịtrungbìnhbiếnphụ thuộc cho biến độc lập x=1 Bài làm: Ta chọn cột thuộc tính mô tả S (X)và cột thuộc tính phụ thuộc T(Y) Statistics X N Valid Y 816 816 1 1.53 5.90 Std Deviation 1.282 3.821 Variance 1.643 14.598 Sum 1248 4817 Missing Mean Model Summary and Parameter Estimates Dependent Variable:X Model Summary Equation Linear R Square 134 F 126.473 The independent variable is Y df1 Parameter Estimates df2 Sig 814 000 Constant 803 b1 123 - Hệ số xác định: r2 = 0,134 - Ta có hệ số tương quan r = b = 0,134 = 0,37 a = Y – b X = 5,90 – 0,37 * 1,53 = 5,33 Vậy đườnghồi quy tuyến tính Y = 5,33 + 0,37X - Ta tiến hành kiểm tra lực mô hình kiểm tra giả thuyết H0: B = Ha: B ≠ n = 816 α = 0,05 (chọn độtincậy 95%) df = 816-2 = 814 tα/2 = 160, s = S 2= 1,28 → SSxx = ∑ ( xi − X ) 2= ∑ Xi – ( ∑ Xi )2/N =… - (1248)2/816 Từ ta tính ttính = b S / SSxx =… Ta so sánh t với tα/2 = 160 Nếu ttính < tα/2 ta bác bỏ H0 kết luận độ dốc B ≠ Chứng tỏ mức α= 0,05 liệu mẫu cung cấp chứng đủ để kết luận Y đóng góp thông tin hữu ích cho dự đoán mức X cách sử dụng mô hình tuyến tính Trong trường hợp mô hình dùng để dựbáo Còn ngược lại ttính > tα/2 - Khoảngtincậy 95% độ dốc B b ± tα/2 [ S SSxx ] = 0,37 ± 160* … Nếu khoảng lớn nhỏ X (y),E(y) tăng X tăng (thuận) Nếu khoảng lớn -1 nhỏ X (y),E(y) tăng X giảm(nghịch) - Khi X= khoảngtincậy 95% giátrịtrungbìnhbiếnphụ thuộc cho biến độc lập x Y ^ ± tα/2 (1 − X )2 + n SSxx Trong Y^ = 5,33 + 0,37*1 = 5,7 - X = 0,53 IV Lấy độ cột biến độc lập cột biếnphụ thuộc, thực tìmđườnghồiquiđánhgiálựcdựbáo mô hình Hãy tìmkhoảngtincậy 95% độ dốc Bi Ý nghĩa khoảng gì? Bài làm: Ta chọn tập liệu sau Độc lập1 Độc lập2 Độc lập3 2 5 3 Độc lập4 1 Độc lập5 0 Phụthuộc A Ta thấy hệ số tương quan r = b = 0,019 = 0,138 - Ta có mô hình tuyến tính giả thuyết hình thức: Y = B + B1X1 + B2X2 + B3X3 + B4X4 + B5X5 +e * Sử dụng liệu mẫu để tìmphương trình tính toán dựa bìnhphương cực tiểu -Sử dụng công thức bìnhphương cực tiểu để tìm B0, B1, B2, B3, B4, B5 Ta có 54 67 23 B = (X`X)XY = 12 98 108 Vậy B0 = 54, B1 =67, B2 = 23, B3 = 12, B4 = 98, B5 = 108 Ta có phương trình tính toán dựa bìnhphương cực tiểu Y^ = 54 + 67X1 + 23X2 +12X3 + 98X4 + 108X5 * Ta kiểm định lực mô hình xem có phù hợp với liệu không Tức ta tính hệ số xác định R2 = 0,019 Model Summary and Parameter Estimates Dependent Variable:doclap1 Model Summary Equation R Square Linear F 019 df1 Parameter Estimates df2 077 Sig 795 Constant 3.688 The independent variable is phuthuoc * Xét tính hữu dụng mô hình Ta có H0: B1=B2= B3= B4= B5=0 Ha: có Bi ≠0 R2 / k SS (mod) / k F = (1 − R 2) /(n − (k + 1)) = SSE /[n − (k + 1)] = 0,077 F bảng = (vì nằm cột P) Có nghĩa chấp nhận Ha bác bỏ H0 Mô hình hữu dụng B Ta có độ sai tính cho Bi : bi ± tα/2, → tα/2 = 3,182 (df = 3) H0 :Bi = Ha: Bi ≠ Kiểm định thống kê: ta thấy tα/2 = 3,182 Model Summary R Adjusted R Std Error of the Square Estimate R Square 066 004 -.327 The independent variable is phuthuoc bi 0,138 Ta có t = 1,928 = 1,928 = 0,072 1.928 b1 -.087 Kiểm định thống kê: ta thấy tα/2 = 3,182 > t = 0,072 Vậy bác bỏ H0.Điều có nghĩa tập thuộc tính mô tả có đóng góp thông tin cho dựbáo tập thuộc tính phụ thuộc ... tích tham số mô tả đ c trưng phương pháp thích hợp, vẽ biểu đồ histogram, tìm đường hồi qui, tìm khoảng tin c y độ d c, tìm khoảng tin c y giá trị trung bình biến phụ thu c, th c tìm đường hồi qui. .. biến phụ thu c, th c tìm đường hồi qui đánh giá l c dự báo mô hình Hãy tìm khoảng tin c y 95% độ d c Bi Ý nghĩa khoảng gì? Bài làm: Ta chọn tập liệu sau Đ c lập1 Đ c lập2 Đ c lập3 2 5 3 Đ c lập4... giảm(nghịch) - Khi X= khoảng tin c y 95% giá trị trung bình biến phụ thu c cho biến đ c lập x Y ^ ± tα/2 (1 − X )2 + n SSxx Trong Y^ = 5,33 + 0,37*1 = 5,7 - X = 0,53 IV Lấy độ c t biến đ c lập c t biến