Xử lý thống kê bằng EXCEL

XỬ LÝ THỐNG KÊ BẰNG EXCEL Các hàm thống kê chia thành nhóm nhỏ sau: Nhóm hàm Thống Kê, nhóm hàm Phân Phối Xác Suất, nhóm hàm Tương Quan Hồi Quy TuyếnTính NHÓM HÀM VỀ THỐNG KÊ AVEDEV (number1, number2, ) Tính trung bình độ lệch tuyệt đối điểm liệu theo trung bình chúng Thường dùng làm thước đo biến đổi tập số liệu AVERAGE (number1, number2, ) Tính trung bình cộng AVERAGEA (number1, number2, ) Tính trung bình cộng giá trị, bao gồm giá trị logic AVERAGEIF (range, criteria1) COUNT (value1, value2, ) Tính trung bình cộng giá trị mảng theo điều kiện Tính trung bình cộng giá trị mảng theo nhiều điều kiện Đếm số ô danh sách COUNTA (value1, value2, ) Đếm số ô có chứa giá trị (không rỗng) danh sách COUNTBLANK (range) Đếm ô rỗng vùng COUNTIF (range, criteria) Đếm số ô thỏa điều kiện cho trước bên dãy AVERAGEIFS (range, criteria1, criteria2, ) COUNTIFS (range1, criteria1, range2,criteria2,…) Đếm số ô thỏa nhiều điều kiện cho trước DEVSQ (number1, number2, ) Tính bình phương độ lệch điểm liệu từ trung bình mẫu chúng, cộng bình phương lại FREQUENCY (data_array, bins_array) Tính xem có giá trị thường xuyên xuất bên dãy giá trị, trả mảng đứng số Luôn sử dụng hàm dạng công thức mảng GEOMEAN (number1, number2, ) Trả trung bình nhân dãy số dương Thường dùng để tính mức tăng trưởng trung bình, lãi kép có lãi biến đổi cho trước… HARMEAN (number1, number2, ) Trả trung bình điều hòa (nghịch đảo trung bình cộng) số KURT (number1, number2, ) LARGE (array, k) Tính độ nhọn tập số liệu, biểu thị mức nhọn hay mức phẳng tương đối phân bố so với phân bố chuẩn Trả giá trị lớn thứ k tập số liệu MAX (number1, number2, ) Trả giá trị lớn tập giá trị Giải toán XSTK EXCEL (ĐaTaDa – ĐHNL 10/10/2009) MAXA (number1, number2, ) Trả giá trị lớn tập giá trị, bao gồm giá trị logic text MEDIAN (number1, number2, ) Tính trung bình vị số MIN (number1, number2, ) Trả giá trị nhỏ tập giá trị MINA (number1, number2, ) Trả giá trị nhỏ tập giá trị, bao gồm giá trị logic text MODE (number1, number2, ) Trả giá trị xuất nhiều mảng giá trị PERCENTILE (array, k) Tìm phân vị thứ k giá trị mảng liệu PERCENTRANK (array, x, significance) Trả thứ hạng (vị trí tương đối) trị mảng liệu, số phần trăm mảng liệu PERMUT (number, number_chosen) Trả hoán vị đối tượng QUARTILE (array, quart) Tính điểm tứ phân vị tập liệu Thường dùng khảo sát liệu để chia tập hợp thành nhiều nhóm… RANK (number, ref, order) Tính thứ hạng số danh sách số SKEW (number1, number2, ) Trả độ lệch phân phối, mô tả độ không đối xứng phân phối quanh trị trung bình SMALL (array, k) : Trả giá trị nhỏ thứ k tập số STDEV (number1, number2, ) Ước lượng độ lệch chuẩn sở mẫu STDEVA (value1, value2, ) Ước lượng độ lệch chuẩn sở mẫu, bao gồm giá trị logic STDEVP (number1, number2, ) Tính độ lệch chuẩn theo toàn thể tập hợp STDEVPA (value1, value2, ) Tính độ lệch chuẩn theo toàn thể tập hợp, kể chữ giá trị logic VAR (number1, number2, ) Trả phương sai dựa mẫu VARA (value1, value2, …) Trả phương sai dựa mẫu, bao gồm trị logic text VARP (number1, number2, ) Trả phương sai dựa toàn thể tập hợp VARPA (value1, value2, …) Trả phương sai dựa toàn thể tập hợp, bao gồm trị logic text TRIMMEAN (array, percent) Tính trung bình phần tập liệu, cách loại tỷ lệ phần trăm điểm liệu đầu cuối tập liệu Giải toán XSTK EXCEL (ĐaTaDa – ĐHNL 10/10/2009) NHÓM HÀM VỀ PHÂN PHỐI XÁC SUẤT BETADIST (x, alpha, beta, A, B) Trả giá trị hàm tính mật độ phân phối xác suất tích lũy beta BETAINV (probability, alpha, beta, A, B) Trả nghịch đảo hàm tính mật độ phân phối xác suất tích lũy beta BINOMDIST (number_s, trials, probability_s, cumulative) Trả xác suất lần thử thành công phân phối nhị phân CHIDIST (x, degrees_freedom) Trả xác xuất phía phân phối chi-squared CHIINV (probability, degrees_freedom) Trả nghịch đảo xác xuất phía phân phối chi-squared Trả giá trị xác xuất từ phân phối chi-squared số bậc tự tương ứng CHITEST (actual_range, expected_range) CONFIDENCE (alpha, standard_dev, size) Tính khoảng tin cậy cho kỳ vọng lý thuyết CRITBINOM (trials, probability_s, alpha) Trả giá trị nhỏ cho phân phối nhị thức tích lũy lớn hay giá trị tiêu chuẩn Thường dùng để bảo đảm ứng dụng đạt chất lượng… Tính phân phối mũ Thường dùng để mô thời gian biến cố… EXPONDIST (x, lambda, cumulative) : FDIST (x, degrees_freedom1, degrees_freedom2) Tính phân phối xác suất F Thường dùng để tìm xem hai tập số liệu có nhiều mức độ khác hay không… FINV (probability, degrees_freedom1, degrees_freedom2) Tính nghịch đảo phân phối xác suất F Thường dùng để so sánh độ biến thiên hai tập số liệu Trả kết phép thử F Thường dùng để xác định xem hai mẫu có phương sai khác hay không… FTEST (array1, array2) : FISHER (x) Trả phép biến đổi Fisher x Thường dùng để kiểm tra giả thuyết dựa hệ số tương quan… FISHERINV (y) Tính nghịch đảo phép biến đổi Fisher Thường dùng để phân tích mối tương quan mảng số liệu… Trả phân phối tích lũy gamma Có thể dùng để nghiên cứu có phân bố lệch GAMMADIST (x, alpha, beta, cumulative) GAMMAINV (probability, alpha, beta) Trả nghịch đảo phân phối tích lũy gamma GAMMLN (x) Tính logarit tự nhiên hàm gamma HYPGEOMDIST (number1, number2, ) Trả phân phối siêu bội (xác suất số lần thành công đó…) Giải toán XSTK EXCEL (ĐaTaDa – ĐHNL 10/10/2009) LOGINV (probability, mean, standard_dev) Tính nghịch đảo hàm phân phối tích lũy lognormal x (LOGNORMDIST) LOGNORMDIST (x, mean, standard_dev) Trả phân phối tích lũy lognormal x, logarit tự nhiên x thường phân phối với tham số mean standard_dev NEGBINOMDIST (number_f, number_s, probability_s) Trả phân phối nhị thức âm (trả xác suất mà có number_f lần thất bại trước có number_s lần thành công, xác suất không đổi lần thành công probability_s) NORMDIST (x, mean, standard_dev, cumulative) Trả phân phối chuẩn (normal distribution) Thường sử dụng việc thống kê, gồm việc kiểm tra giả thuyết NORMINV (probability, mean, standard_dev) Tính nghịch đảo phân phối tích lũy chuẩn NORMSDIST (z) Trả hàm phân phối tích lũy chuẩn tắc (standard normal cumulative distribution function), phân phối có trị trung bình cộng zero (0) độ lệch chuẩn NORMSINV (probability) Tính nghịch đảo hàm phân phối tích lũy chuẩn tắc POISSON (x, mean, cumulative) Trả phân phối poisson Thường dùng để ước tính số lượng biến cố xảy khoảng thời gian định PROB (x_range, prob_range, lower_limit, upper_limit) Tính xác suất trị dãy nằm hai giới hạn STANDARDIZE (x, mean, standard_dev) Trả trị chuẩn hóa từ phân phối biểu thị mean standard_dev TDIST (x, degrees_freedom, tails) Trả xác suất phân phối Student (phân phối t), x giá trị tính từ t dùng để tính xác suất TINV (probability, degrees_freedom) Trả giá trị t phân phối Student TTEST (array1, array2, tails, type) Tính xác xuất kết hợp với phép thử Student WEIBULL (x, alpha, beta, cumulative) Trả phân phối Weibull Thường sử dụng phân tích độ tin cậy, tính tuổi thọ trung bình thiết bị ZTEST (array, x, sigma) Trả xác suất phía phép thử z Giải toán XSTK EXCEL (ĐaTaDa – ĐHNL 10/10/2009) NHÓM HÀM VỀ TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH CORREL (array1, array2) Tính hệ số tương quan hai mảng để xác định mối quan hệ hai đặc tính COVAR (array1, array2) Tính tích số độ lệch cặp điểm liệu, tính trung bình tích số FORECAST (x, known_y's, known_x's) Tính toán hay dự đoán giá trị tương lai cách sử dụng giá trị có, phương pháp hồi quy tuyến tính GROWTH (known_y's, known_x's, new_x's, const) Tính toán tăng trưởng dự kiến theo hàm mũ, cách sử dụng kiện có INTERCEPT (known_y's, known_x's) Tìm điểm giao đường thẳng với trục y cách sử dụng trị x y cho trước LINEST (known_y's, known_x's, const, stats) Tính thống kê cho đường cách dùng phương pháp bình phương tối thiểu (least squares) để tính đường thẳng thích hợp với liệu, trả mảng mô tả đường thẳng Luôn dùng hàm dạng công thức mảng LOGEST (known_y's, known_x's, const, stats) Dùng phân tích hồi quy Hàm tính đường cong hàm mũ phù hợp với liệu cung cấp, trả mảng gía trị mô tả đường cong Luôn dùng hàm dạng công thức mảng PEARSON (array1, array2) Tính hệ số tương quan momen tích pearson (r), mục không thứ nguyên, khoảng từ -1 đến 1, phản ánh mở rộng quan hệ tuyến tính hai tập số liệu RSQ (known_y's, known_x's) Tính bình phương hệ số tương quan momen tích Pearson (r), thông qua điểm liệu known_y's known_x's SLOPE (known_y's, known_x's) Tính hệ số góc đường hồi quy tuyến tính thông qua điềm liệu STEYX (known_y's, known_x's) Trả sai số chuẩn trị dự đoán y trị x hồi quy TREND (known_y's, known_x's, new_x's, const) Trả trị theo xu tuyến tính Giải toán XSTK EXCEL (ĐaTaDa – ĐHNL 10/10/2009) Ngoài cách dùng hàm ta dùng menu Analysis ToolPak cài đặt sau: Trong Excel chọn menu Tools/Add-Ins …/Analysis ToolPak / Ok Khi chọn menu Tools / Data Analysis … Chọn mục cần thiết thực đơn để giải toán đây: I THỐNG KÊ MÔ TẢ (Descriptive Statistics) 1) Bảng phân phối tần số - Bảng phân phối tần suất  Nhập liệu  Dùng hàm: FREQUENCY (data_array, bins_array)  data_array : Địa mảng liệu  bins_array: Địa mảng giá trị khác liệu Giải toán XSTK EXCEL (ĐaTaDa – ĐHNL 10/10/2009) Ví dụ : Lập bảng vẽ biểu đồ liệu sau: 12 10 13 14 11 13 15 12 11 13 12 15  Lập bảng phân phối tần số: o Nhập cột giá trị khác vào C3:C8 o Đánh dấu khối cột tần số D3:D8 , nhấn F2 nhập công thức = frequency(A2: A13 , C3:C8) ấn CTRL+SHIFT +ENTER  Lập bảng phân phối tần suất:nhập vào G2 công thức =D3/$D$9 ,copy ô lại  Vẽ biểu đồ o Chọn menu: Insert/ Chart…/ Line/ Next o Nhập vào Data Range : $G$3:$G$8 o Chọn Tab Series , nhập địa cột giá trị: $F$3:$F$8 vào Category (X) axis labels o Chọn Next , Finish chọn mục Column Giải toán XSTK EXCEL (ĐaTaDa – ĐHNL 10/10/2009) 0.3 0.2 0.2 Series1 0.1 0.1 0.0 10 11 14 15 12 11 • Nhập liệu 13 cột A1:A12 10 14 13 12 15 • Chọn menu Tools/Data Analysis…/Descriptive Statistics 2) •Đặc trung Nhập mẫu mục: Ví dụ: Tính đặc trưng mẫu liệuđối sau: Input Range: địacủa tuyệt chứa liệu $A$1:$A$12  12 13 xuất 11 Output Range: địa kết quả13  Confidence Level for Mean (Độ tin cậy cho trung bình) 15 12 Giải toán XSTK EXCEL (ĐaTaDa – ĐHNL 10/10/2009) • Kết bao gồm: Kỳ vọng (trung bình), phương sai, trung vị, mode, độ lệch chuẩn, độ nhọn, độ nghiêng (hệ số bất đối xứng so với phân phối chuẩn), khoảng biến thiên, max, min, sum, số mẫu (count), khoảng tin cậy trung bình mức 95% Tính theo hàm Column1 Giá trị trung bình x = 12.58333 Mean Standard Error Sai số mẫu Snx = 0.451569 Median 12.5 Mode 12 Standard Deviation sx= 1.564279 2.44697 Sample Variance AVERAGE(A1:A12) Trung vị MEDIAN(A1:A12) Mode MODE(A1:A12) Độ lệch chuẩn STDEV(A1:A12) Phương sai mẫu VAR(A1:A12) Kurtosis -0.61768 Độ nhọn đỉnh KURT(A1:A12) Skewness 0.157146 Độ nghiêng SKEW(A1:A12) Khoảng biến thiên MAX()-MIN() Range Minimum 10 Tối thiểu MIN(A1:A12) Maximum 15 Tối đa MAX(A1:A12) Tổng SUM(A1:A12) Số lượng mẫu COUNT(A1:A12) Độ xác CONFIDENCE(0,05;S x;n) Sum 151 Count n= 12 Confidence Level(95.0%) tα Snx = Chú ý : Khi mẫu lớn (n ≥ 30) ta thay t 0.993896 α Sx n z α S x ñoù: Z α = NORMSINV(1− n α Giải toán XSTK EXCEL /2) (ĐaTaDa – ĐHNL 10/10/2009) II ƯỚC LƯỢNG THAM SỐ Để ước lượng trung bình đám đông a ta thực bước sau:   Nhập liệu mẫu xử lý mẫu thống kê mô tả (Descriptive Statistics) Sx ; x ± α Sx Tính khoảng ước lượng trung bình a theo: x ± zα n n t Ví dụ: Khảo sát sức bền chịu lực mộ loại ống công nghiệp người ta đo ống thu số liệu sau: 4500 6500 5000 5200 4800 4900 5125 6200 5375 Ví dụ: Tiến hành xem tháng trung bình sinh viên tiêu hết tiền gọi điện thoại Khảo sát ngẫu nhiên 59 sinh viên thu kết quả: 14 95 30 29 22 18 16 147 73 36 22 27 72 26 60 30 111 37 15 41 36 37 25 26 35 28 63 31 26 42 127 33 57 20 79 23 29 40 58 36 31 35 18 33 52 70 41 85 23 15 27 48 28 35 47 11 15 32 Hãy ước lượng khoảng tin cậy số tiền gọi điện thoại trung bình hàng tháng sinh viên với độ tin cậy 95% Đs 33.96481 48.23858 Giải toán XSTK EXCEL 10 (ĐaTaDa – ĐHNL 10/10/2009) • Kết SUMMARY Count Sum Average Variance a1 240 80 1200 a2 240 80 1300 a3 240 80 1900 a4 280 93.33333333 2433.333333 SS 432.2666667 14498.8 768.5333333 239 df 630 79.66666667 MS 108.0666667 126 7249.4 96.06666667 800.3333333 F 1.124913255 230 75.46217904 15699.6 335 14 67 45 ANOVA a5 Source of Variation Rows b1 Columns Error b2 Total P-value 0.409397603 6.42093E-06 F crit 7.006065061 8.64906724 b3 ⇒ 274 54.8 25.2 FA < F4 ; ; 0,99 = 7,006 ⇒ Dung môi không ảnh hưởng đến kết chiết suất FB > F ; ; 0,99 = 8,649 ⇒ Phương pháp ảnh hưởng đến kết chiết suất Bài tập 1) Nghiên cứu hiệu loại thuốc A, B, C dùng điều trị chứng suy nhược thần kinh 12 người bệnh chia làm nhóm theo mức độ bệnh , , , ; nhóm chia để dùng loại thuốc Sau tuần điều trị, kết đánh giá thang điểm sau: Mức độ bệnh Thuốc A 25 40 25 30 B 30 25 25 25 C 25 20 20 25 Hãy đánh giá hiệu loại thuốc A, B, C có khác hay không ? với α 0,01 = 2) Một nghiên cứu thực nhằm xem xét liên hệ loại phân bón, giống lúa đến suất Năng Giống suấtlúa lúa Aghi nhận từ B thực nghiệm C sau: Loại phân bón 65 69 75 74 72 70 64 68 78 83 78 76 Hãy đánh giá ảnh hưởng giống lúa, loại phân bón suất lúa, α = 0,05 Giải toán XSTK EXCEL 24 (ĐaTaDa – ĐHNL 10/10/2009) 3) Để khảo sát ảnh hưởng loại thuốc trừ sâu (1, 2, 4) ba loại giống (B1, B2 B3) đến sản lượng cam, nhà nghiên cứu tiến hành thí nghiệm loại giai thừa Trong thí nghiệm này, giống cam có cam chọn cách ngẫu nhiên, loại thuốc trừ sâu áp dụng (cũng ngẫu nhiên) cho cam Kết nghiên cứu (sản lượng cam) cho giống thuốc trừ sâu sau: Thuốc trừ sâu Giống Cam B1 29 50 43 53 B2 41 58 42 73 B3 66 85 63 85 Hãy cho biết thuốc trừ sâu, giống cam có ảnh h ưởng đến sản lượng cam không? α = 0,05 4) chuyên gia tài yêu cầu dự đoán tốc độ tăng Công ty gia sau: công ty ngành nhựa Dự đoán ghi Chuyên nhận A B C 12 8,5 14 10 11 12 13 10 12 10 10 trưởng (%) năm tới D 13 11 10 13 10 Hãy lập bảng ANOVA Có thể nói dự đoán tốc độ tăng trưởng trung bình cho công ty nhựa không? Phân tích phương sai nhân tố có lặp Tương tự toán phân tích phương sai nhân tố không lặp, khác mức ((ai , bj ) sát thêm tương tác (interaction term) có lặp lại r lần thí nghiệm ta cần khảo FA nhân tố A B B * Mẫu điều tra: A B b1 b2 … bm x111 x112 x121 x122 … x1m1 x1m2 x11r x211 x212 x12r x221 x222 x21r x22r x2mr : : : : an xn11 xn12 xn21 xn22 a1 : : a2 : : : : : : : : … : : x1mr x2m1 x2m2 : : : : … xnm1 xnm2 : Giải toán : XSTK EXCEL : : : : 25 xn1r xn2r xnmr (ĐaTaDa – ĐHNL 10/10/2009) * Xử lý mẫu: Tính tổng hàng Ti** = ∑ xijk A B b1 a1 : : x11r x211 x212 x121 x122 … ∑ bm xijk : : : : : : an xn11 xn12 xn21 xn22 ∑ T*j* xijk SST = i, j,k ∑ : : : ∑ Ti* xin1r* T*1*= xi1k − x) = ∑ (xijki,k SSA = i,mr j,k ∑ =i, j,k ∑ ∑ ∑ − ∑ = SSAB = r x ∑ ( x* j* − − j x) Tnr* j* i, j j,i j* x njk : : j,k xnmr ximk ∑ T= ∑ xijk i, j,k i,k T nmr j ∑ ( xij* − Tn**= T2 nmr i SSB = nr x jk j,k Tij* T*m*= ∑ T xi22k i,k xijk − mr Ti**2 ∑ xnm1 xnm2 ∑ (xi** − x ) i … ∑nmr j T2**= : xn2r T* j* T*2*= ∑ j,k : : x2mr : : x1 jk x1mr x2m1 x2m2 … x22r T1**= : : x12r x221 x222 : Ti** x1m1 i,k x1m2 x21r : Suy … : : : : Cần tính: b2 j,k x111 x112 a2 T*j* = , tổng cột i** − *x + x ) = SSE = SST – SSA – SSB – SSAB = ∑ r Tij* − nr ∑ ∑T ∑x − i, j ijk i, j,k i, j j Giải toán XSTK EXCEL 26 − ∑ Tmr i** + T2 nmr i * j* r xij* (ĐaTaDa – ĐHNL 10/10/2009) * Bảng ANOVA Nguồn Yếu tố A SS SSA df n-1 Yếu tố B SSB m-1 MSA = MS F = SSA n−1 MSB = A F = SSB m−1 Tương tác AB SSAB (n-1)(m-1) B SSAB MSAB = SSE nm(r-1) Tổng SST nmr-1 MSA MSE MSB MSE F = (n − 1)(m − 1) Sai số F AB MSAB MSE SSE MSE = nm(r − 1) * Kết luận: • • • Nếu FA > F n-1 ; nm(r-1) ; 1-α A (h àng) Nếu FB > F m-1 ; nm(r-1) ; 1-α B (cột) Nếu FAB > F (n-1)(m-1) ; nm(r-1) ; 1-α tác A B bác bỏ yếu tố bác bỏ yếu tố có tương Ví dụ: Hàm lượng saponin (mg) loại dược liệu thu hái mùa (khô mưa: mùa lấy mẫu lần - đầu mùa, mùa, cuối mùa) từ miền (Nam, Trung, Bắc) thu kết sau: Mùa Thời điểm Miền Khô Mưa Đầu mùa Giữa mùa Cuối mùa Đầu mùa Giữa mùa Cuối mùa Nam Trung Bắc 2,4 2,4 2,5 2,5 2,5 2,6 2,1 2,2 2,2 2,2 2,3 2,3 3,2 3,2 3,4 3,4 3,5 3,5 Hãy cho biết hàm lượng saponin có khác theo mùa hay miền không? Nếu có yếu tố mùa miền có tương tác với hay không? α = 0,05 Giải toán XSTK EXCEL 27 (ĐaTaDa – ĐHNL 10/10/2009) Dùng EXCEL * Chọn Tools\Data Analysis…\Anova: Two Factor With Replication * Chọn mục hình * Bảng ANOVA SUMMARY Nam Trung Bac Total Count Sum Average Variance 7.3 2.433333 0.003333 6.5 2.166667 0.003333 9.8 3.266667 0.013333 23.6 2.622222222 0.251944444 Count Sum Average Variance 7.6 2.533333 0.003333 6.8 2.266667 0.003333 10.4 3.466667 0.003333 24.8 2.755555556 0.300277778 6 14.9 2.483333 0.005667 13.3 2.216667 0.005667 20.2 3.366667 0.018667 SS df MS Count Total Sum Average Variance ANOVA Source of Variation Sample Columns F P-value F crit 0.08 0.08 16 0.001761696 4.747221283 4.347778 2.173889 434.7777778 6.36194E-12 3.885290312 Interaction 0.01 0.005 0.396569457 3.885290312 ⇒ FA > F1; 12; 0,95 : Hàm lượng saponin khác theo mùa = 4,7472 : Hàm lượng saponin khác theo miền F B > F2; 12 ; 0,95 = 3, 0.06 : chấp nhận không tương tác) Within 12 H0 (0.005 Vậy8853 hàm lượng saponin dược liệu khác theo mùa, theo miền tương tác mùa miền hàm lượng saponin F Total AB < F ; 12 ; 0,95 = 4.497778 17 3,8853 Giải toán XSTK EXCEL 28 (ĐaTaDa – ĐHNL 10/10/2009) Bài tập 1) Một nghiên cứu thực nhằm xem xét liên hệ loại phân bón, giống lúa suất Năng suất lúa ghi nhận từ thực nghiệm sau: Giống lúa A B C Loại phân bón 65 69 75 68 71 75 62 67 78 74 72 70 79 69 69 76 69 65 64 68 78 72 73 82 65 75 80 83 78 76 82 78 77 84 75 75 Hãy cho biết ảnh hưởng loại phân bón, giống lúa suất, α = 0,01 2) Điều tra mức tăng trưởng chiều cao loại trồng theo loại đất trồng loại phân bón có kết quả: Loại đất 5,5 5,5 6,0 5,6 7,0 7,0 4,5 4,5 4,0 5,0 5,5 5,0 3,5 4,0 3,0 4,0 5,0 4,5 Loại phân A B Hỏi có khác mức tăng trưởng chiều cao theo loại đất loại phân bón ? α =0,05 3) Nghiên cứu sản lượng (tạ/ha) theo mật độ trồng A phân bón B thu được: Mật độ trồng a1 a2 a3 Phân bón b1 16 14 21 16 17 15 17 19 18 18 19 17 b2 19 20 23 19 19 18 18 20 20 23 21 21 b3 19 21 22 20 21 21 22 23 22 18 21 21 b4 20 24 21 17 20 20 22 19 25 22 21 23 Hỏi có khác sản lượng theo mật độ trồng, theo phân bón với mức α =0,05 Giải toán XSTK EXCEL 29 (ĐaTaDa – ĐHNL 10/10/2009) V TƯƠNG QUAN - HỒI QUY 1) Tương quan (Correlation) R= ∑ xi y i  Hệ số tương quan  Nếu R >0 X, Y tương quan thuận Nếu R 0,05 : hệ số tự 0,1693x ⇒ • có ý nghĩa 7.72E-06 < 0,05 : hệ số x ý nghĩa • Phương trình hồi quy tuyến tính không thích hợp 7.71522E-06 < 0,05 b) Hồi quy đa tuyến tính y x = b0 + b1 x1 + + bn x n  Phương trình hồi quy đa tuyến tính:  Kiểm định hệ số bj * Giả thiết H0: Các hệ số hồi quy ý nghĩa (bj= ) H1: Có vài hệ số hồi quy có ý nghĩa (bj ≠ ) * Trắc nghiệm t < tα ,n-2 : chấp nhận H0  Kiểm định phương trình hồi quy * Giả thiết H0:”Phương trình hồi quy không thích hợp” H1: ”Phương trình hồi quy thích hợp với vài bj ” * Trắc nghiệm F < Fα ,1,n-2 : chấp nhận H0 Giải toán XSTK EXCEL 32 (ĐaTaDa – ĐHNL 10/10/2009) Ví dụ: Người ta dùng ba mức nhiệt độ gồm 105 , 120 135 C kết hợp với ba khoảng thời gian 15 , 30 60 phút để thực phản ứng tổng hợp hiệu suất phản ứng (%)được trình bày bảng sau đây: Thời gian (ph) Nhiệt độ (0C) Hiệu suất (%) X1 X2 Y 15 105 1,87 30 105 2,02 60 105 3,28 15 120 3,05 30 120 4,07 60 120 5,54 15 135 5,03 30 135 6,45 60 135 7,26 Hãy cho biết yếu tố nhiệt độ yếu tố thời gian có liên quan tuyến tính với hiệu suất phản ứng tổng hợp? Nếu có điều kiện nhiệt độ 115 C 50 phút hiệu suất phản ứng bao nhiêu? • Nhập liệu: Y X = b0 + b1 X1 • Giải toán XSTK EXCEL 33 (ĐaTaDa – ĐHNL 10/10/2009) SUMMARY OUTPUT Regression Statistics Multiple R 0.462512069 R Square 0.213917414 Adjusted R Square 0.101619901 Standard Error 1.811191587 Observations ANOVA df SS MS F Significance F 1.904917 0.209994918 t Stat P-value Lower 95% 2.129034 1.380187 0.070771 0.209995 -0.301719287 -0.031768471 Regression 6.24891746 6.248917 Residual 22.96290476 3.280415 Total Coefficients Standard Error 29.21182222 Intercept X1 2.726666667 0.044539683 1.280705853 0.032270754 Phương trình hồi quy: Y X = 2,7267 + 0,04454 X1 không thích hợp 0.209994918 > 0,05 Nghĩa : Hiệu suất Y liên quan tuyến tính với yếu tố thời gian X1 • Y X = b0 + b2 X Giải toán XSTK EXCEL 34 (ĐaTaDa – ĐHNL 10/10/2009) SUMMARY OUTPUT Regression Statistics Multiple R 0.873933544 R Square Adjusted R Square Standard Error 0.76375984 0.730011246 0.99290379 Observations ANOVA df SS MS F Significance F 22.63086 0.002066188 t Stat P-value Lower 95% -3.41788 4.757191 0.011168 0.002066 -18.84896742 0.064655371 Regression 22.31081667 22.31082 Residual 6.901005556 0.985858 Total Coefficients Standard Error 29.21182222 Intercept X2 -11.14111111 0.128555556 3.25965608 0.027023418 Y X1 = − 11,1411 + 0,1286 X1 Phương trình hồi quy: thích hợp 0.002066188 < 0,05 Nghĩa là: Hiệu suất Y có liên quan tuyến tính với yếu tố nhiệt độ X2 • Y X 1, X = b0 + b1 X1 + b2 X Giải toán XSTK EXCEL 35 (ĐaTaDa – ĐHNL 10/10/2009) SUMMARY OUTPUT Regression Statistics Multiple R 0.988776 R Square 0.977677 Adjusted R Square Observations 0.970236 Standard Error 0.329669 ANOVA df SS MS F 131.3921 Regression 28.55973413 14.27987 Residual 0.652088095 0.108681 Coefficients8 Standard Error 29.21182222 -12.7 0.04454 0.128556 1.101638961 0.005873842 0.008972441 Total Intercept X1 X2 Phương trình hồi quy: Significance F 1.11235E-05 t Stat P-value Lower 95% -11.5283 7.582718 14.32782 2.56E-05 0.000274 7.23E-06 -15.3956154 0.030166899 0.106600767 Y X 1, X = − 12,7 + 0,04454 X1 + 0,1286 X thích hợp 1.11235E-05 < 0,05 Nghĩa là:Hiệu suất Y có liên quan tuyến tính với thời gian X1 nhiệt độ X2 • X1=50 , X2=115 ta dự đoán: Intercept -12.7 X1 0.04454 X2 0.128556 Dự đoaùn hiệu suất Y: 4.31094 Giải toán XSTK EXCEL 36 (ĐaTaDa – ĐHNL 10/10/2009) Bài tập Cho Y nhu cầu thịt bò (đơn vị 100 tấn) 12 tháng liên tiếp (X) khu dân cư : X: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 Y: 15, 18, 18, 16, 14, 18, 20, 21, 19, 20, 24, 26 Hãy ước lượng hàm hồi quy tuyến tính đơn, dự báo nhu cầu thịt bò cho tháng Đáp số : y = 0.793706 x + 13.92424 Trong 10 tháng liên tiếp lượng hàng bán công ty thấp, sau công ty tung thị trường sản phẩm nhận thấy lượng hàng bán tăng theo hàm mũ Số đơn vị hàng bán (Y) tháng (X) cho bảng sau: Hãy ước lượng hàm hồi quy mũ dự báo lượng hàng bán tháng 17, 18, 19, 20 (dùng hàm Growth) Đáp số : y = 495.3048 +1.463276x Tính hàm hồi quy tuyến tính bội với số liệu cho bảng duới Y thu nhập quốc dân, X1 sản lượng điện, X2 sản lượng than, X3 sản lượng lương thực, X4 sản lượng thép Dùng hai phương pháp: dùng hàm Linest lệnh Tools / Data Analysis Dự báo Y với X = (5.2, 65.1, 275.3, 37.8) Đáp số: dự báo Y =751.79289 Bảng bên cho số liệu doanh thu (Y), chi phí cho quảng cáo (X1), tiền lương nhân viên tiếp thị (X2) 12 công ty tư nhân, đơn vị triệu đồng Xây dựng hàm hồi quy tuyến tính bội Y phụ thuộc vào X1, X2 Giải toán XSTK EXCEL 37 (ĐaTaDa – ĐHNL 10/10/2009) Để ước lượng hàm hồi quy ta dùng hàm mảng Linest sau: đánh dấu khối vùng ô B19: D23, nhập công thức =LINEST(A2 : A13, B2 : C13, True, True), ấn Ctrl + Shift +Enter, kết ta 12 số: Tiếp theo, cho giá trị x1, x2 khối ô B15 : C17, cần dự báo giá trị y tính theo (2) khối ô D15 :D17 Thao tác tính: đánh dấu khối vùng ô D15:D17, nhập công thức = Trend(a2: a13,b2: c13, b15: c17, True), ấn Ctrl + Shift +Enter Tính hàm hồi quy y (sản lựơng nông nghiệp) phụ thuộc vào x (lựơng phân bón) Công thức ô D2 = Slope(a2:a6, b2:b6), công thức ô E2 =Intercept(a2:a6, b2:b6), công thức ô E5 =Forecast(d5, a2:a6, b2:b6) để dự báo y với x = 1612 y = mx + b Do tất hàm lệnh trình bày với hồi quy tuyến tính bội với hồi quy tuyến tính đơn Song hồi quy tuyến tính đơn có thêm ba hàm — Hàm Slope(known_y's, known_x's) ước lượng giá trị m phương trình (3) — Hàm Intercept(known_y's, known_x's) ước lượng giá trị b (3) — Hàm Forecast( x, known_y's, known_x's ): dự đoán y theo phương trình (3) với giá trị x biết trước Giải toán XSTK EXCEL 38 (ĐaTaDa – ĐHNL 10/10/2009) [...]... với doanh số bán kem theo bảng thống 4 sát mới quan hệ 22 giữa nhiệt độ trung1250 3254 kê sau: 5 27 3297 3072 6 30 5576 3348 7 34 8109 3118 8 38 9645 3211 9 32 7726 3276 10 25 2958 3081  Nhập và xử lý dữ liệu: chọn menu Tools/Data Analysis/Correlation  Kết quả Column 1 Column 1 1 Column 2 Column 3 Column 2 Column 3 0.985572 0.127653 1 0.184818 1 Giải tốn XSTK bằng EXCEL 30 (ĐaTaDa – ĐHNL 10/10/2009)... 8 6,7 6,1 9 7,4 3,8 10 5,8 6,3 Giả sử số giờ ngủ của các bệnh nhân có qui luật chuẩn Với mức ý nghĩa α =0,05 hãy kết luận về ảnh hưởng của loại thuốc ngủ trên? Giải tốn XSTK bằng EXCEL 12 (ĐaTaDa – ĐHNL 10/10/2009)  Nhập và xử lý dữ liệu  Kết quả H0 : a1 =a2 “Thuốc ngủ trên khơng có tác dụng đến số giờ ngủ” H1: a1 ≠ a2 “Thuốc ngủ trên có tác dụng đến số giờ ngủ” t-Test: Paired Two Sample for Means... one-tail Vậy loại thuốc ngủ trên có ảnh hưởng làm tăng số giờ ngủ trung bình P(T α = 0,05 , nên chấp nhận H0 Vậy tỷ lệ khỏi bệnh do thuốc và do giả dược khơng khác nhau 6 So sánh 2 phương sai  So... dụ: Một được phân tích bởi hai phương pháp A và B với kết quả sau: A 6,4 5,2 4,8 5,2 4,3 4,4 5,1 5,8 B 2,6 3,5 3,4 3,2 3,4 2,8 2,9 2,8 Cho biết phương pháp nào chính xác hơn?  Nhập và xử lý dữ liệu Giải tốn XSTK bằng EXCEL 17 (ĐaTaDa – ĐHNL 10/10/2009)  Kết quả H0 : σ2 A =2 σ B “Hai phương pháp có độ chính xác như nhau” 2 2 H1 : σ A > “Độ chính xác của phương pháp B cao hơn” σ B F-Test Two-Sample... k-1; n-k MSE = • Miền F > Fk-1; n-k ; : Bảng ANOVA Bα 1-α Nguồn sai số Tổng bình Bậc tự do Bình phương trung bình Giá trị thống kê phương df MS F Yếu t ố (Between Group) Sai số (Within Group) Tổng cộng SS SSA k-1 MSA = SSA k−1 SSE = SST - SSA n-k MSE = Giải tốn XSTK SST n- 1bằng EXCEL 19 F= MSA MSE SSE n−k (ĐaTaDa – ĐHNL 10/10/2009) Ví dụ: Hàm lượng Alcaloid (mg) trong một loại dược liệu được thu hái... cột bằng nhau … nhau •an Trung bình bằng xn1 nhân tốxhàng n2 xnm • Khơng có sự tương tác giữa nhân tố cột và hàng * Tiến hành tính tốn theo bảng dưới đây: B b1 b2 … A bm ∑ ∑x Ti* = xij j a1 x11 … x12 x1m T1* 2 ij j ∑x 2 1j j a2 x21 … x22 x2m T2* ∑x 2 2j j : : : : : : : : : : an xn1 xn2 xnm Tn* … ∑x 2 nj j ∑ T*j = xij T*1 … T*2 T*m T = ∑ xij i, j i ∑x ij i 2 ∑x ∑x 2 i1 i ∑x 2 i2 i Giải tốn XSTK bằng2 EXCEL. .. =0,01 SST= xij − T SSE T ∑ • • • Giả thiết H0 : i,*j Trung bình của 3 phương pháp chiết suất bằng nhau m.n * Trung bình của 5 dung mơi bằng nhau * Khơng có sự tương tác giữa phương pháp chiế suất và dung mơi Chọn Tools\Data Analysis…\Anova: Two-Factor without replication Chọn các mục như hình Giải tốn XSTK bằng EXCEL 23 (ĐaTaDa – ĐHNL 10/10/2009) • Kết quả SUMMARY Count Sum Average Variance a1 3 240 80

Định dạng
Số trang	38
Dung lượng	1,81 MB