XỬ LÝ THỐNG KÊ SỐ LIỆU THỰC NGHIỆM TRONG PHÒNG THÍ NGHIỆM Tác giả: Nguyễn Văn Lân, PGS/TS CHƯƠNG TÍNH CÁC SỐ THỐNG KÊ CỦA MẪU Từ số cá thể tổng thể hay lô, người ta chọn số n cá thể để kiểm tra Tập hợp số cá thể gọi mẫu Các số thống kê đặc trưng cách khái quát chất lượng mẫu CÁC SỐ THỐNG KÊ THỂ HIỆN VỊ TRÍ Đó giá trị thể mức độ lớn hay bé, nhiều hay ít, cao hay thấp chất lượng gọi số trung bình khái quát hóa : số trung bình mũ p Giả sử từ n giá trị quan trắc xi, số trung bình mũ p tính sau: n p xi Mp = i1 n Nếu p = : 1/ p với p n p xi M0 = limp0 i1 n 1/ p Nếu p = + n p xi M+ = limp+ i1 n Nếu p = n p xi M = limp i1 n Từ suy ra: M1 = x số trung bình cộng 32 1/ p = max{xi} 1/ p = min{xi} Số trung bình cộng: x = x x x n n = xi n i1 n M2 = Q số trung bình tồn phương n Số trung bình tồn phương: Q= x i 1 i n M-1 = H số trung bình điều hịa 1 n 1 xi H = i1 = n Số trung bình điều hịa: n n x i1 1 i M0 = G số trung bình nhân Số trung bình nhân: G= n n x i1 i Nếu xem đại lượng trường hợp đặc biệt trung bình mũ độ lớn, chúng có mối quan hệ sau : M M-1 M0 M1 M2 M+ min{xi} H G x Q max{xi} Ngồi cịn có hai dạng số trung bình sử dụng thực tế thống kê số trung tâm số mốt Số trung tâm (còn gọi trung vị) ký hiệu ~x Để tìm trung vị, phải xếp lại xi thành dãy thứ tự giá trị từ bé đến lớn : x1 x2 xn Khi n lẻ , đặt k = n 1 Khi n chẵn, đặt k = n ~ x = xk (tức xi vị trí thứ i = k dãy) x x k 1 ~ x = k Ví dụ : Có mẫu với n = 10 kết đo sau xếp thứ tự tăng {xi} = 3,2 – 3,2 – 3,4 – 4,6 – 4,8 – 5,2 – 5,6 – 6,4 – 6,8 – 7,6} 4,8 5,2 ~ x = = 5,0 Vì n chẵn nên Ví dụ : Một mẫu lớn n = 120 xếp thành lớp với tần số ni tương ứng sau: Lớp 0,5-1,5 1,5-2,5 2,5-3,5 3,5-4,5 4,5-5,5 5,5-6,5 6,5-7,5 7,5-8,5 8,5-9,5 ni 10 11 16 20 25 15 ni 18 29 45 65 90 105 114 120 33 Áp dụng cơng thức sau để tìm trung vị: ~ x =L+ 0,5.n Fa . F w đó: L – biên lớp chứa trung vị, ví dụ 4,5 Fa – tần số lũy tích lớp trước lớp chứa trung vị, ví dụ 45 Fw – tần số lớp chứa trung vị, ví dụ 20 – khoảng cách hai lớp kế tiếp, ví dụ Vậy theo ví dụ trên: 0,5.120 45 ~ x = 4,5 + .1 = 5,25 20 Số mốt (còn gọi yếu vị) xmod giá trị xi xuất nhiều tập hợp mẫu{xi} xmod 3~x 2x Ví dụ 1: Có mẫu với kết đo sau xếp thứ tự tăng {xi} = 4 5 6 6 7 10 Giá trị xuất nhiều có lần nên xmod = Ví dụ : Một mẫu lớn n = 100 xếp thành lớp với tần số ni tương ứng sau: Lớp –10 10 – 20 20 – 30 30 – 40 40 – 50 50 – 60 60 – 70 70 – 80 ni 12 28 20 10 10 Số mốt xác định theo công thức sau : xmod = L + f1 f0 2f1 f0 f2 đó: L – biên lớp chứa mode, ví dụ 40 f1 – tần số lớp chứa mode, ví dụ 28 f0 – tần số lớp trước lớp chứa mode, ví dụ 12 f2 – tần số lớp sau lớp chứa mode, ví dụ 20 – khoảng cách hai lớp kế tiếp, ví dụ 10 Vậy ví dụ trên: xmod = 40 + 28 12 20 = 40,66 10 = 40 + 28 12 20 Tùy trường hợp mà nên nghiên cứu áp dụng loại số trung bình cho có hiệu Thông thường thực tế thống kê, người ta hay sử dụng số trung bình cộng ( x ) Khi cần nhấn mạnh đến ảnh hưởng số đông dùng trung bình cộng có trọng số mi : k x = m x i1 k i m i 1 34 i i Một số thí nghiệm quy định thay trung bình cộng ( x ) trung vị ( ~x ) xác định chất lượng bê tông, độ bền nén thủng condom, Ở trường hợp tính tốn chất lượng mà khơng có điều kiện loại trừ số lạc (như đánh giá hội đồng chấm thi người đẹp, người giỏi, đánh giá thực chất trình độ trung bình mà khơng kể đến sở trường sở đoản, v.v ) nên áp dụng trung vị Trong sản xuất mặt hàng phục vụ cho đối lượng đa dạng loại, cỡ (như may mặc), số lượng sản phẩm loại cỡ áp dụng số mốt việc kinh doanh nhanh chóng mang lại hiệu (như bị tồn kho) Khi tính tốn suất, tỷ suất dịch vụ, trung bình thời gian dài nên áp dụng trung bình nhân Ví dụ giá mặt hàng tiêu dùng từ năm 1985 đến 1986 tăng %, từ 1986 đến 1987 tăng %, từ 1987 đến 1988 tăng 77 % từ 1985 đến 1988 giá tăng trung bình bao nhiêu? Khơng phải tính (105 + 108 + 177)/3 = 130 tức 30 % mà phải tính (105108177)1/3 = 126,14 tức 26,1 % Trong trường hợp thử nghiệm chi số Ni n đoạn sợi có chiều dài khơng đổi L, việc tính chi số trung bình đắn phải sử dụng số trung bình điều hịa Bởi vì, chi số trung bình theo định nghĩa : N L n.L Gi Gi n n G Ni1 i L Kết phép tính số trung bình điều hịa Ví dụ khác: Một tơ chạy 100 km từ đồng lên đồi với vận tốc trung bình 30 km/h, chạy đoạn đường với vận tốc trung bình 20 km/h Hỏi vận tốc trung bình cho hai lần ? Nếu dùng trung bình cộng, ta có : Nếu dùng trung bình điều hịa : 30 20 = 25 km/h 2 H= = 24 km/h 1 30 20 x Kết đúng? Nếu chuyến 100 km với vtb = 30 km/h h 20 min, chuyến 100 km với vtb = 20 km/h h Tổng cộng 200 km h 20 , tính ra: vtb = 200 = 24 km/h, 8h20 vận tốc trung bình tính theo trung bình điều hòa đúng! Số phần tư x1/4 (gồm số phần tư dưói số phần tư trên) Số phần tư ký hiệu x1/4d nằm vị trí dãy số kết đo xếp theo thứ tự từ bé đến lớn mà 1/4 n giá trị khơng vượt q 3/4 n giá trị cịn lại vượt q 35 Số phần tư ký hiệu x1/4t nằm vị trí dãy số kết đo xếp theo thứ tự từ bé đến lớn mà 3/4 n giá trị khơng vượt q 1/4 n giá trị cịn lại vượt q Cách tính hai số phần tư sau Sắp xếp dãy số theo thứ tự tăng dần: x1 x2 xn Tính k = (n+1)/4 làm trịn đến số ngun gần k1 Tại vị trí k1, x1/4d = xk1 Nếu k nằm hai số ngun làm trịn tăng Tính k = 3(n+1)/4 làm tròn đến số nguyên gần k3 Tại vị trí k3, x1/4t = xk3 Nếu k nằm hai số ngun làm trịn giảm k3 = 3(n – 1)/4 + Đó trường hợp mà n = 4m + 1, m số nguyên dương Ví dụ : Mẫu có n = 13 kết đo xếp tăng dần: 10 11 12 13 122 134 136 140 142 146 156 158 160 168 172 176 180 k1 = 13 13 = 3,5 lấy tròn tăng ; k3 = = 10,5 lấy tròn giảm 10 4 Vậy x1/4d = 140 x1/4t = 168 Ví dụ : Một mẫu lớn n = 100 xếp thành lớp với tần số ni tương ứng sau: Lớp –10 10 – 20 20 – 30 30 – 40 40 – 50 50 – 60 60 – 70 70 – 80 ni 12 28 20 10 10 Tích lũy 13 20 32 60 80 90 100 n 3n k3 = Cơng thức tìm số phần tư: 4 k F x1/4 = L + i a Fw Xem biến trường hợp liên tục, k1 = đó: L – biên lớp chứa số phần tư , ví dụ 30 50 Fa – tần số lũy tích lớp trước lớp chứa số phần tư, ví dụ 20 60 Fw – tần số lớp chứa số phần tư, ví dụ 12 20 – khoảng cách hai lớp kế tiếp, ví dụ 10 100 100 20 60 10 = 34,2 x1/4t = 50 + Vậy x1/4d = 30 + 10 = 57,5 12 20 36 CÁC SỐ THỐNG KÊ THỂ HIỆN MỨC ĐỘ PHÂN TÁN Mức độ phân tán giá trị xi tập hợp thể tính khơng đồng nhiều hay chất lượng qua số thống kê sau : Độ rộng ký hiệu w, phạm vi biến động giá trị xi từ giá trị nhỏ xmin giá trị lớn xmax tức : w = xmax xmin Độ rộng phần tư ký hiệu w1/4 hiệu số số phần tư số phần tư w1/4 = x1/4t x1/4d Độ rộng phần tư chuẩn hóa ký hiệu w1/4ch tính theo : w1/4ch = 0,7413.w1/4 Hệ số 0,7413 lấy từ phân bố chuẩn (standard normal distribution) có = = Độ rộng phần tư w1/4 phân bố 1,34898 1/1,34898 = 0,7413 Phương sai ký hiệu s2, đơi ký hiệu v nói lên mức độ phân tán giá trị xi so với x n x i x 2 x x x x x n x i1 s = = n 1 n 1 Trường hợp giá trị quan trắc xi có tần số ni tính độ lệch chuẩn s theo k n1 x x n x x nk x n x = (n1 n nk ) s2 = 2 n x i1 i i x i 1 k n i1 Phương sai tính với giá trị cỡ mẫu trừ gọi phương sai khơng chệch, cịn mẫu số cỡ mẫu gọi phương sai chệch, ký hiệu sc2 Giá trị s gọi độ lệch chuẩn (không chệch) Độ rộng phần tư w1/4 xấp xỉ 1,3.s nên w1/4ch xấp xỉ s x Hệ số biến động ký hiệu cv% thể mức độ phân tán giá trị xi so với dạng tương đối : cv % = s 100 x Hệ số biến động thô ký hiệu rcv % thể mức độ phân tán tính theo tỷ số độ rộng phần tư chuẩn hóa w1/4ch trung vị ~x : rcv % = w 1/ 4ch 100 ~ x Bài tập 3.1: Cho dãy kết đo gồm 1,22 1,45 1,28 1,20 1,42 1,38 1,34 1,25 1,30 1,40 Tìm số trung bình, trung vị, số phần tư dưới, số phần tư trên, độ rộng, độ rộng phần tư, độ lệch chuẩn, hệ số biến động hệ số biến động thô 37 Trong thống kê, tham số mẫu thường áp dụng số trung bình cộng hệ số biến động Đơi khi, người ta cịn hay áp dụng tham số « thơ » trung vị, số phần tư, độ rộng phần tư hệ số biến động thơ Khi tìm số lạc tập hợp mẫu mà không mẫu có thuộc phân bố chuẩn hay khơng, nên áp dụng trắc nghiệm số phần tư độ rộng phần tư Trong chương trình xử lý kết đo trắc nghiệm thành thạo, NATA sử dụng trung vị độ rộng phần tư chuẩn hóa để tìm kết đo phịng thí nghiệm có độ lặp lại độ tái lập đủ lớn để trở thành số lạc SỐ THỐNG KÊ CỦA NHIỀU MẪU CÙNG THỰC HIỆN Giả sử thử nghiệm, người ta thực k mẫu Mỗi mẫu có số quan trắc lặp khác ni Kết đo biểu diễn dạng xij (với i = 1, , k j = 1, , ni) ni xi Số trung bình mẫu tính theo: x j1 ij ni k x Số trung bình k mẫu tính theo: n x i i 1 k n i 1 i i k k x Trường hợp ni no: no x i i1 s 2ci Phương sai (chệch) mẫu: s 2ci phương sai trung bình k mẫu: (x j1 = = s 2ci = Phương sai (chệch) mẫu: s 2ck = x i )2 n s k n i1 k k n o s ci2 = s ci2 k i1 kn o i1 k n (x k n i1 i k 1 k no ( x i x)2 = ( x i x )2 k i1 kn o i1 38 i ci i Trường hợp ni no: = k k i1 s 2ck i ni i1 Trường hợp ni no: ij i1 = nok ni x i i x )2 Phương sai (chệch) mẫu chung: s 2c = i1 s 2c = ( x ij x)2 = k n i1 j1 i ni (x j1 s 2c ij k n k ni k n ni i1 j1 ij i1 j1 ij x i ) ( x i x) i x i )2 ( x i x )2 2( x ij x i )( x i x ) i ( x k ni i1 j1 (x x i ) kể = ( x k ( x ni k i1 i1 Vì ni k ij i x ) không, nên: x i )2 ( x i x )2 = k ni k ni ( x x ) ( x i x )2 ij i k i1 j1 ni i1 j1 i1 i1 s 2c = k n k i1 ni ( x i1 j1 ij x i )2 i k n n (x k i1 i1 i i x ) = s ci2 + s ck i Qua công thức trên, ta thấy phương sai chung mẫu bị ảnh hưởng phương sai bên s 2i mẫu mà chênh lệch lớn số trung bình x i mẫu có tác động đáng kể Bài tập 3.2 : Sau thử nghiệm k = mẫu, mẫu đo ni = lần kết quả: Mẫu Lần Lần Lần Lần Lần 1,28 1,24 1,25 1,22 1,26 1,18 1,20 1,20 1,22 1,20 1,20 1,16 1,25 1,23 1,22 1,17 1,24 1,28 1,20 1,22 Hãy tính số trung bình, trung vị, số phần tư dưới, số phần tư trên, phương sai, hệ số biến động hệ số biến động thô mẫu chung mẫu ĐỘ LẶP LẠI VÀ ĐỘ TÁI LẬP Trong tính tốn xử lý kết thử nghiệm, có hai số thống kê thường áp dụng độ lặp lại độ tái lập Độ lặp lại ký hiệu r , giá trị thể sai lệch tuyệt đối hai kết thử nghiệm thực mẫu điều kiện giống trang thiết bị đo, phương pháp, người thao tác, điều kiện môi trường quãng thời gian ngắn Khi xét với mức chắn 95% r tính theo r = 2 sr ; sr gọi độ lệch chuẩn độ lặp lại, tính theo cơng thức: 39 sr2 (ni 1)si2 ni k Độ lặp lại r sử dụng để so sánh hai kết thử nghiệm người thực điều kiện thí nghiệm nêu Nếu hai kết sai khơng q r kết cuối trung bình cộng hai kết Cịn điều kiện không đạt, cần xem xét lại phương pháp làm lại thử nghiệm từ đầu Độ tái lập ký hiệu R giá trị thể sai lệch tuyệt đối hai kết thử nghiệm thực mẫu phương pháp điều kiện khác trang thiết bị đo, người thao tác, phịng thí nghiệm thời gian thực Khi xét với mức chắn 95% R tính theo : R = 2 sR sR gọi độ lệch chuẩn độ tái lập, tính theo cơng thức : sR2 sL2 sr2 Đến lượt sL rút từ công thức : n ( x x )2 sL2 i i sr n k 1 với x ni2 n i x i n = n i n i k 1 ni Độ tái lập R sử dụng để so sánh hai kết thử nghiệm hai người thực điều kiện thí nghiệm khác điều kiện thí nghiệm nêu Nếu hai kết sai khơng q R kết cuối trung bình cộng hai kết Cịn điều kiện không đạt, cần xem xét lại phương pháp thao tác hai người, trang thiết bị hai phịng thí nghiệm làm lại thí nghiệm Khi ni giống no : sr2 ( x x ) s r2 si2 x sL2 i x i k k 1 no k Bài tập 3.3 : Dựa vào bảng số liệu tập 3.2, tính độ lặp lại r độ tái lập R từ kết đo xij Đặc biệt ni = , từ wi = |xi1 xi2| tính sr2 ( x x )2 sr2 w i2 x sL2 i với x i k 1 2k k Chú ý : a Khi tính, thấy s 2L < cho s 2L = b Nếu x1 trung bình n1 lần đo, x2 trung bình n2 lần đo (với n1, n2 > 1) độ tái lập R' tính theo: R' = 1 R r 1 2n1 2n c Nếu có kết thử nghiệm tham gia so sánh hiệu kết lớn với kết bé xét với R' = 1,2.R 40 SỐ LẠC TRONG THỬ NGHIỆM Số lạc coi giá trị lớn bé so với giá trị lại tập hợp kết đo, có xác suất xuất thấp Trong chừng mực đó, xem chúng khơng đại diện cho chất lượng mẫu, loại khỏi phép tính thống kê kết thử nghiệm gần với giá trị thực Các tính tốn nhằm phát số lạc hầu hết dựa sở giả thiết đại lượng đo thuộc phân bố chuẩn gần với phân bố chuẩn xác suất rủi ro việc loại bỏ sai lầm thường lấy % Số lạc giá trị cá thể tập hợp giá trị mẫu kết thử nghiệm mẫu cá thể tập hợp nhiều mẫu lấy từ tổng thể Đối với tập hợp giá trị mẫu, số lạc phát khi: Phương pháp dùng hệ số z (z-score) Hệ số zi giá trị xi tính theo : zi = | xi x | s x số trung bình s độ lệch chuẩn mẫu Khi zi 3, tức xi x 3.s xi x + 3.s bị coi số lạc với mức tin cậy 99,73% đại lượng đo thuộc phân bố chuẩn Shiffler (1988) chứng minh zi phụ thuộc cỡ mẫu n, giá trị tối đa (n1)/ n nên việc áp dụng hệ số z không tốt để phát số lạc mẫu nhỏ cỡ n từ đến 10 Để khắc phục nhược điểm này, Iglewicz Hoaglin (1993) đề nghị hệ số Z cải tiến ký hiệu Mi sau : Mi = 0,6745 | x i ~ x| MAD MAD (median absolute deviation) = median( x i ~x ) với E(MAD) = 0,6745. Khi Mi > 3,5, khẳng định xi tương ứng số lạc Ví dụ : Một mẫu n = 14 với giá trị: {xi} = {3,2 3,4 3,7 3,7 3,8 3,9 4,0 4,0 4,1 4,2 4,7 4,8 14 15} Nếu tính Zi Mi, ta có: xi 3,2 3,4 3,7 3,7 3,8 3,9 4,0 4,0 4,1 4,2 4,7 4,8 14 15 Zi -0,59 -0,54 -0,46 -0,46 -0,43 -0,41 -0,38 -0,38 -0,35 -0,33 -0,20 -0,17 2,21 2,47 Mi 1,80 1,35 0,67 0,67 0,45 0,22 0 0,22 0,45 1,57 1,80 22,48 24,73 Các giá trị 14 15 có Mi > 3,5 nên số lạc 41 ... Tìm số trung bình, trung vị, số phần tư dưới, số phần tư trên, độ rộng, độ rộng phần tư, độ lệch chuẩn, hệ số biến động hệ số biến động thô 37 Trong thống kê, tham số mẫu thường áp dụng số trung... số trung bình, trung vị, số phần tư dưới, số phần tư trên, phương sai, hệ số biến động hệ số biến động thô mẫu chung mẫu ĐỘ LẶP LẠI VÀ ĐỘ TÁI LẬP Trong tính tốn xử lý kết thử nghiệm, có hai số. .. thành số lạc SỐ THỐNG KÊ CỦA NHIỀU MẪU CÙNG THỰC HIỆN Giả sử thử nghiệm, người ta thực k mẫu Mỗi mẫu có số quan trắc lặp khác ni Kết đo biểu diễn dạng xij (với i = 1, , k j = 1, , ni) ni xi Số