38 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC Chương 3 KIỂM ĐỊNH THỐNG KÊ VÀ ỨNG DỤNG Kiểm định thống kê là phép đánh giá các đại lượng đặc trưng của một hoặc nhiều tập số liệu thực nghiệm dựa vào một quy luật thống kê nhất định Kiểm định thống kê có thể là kiểm định có tham số (parametric test) hoặc kiểm định không qua tham số (non–parametric test) Các phép kiểm định có tham số phổ biến kể đến như kiểm định Student (t–test), kiểm định Gauss (Z–test), kiểm định Fisher (f–test) Kiểm định khôn.
38 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC Chương KIỂM ĐỊNH THỐNG KÊ VÀ ỨNG DỤNG Kiểm định thống kê phép đánh giá đại lượng đặc trưng nhiều tập số liệu thực nghiệm dựa vào quy luật thống kê định Kiểm định thống kê kiểm định có tham số (parametric test) kiểm định khơng qua tham số (non–parametric test) Các phép kiểm định có tham số phổ biến kể đến kiểm định Student (t–test), kiểm định Gauss (Z–test), kiểm định Fisher (f–test) Kiểm định không qua tham số thường dùng kiểm định Chi bình phương Pearson (χ2–test), kiểm định Wilcoxon (W–test), kiểm định Mann–Whitney (U–test), Phép kiểm định thống kê qua tham số cho kết chắn thường sử dụng thực nghiệm Hóa học Hóa phân tích 3.1 Giả thuyết thống kê kết luận thống kê 3.1.1 Giả thuyết thống kê (Statistical hypothesis) Phép kiểm định thống kê gắn liền với kết luận thống kê sở giả thuyết ban đầu cho tham số đặc trưng hai tập số liệu Giả thuyết thống kê so sánh tham số ak hai tập số liệu có dạng sau: Giả thuyết H0 (Null hypothesis): giả thuyết đưa với ak đồng nhất, biểu thức tương ứng ak hay – ak Giả thuyết Ha (Alternative hypothesis): giả thuyết đưa ak không đồng nhất, biểu thức ak, > ak, < ak Trong a tham số đặc trưng giá trị trung bình (µ), phương sai (σ2), độ lệch chuẩn (σ), hai dãy số liệu tương ứng 3.1.2 Kết luận thống kê (Statistical conclusion) Ứng với giả thuyết thống kê nêu trên, tùy thuộc vào kết tính tốn dựa quy luật phân phối thích hợp đưa kết luận Kết luận thống kê phân loại sau: Chương Kiểm định thống kê ứng dụng 39 Kết luận loại I (Type I conclusion): Bác bỏ H0 (µi µk), chấp nhận Ha (µi µk) Kết luận loại I dẫn đến sai lầm loại I Sai lầm loại I (Type I error): sai lầm kết luận loại I bác bỏ H0, chấp nhận Ha Sai lầm loại I khiến người ta kết luận mối quan hệ cho không tồn (Ha) thực tế có mối quan hệ có tồn (H0) Ví dụ sai lầm loại I: Một xét nghiệm cho thấy bệnh nhân mắc bệnh thực tế bệnh nhân khơng mắc bệnh; Một chng báo cháy nổ hoạt động thực tế khơng có đám cháy Kết luận loại II (type II conclusion): Chấp nhận H0 (µi µk), bác bỏ Ha (µi µk) Kết luận loại II dẫn đến sai lầm loại II Sai lầm loại II (Type II error) sai lầm kết luận loại II chấp nhận H0, bác bỏ Ha Thông thường, sai lầm loại II khiến người ta kết luận tác động mối quan hệ cho tồn (H0) thực tế khơng tồn (Ha) Ví dụ sai lầm loại II: Kết xét nghiệm cho thấy bệnh nhân không mắc bệnh thực tế bệnh nhân mắc bệnh; Một chng báo cháy nổ khơng hoạt động thực tế có đám cháy Thông thường, sai lầm loại II nghiêm trọng so với sai lầm loại I Trong trường hợp chưa có chắn buộc phải kết luận thống kê phải giữ nguyên tắc “Thà mắc sai lầm loại I mắc sai lầm loại II” Điều có nghĩa khơng đủ chứng bác bỏ giả thuyết H0, cịn chấp nhận giả thuyết H0 Bảng 3.1: Phân loại giả thuyết thống kê kết luận thống kê Giả thuyết H0 Kết luận H0 H0 sai Bác bỏ H0 Sai lầm loại I Kết luận Chấp nhận H0 Kết luận Sai lầm loại II 40 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC 3.1.3 Mối quan hệ chuẩn thống kê kết luận thống kê Để thực phép kiểm định thống kê (đưa kết luận thống kê) cho đại lượng đặc trưng (giá trị trung bình, phương sai, độ đúng, độ tái lặp…) tập số liệu với giá trị cho trước tập số liệu với cần chọn chuẩn thống kê phù hợp tương ứng Có thể dùng giá trị chuẩn thống kê giá trị p–value để kết luận thống kê Về chất p–value giá trị α = 1– P từ phép tính tốn thống kê thu với P độ tin cậy tương ứng Trong α dùng mức ý nghĩa chuẩn tham chiếu thực phép kiểm định Ví dụ phép kiểm định mức ý nghĩa 0.05 (α = 0.05), phép tính thống kê tính p–value = 0.03 (P = 0.97), so sánh ta thấy p–value < α Các giả thuyết cho đại lượng thống kê cần kiểm định là: H0 : giống nhau; Ha: khác nhau; lớn hơn; nhỏ Các trường hợp kết luận thống kê trình bày bảng 3.1 Bảng 3.2: Kết luận thống kê theo chuẩn thống kê độ không tin cậy Giá trị chuẩn thống kê p–value Kết luận thống kê Chuẩn tính < chuẩn bảng hai phía p–value > α Chấp nhận H0 Chuẩn tính ≥ chuẩn bảng hai phía p–value ≤ α Chấp nhận Ha Chuẩn tính ≤ chuẩn bảng phía trái p–value ≤ α Chấp nhận Ha p–value ≤ α Chấp nhận Ha (two–tailed) (upper–tailed) Chuẩn tính ≥ chuẩn bảng phía phải (lower–tailed) Chuẩn tính cịn thường gọi chuẩn score chuẩn stat tính cho trường hợp cụ thể tập số liệu định Chuẩn thống kê chuẩn Gauss, Student, Fisher, Chi bình phương, tùy theo tính chất đại lượng cần so sánh Chương Kiểm định thống kê ứng dụng 41 Hình 3.1 Biểu diễn giá trị p–value (α) đồ thị phân phối xác suất: (a) kiểm định hai phía; (b) kiểm định phía trái; (c) kiểm định phía phải 3.2 Kiểm định Student ứng dụng Kiểm định Student kiểm định sử dụng chuẩn phân phối t, sử dụng để so sánh giá trị trung bình tập số liệu với giá trị thực (one 42 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC sample), so sánh giá trị trung bình hai tập số liệu (two samples) Đối với trường hợp hai tập số liệu, tùy tính chất tập số liệu, ta sử dụng kiểm định t–test trường hợp khác sơ đồ hình 3.2 Hai tập giá trị có liên quan đơi một? Đúng Paired t-test (phụ thuộc) Sai Hai tập có số mẫu? Đúng Sai Đúng Hai tập mẫu có đồng phương sai ? Sai t-test Phương sai đồng (độc lập) t-test Phương sai khác biệt (độc lập) Hình 3.2 Kiểm định Student hai tập số liệu 3.2.1 Kiểm định Student so sánh giá trị trung bình tập số liệu với giá trị cho trước (One–sample t–test) Giả sử tập số liệu có N giá trị với giá trị trung bình x, độ lệch chuẩn Sd , giá trị đối sánh cho trước µ, ta có: t stat = x−μ SX ̅ = x−μ Sd √N (3.1) Tùy vào yêu cầu thực tế đặt cho toán mà phép kiểm định Student tập mẫu tình xảy đây: Tình 1: Đánh giá đồng x µ, sử dụng kiểm định phía với giả thuyết thống kê sau: H0: x µ, x đồng với giá trị µ Ha: x µ, x khác biệt giá trị µ Chương Kiểm định thống kê ứng dụng 43 – Nếu ׀tstat < ׀t(α,f) (two tailed), chấp nhận H0, x đồng với µ – Nếu ׀tstat ≥ ׀t(α,f) (two–tailed), bác bỏ H0, x khác biệt với µ Tình 2: Đánh giá xem x có lớn µ hay khơng, sử dụng kiểm định phía phải (upper–tailed) với giả thuyết thống kê sau: H0: x µ, giá trị trung bình khơng khác biệt với giá trị cho trước Ha: x > µ, giá trị trung bình lớn giá trị cho trước – Nếu tstat < t(α,f) (upper–tailed), chấp nhận H0, x khơng lớn µ – Nếu tstat ≥ t(α,f) (upper–tailed), chấp nhận Ha, x lớn µ Tình 3: Đánh giá xem x có nhỏ µ hay khơng, sử dụng kiểm định phía trái (lower–tailed) với giả thuyết thống kê sau: H0: x µ, giá trị trung bình khơng khác biệt với giá trị cho trước Ha: x < µ, giá trị trung bình nhỏ giá trị cho trước – Nếu tstat > t(α,f) (lower–tailed), chấp nhận H0, x không nhỏ µ – Nếu tstat ≤ t(α,f) (lower–tailed), chấp nhận Ha, x nhỏ µ; Ứng dụng: t–test mẫu sử dụng phổ biến để đánh giá sai số hệ thống, kiểm tra kết phân tích QC mẫu chuẩn/vật liệu chuẩn (CRM), kiểm tra chất lượng sản phẩm, Ví dụ 3.1: Kết phân tích kiểm tra hàm lượng vitamin B1 (mg/viên) lô thuốc thương phẩm thu sau: 5.02 5.04 5.20 5.10 5.03 4.90 5.13 5.23 4.75 5.05 5.04 4.96 5.17 4.81 4.80 Kết luận chất lượng loại thuốc yêu cầu hàm lượng vitamin B1 loại thuốc mg/viên, độ tin cậy 95% Giải: Cách 1: Sử dụng cơng thức tính thông thường Giả thuyết thống kê: H0: x 5; Ha : x 44 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HĨA HỌC Áp dụng cơng thức tính 3.1 ta có: x̅ = N ∑N i=1 xi ≈ 5.02 S = N−1 ∑N i=1(xi − x) = 0.021564 Sd ≈ 0.147 t stat = x−μ Sx̅ = x−μ Sd √N ≈ 0.33 t crit = t(0.05,14) hai phía = 2.13 Vì t stat = 0.33 < t(α,f) hai phía, chấp nhận H0, giá trị trung bình đồng với mg/viên Kết luận hàm lượng vitamin B1 lô thuốc đạt yêu cầu Cách 2: Sử dụng công cụ Data analysis Excel Bài toán kiểm định Student so sánh giá trị trung bình tập số liệu với giá trị cho trước thực cơng cụ Data analysis Excel cách nhanh chóng, xác mà khơng cần tính tốn thơng số tập liệu Về ý nghĩa toán học thống kê, thông số thu từ sử dụng công cụ Excel hoàn toàn giống so với cách thực cơng thức trình bày cách Thực tế rằng, Microsoft Excel không thiết kế công cụ riêng cho kiểm định Student tập mẫu (One–sample t–test) Tuy nhiên ta sử dụng kiểm định Student hai tập mẫu không đồng phương sai (Two– sample assuming unequal variances) cho mục đích Để sử dụng công cụ Excel, sau thực thao tác Add–Ins (được trình bày Chương 1) thực chọn công cụ theo đường dẫn: data/data analysis/t–test: Two–Sample Assuming Unequal Variances Thực nhập số liệu thực nghiệm theo cột, giá trị đối sánh nhập cột khác lặp lại lần, khai báo Input, thơng số Output option hình sau đây: Chương Kiểm định thống kê ứng dụng 45 Chọn ok, kết phép kiểm định thu là: Kết thu hoàn toàn giống cách tính cơng thức, tstat ≈ 0.33 < tcrit (two–tail) ≈ 2.14, chấp nhận H0 tức hàm lượng vitamin B1 lô thuốc đạt yêu cầu Ví dụ 3.2: Một thiết bị phân tích kiểm tra cách xác định hàm lượng Cu (tính mg) có g vật liệu chuẩn chứng nhận (CRM) Giấy chứng nhận phân tích CRM ghi hàm lượng trung bình Cu 4.54 mg/g mẫu Thực 30 lần phân tích mẫu CRM thiết bị phân tích thu kết bảng Với 46 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC mức ý nghĩa 5%, thiết bị có đạt yêu cầu mặt kỹ thuật tất yếu tố khác phân tích kiểm sốt 4.65 4.56 4.38 4.54 4.47 4.49 4.42 4.49 4.46 4.68 4.33 4.54 4.63 4.50 4.46 4.47 4.56 4.52 4.47 4.56 4.56 4.35 4.5 4.47 4.44 4.64 4.57 4.37 4.55 4.46 Giải: Giả thuyết thống kê: H0: x̄ , thiết bị hoạt động tốt Ha: x̄ , thiết bị không đạt yêu cầu Giá trị thông số tập số liệu thu là: x̅ = N ∑N i=1 xi ≈ 4.50 S = N ∑N i=1(xi − x) = 0.00751 Sd = 0.08667 Áp dụng công thức 3.1 ta có: t stat = x−μ Sx̅ = x−μ Sd √N ≈ – 2.34 t crit = t(0.05,29) = 2.24 (hai phía) Vì ׀t stat = ׀2.34 > tcrit (hai phía), bác bỏ giả thuyết H0 Giá trị trung bình (x) khác biệt với giá trị chuẩn (µ), thiết bị phân tích hoạt động khơng tốt 3.2.2 Kiểm định Student liên quan đôi (Paired t–test) Giả sử hai tập số liệu A, B có N giá trị NA = NB = N tập số liệu có liên quan đơi một, để so sánh giá trị trung bình hai tập ta sử dụng công thức sau: t stat = (𝐱̅𝐀 −𝐱̅𝐁 ) Sd √N = Md Sd √N (3.2) Trong đó: di = xAi − xBi (3.3) Chương Kiểm định thống kê ứng dụng Md = Sd = ∑N i=1 di N (trung bình độ lệch) ∑N i=1 di − √ (∑N i=1 di ) N N−1 47 (3.4) (3.5) Bậc tự do: f = N A – = NB – = N – (3.6) Tùy vào mục đích tốn, kiểm định Student liên quan đơi một tình sau: Tình 1: Đánh giá tương đồng xA xB , sử dụng kiểm định phía với giả thuyết thống kê sau: H0: xA xB , xA tương đồng với xB Ha: xA xB , xA khác biệt giá trị xB – Nếu ׀tstat < ׀t(α,f) (two–tailed), chấp nhận H0, xA tương đồng với xB – Nếu ׀tstat ≥ ׀t(α,f) (two–tailed), bác bỏ H0, xA khác biệt với xB Tình 2: Đánh giá xem xA có lớn xB hay khơng, sử dụng kiểm định phía phải (upper–tailed) với giả thuyết thống kê sau: H0: xA xB , xA tương đồng với xB Ha: xA > xB , xA lớn xB – Nếu tstat < t(α,f) (upper–tailed), chấp nhận H0, xA không lớn xB – Nếu tstat ≥ t(α,f) (upper–tailed), chấp nhận Ha, xA lớn xB Tình 3: Đánh giá xem xA có nhỏ xB hay khơng, sử dụng kiểm định phía trái (lower–tailed) với giả thuyết thống kê sau: H0: xA xB , xA tương đồng với xB Ha: xA < xB , xA nhỏ xB – Nếu tstat > t(α,f) (lower–tailed), chấp nhận H0, xA tương đồng với xB – Nếu tstat ≤ t(α,f) (lower–tailed), chấp nhận Ha, xA nhỏ xB ; Ứng dụng: Kiểm định Student liên quan đôi sử dụng để so sánh giá trị trung bình hai tập số liệu lần thực nghiệm có Chương Kiểm định thống kê ứng dụng 75 Ta thấy Fstat ≈ 1.3 < Fcrit ≈ 3.7, chấp nhận H0 Hai phương sai đồng Do đó, độ lặp hai nhân viên tương đồng độ tin cậy 95% Ví dụ 3.11: Hàm lượng hoạt chất cefadroxil thuốc viên nang Mekocefal kiểm tra phương pháp HPLC hộp thuốc mẫu lấy ngẫu nhiên lơ sản phẩm Thực phân tích lặp lần cho hộp thuốc, kết thu bảng sau: N Hộp Hộp Hộp Hộp Hộp 98.79 99.31 98.83 100.07 98.77 99.23 99.07 98.75 99.88 99.08 99.43 99.03 98.87 99.24 99.85 Hàm lượng hoạt chất cefadroxil có đồng lơ thuốc nói hay khơng độ tin cậy 95%? Giải: Trong tập này, cần đánh giá xem hàm lượng hoạt chất có khác hộp thuốc (between group) so với thay đổi phép phân tích lặp lại hộp (within group) Về chất, việc đánh giá so sánh phương sai phương sai sai số Kiểm định Fisher dễ dàng thực có câu trả lời xác cho tốn (xem thêm chương 5, tốn phân tích phương sai yếu tố) 76 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC Gọi SA2 phương sai nhóm, So2 phương sai lặp lại nhóm Giả thuyết thống kê: H0: S𝐴2 ≡ S02 Phương sai đồng với phương sai lặp lại Ha: S𝐴2 ≠ S02 Phương sai không đồng phương sai lặp lại Trước hết, cần tính giá trị phương sai cho phép kiểm định Thông số Hộp Hộp Hộp Hộp Hộp x̅i 98.79 99.31 98.83 100.07 98.77 Si2 0.107 0.023 0.004 0.189 0.309 x̅ 99.21 – Phương sai lặp lại (within group) So2 = n ∑k ̅ i )2 i=1 ∑j=1(xij −x k(n−1) = ∑5i=1 ∑3j=1(xij −x̅i )2 5(3−1) = 0.126 – Phương sai nhóm (between group) SA2 = ̅ i −x̅)2 n ∑k i=1(x Fstat = (k−1) S2A S2o = ∑5i=1(x̅i −x̅)2 (5−1) = 0.326 0.326 = 0.126 =2.5 Fcrit = F(0.05, 4, 2) ≈ 19.2 Ta thấy Fstat = 2.5 χ2α/2,f χ2stat < χ1−α/2,f (hai phía), kết luận Ha, X ảnh hưởng Y – Hoặc p–value (χ2stat , f) < 0.05, kết luận Ha Với bậc tự f = (n–1)(m–1) Ta sử dụng hàm Excel để thực kiểm định Chi bình phương cách nhanh chóng sau lập giá trị trung bình/mong đợi (fije ) theo cú pháp: fx= CHITEST(actual_range, expected_range) Chương Kiểm định thống kê ứng dụng 79 Trong đó: Actual_range vị trí bảng số liệu fijo ; Expected_range vị trí bảng số liệu fije Kết phép kiểm định trả giá trị p–value, p–value ≤ 0.05 (mức 95%) kết luận Ha ngược lại Ví dụ 3.12: Số lượng dụng cụ thủy tinh bị vỡ quan sát nhân viên phịng thí nghiệm 23, 16, 11, Thời gian làm việc phịng thí nghiệm nhân viên nhau, đánh giá xem kỹ sử dụng dụng cụ thủy tinh nhân viên có đồng hay không độ tin cậy 95%? Giải: Mặc dù nhìn giá trị số, thấy tần suất dụng cụ bị làm vỡ nhân viên khác nhau, nhiên để kết luận cách chắn toán học thống kê, kiểm định ꭓ2 công cụ hữu hiệu trường hợp Giả thuyết thống kê: Ho: số lần làm vỡ dụng cụ nhân viên tương đồng Ha: có nhân viên có số lần làm vỡ dụng cụ khác biệt – Tần suất quan sát fio tập số liệu 23, 16, 11, – Tần suất mong đợi (tần suất trung bình): fie = ∑4i=1 f0i = 58 =14.5 Số liệu trình bày bảng sau: (O – E) (O − E)2 E 14.5 8.5 4.98 16 14.5 1.5 0.16 11 14.5 –3.5 0.84 14.5 –6.5 2.91 8.90 Tần suất quan Tần suất sát (O) mong đợi (E) 23 Tổng 80 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC χ2stat = ∑ χ2ij = 8.90 Bậc tự tập số liệu f = –1 = χ2crit = χ2 (0.05,3) ≈ 7.8 (bảng A6, phụ lục) Ta thấy χ2stat = 8.9 > χ2crit = 7.8, bác bỏ Ho, chấp nhận Ha, có nhân viên có số lần làm vỡ dụng cụ khác biệt nhân viên lại Cách 2: Dùng hàm Excel Nhập số liệu dạng bảng tần suất quan sát (fijo ) tần suất mong đợi (fije ) sử dụng hàm CHITEST hình đây: Giá trị thu p–value = 0,031 < 0,05, chấp nhận Ha, có nhân viên có số lần làm vỡ dụng cụ khác biệt với nhân viên lại 3.6.2 Kiểm định Chi bình phương đánh giá đồng phương sai mẫu phương sai chuẩn cho trước Trong trường hợp muốn so sánh độ lặp lại tập mẫu so với độ lệch chuẩn cho trước theo yêu cầu kỹ thuật, kiểm định χ2–test có tham số công cụ để thực (công thức 2.12) χ2stat = – Nếu (N−1)S2 σ2 χstat > χ2α/2,f χ2stat < χ1−α/2,f (hai phía) kết luận Ha, S2 ≠ σ2 – Nếu χ2stat > χ1−α,f (phía phải) kết luận Ha, S2 > σ2 – Nếu χ2stat < χ2α,f (phía trái) kết luận Ha, S2 < σ2 Chương Kiểm định thống kê ứng dụng 81 Ví dụ 3.13: Kết đo lặp mẫu chuẩn thiết bị phân tích thu dãy số liệu: 10.0012, 10.0015, 10.0011, 10.0014, 10.0018 10.0016 Với yêu cầu kỹ thuật σ = 0.0002, thiết bị có cịn tốt để sử dụng? Giải: Đối với thiết bị đo lường, độ lặp thiết bị thông số quan trọng xem xét thiết bị có cịn tốt để sử dụng hay khơng Phép đo lặp phải thực giống từ lần đo để giảm thiểu ảnh hưởng yếu khác ngồi độ xác thiết bị Kiểm định χ2–test áp dụng để giải cho toán – Giả thuyết thống kê: Ho: S ≡ σ2 thiết bị tốt Ha: S ≠ σ2 thiết bị xuống cấp, cần xem xét – Tính tốn thống kê: –8 s = N−1 ∑N i=1(xi − x) = 6.668.10 χ2stat = (N−1) σ2 = (6−1)6.668.10−8 0.00022 ≈ 8.3 χ2crit = χ2(0.05, 5) ≈ 12.8 (bảng A7, phụ lục) – Kết luận: χ2stat = 8.3 < χ2crit = 12.8 chấp nhận H0, thiết bị cịn hoạt động tốt 3.6.3 Kiểm định Chi bình phương đánh giá đồng nhiều phương sai (Bartlett test) Một tập liệu lớn bao gồm k tập số liệu nhỏ khảo sát với mục đích định cần đánh giá xem phương sai k dãy số liệu thành phần có đồng hay khơng trước sử dụng chúng Ví dụ đánh giá độ lặp phê duyệt phương pháp phân tích cần thực nhiều kiểm nghiệm viên phân tích lặp mẫu thử, mức độ thành thạo (độ lặp) có đồng hay khơng xem xét kiểm định χ2 Giả sử tập số gồm k dãy số liệu nhỏ với phương sai Si2 bậc tự tương ứng fi, giả thuyết thống kê cho phép kiểm định là: 82 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC Ho: S12 = S22 = S32 = ⋯ = Sk2 Ha: Có cặp Si2 ≠ Sj2 χ2stat = (N−k) ln S2p −∑k i=1 fi lnSi 1+ (3.35) 1 (∑k − ) 3k−3 i=1fi N−k Trong đó: – Si2 : phương sai tập thứ i – Sp2 : phương sai toàn tập N số liệu, bao gồm tất tập số liệu nhỏ χ2crit = χ2 (α, k–1) (3.36) Nếu χ2stat < χ2crit kết luận Ho, ngược lại χ2stat > χ2crit kết luận Ha Ví dụ 3.14: Kết phân tích lặp độ hịa tan loại thuốc hộp lấy ngẫu nhiên, hộp thuốc phân tích lặp sáu lần, lần viên thu kết độ hòa tan sau: Hộp 101.47 101.66 103.77 101.71 102.01 100.96 Hộp 100.86 100.98 102.12 101.37 101.38 100.22 Hộp 101.16 99.69 100.22 99.47 102.46 101.2 Hộp 103.49 101.81 100.97 102.83 103.14 98.65 Hộp 102.26 99.52 99.73 100.51 102.04 101.14 Đánh giá tính đồng độ hịa tan thuốc hộp thuốc nói với độ tin cậy 95% Giải: Trong tập này, mức độ đồng thuốc có hộp thể qua giá trị phân tích lặp hộp thuốc Về mặt thống kê, điều đồng nghĩa với việc xem xét phương sai hộp thuốc có khác biệt hay khơng Do vậy, χ2–test công cụ thống kê phù hợp để thực việc đánh giá Giả thuyết thống kê toán: Ho: S12 = S22 = S32 = ⋯ = S52 , độ hòa tan thuốc hộp đồng Chương Kiểm định thống kê ứng dụng 83 Ha: Có cặp Si2 ≠ Sj2 , hộp thuốc có độ hịa tan khơng đồng Để thuận lợi cho tính tốn, thơng số thành phần cơng thức 3.35 trình bày bảng đây: fi 1/fi Si2 fi Si2 fi lnSi2 Hộp 0.2 0.933 4.666 –0.069 Hộp 0.2 0.404 2.020 –0.906 Hộp 0.2 1.265 6.323 0.235 Hộp 0.2 3.265 16.323 1.183 Hộp 5 0.2 1.325 6.626 0.282 Tổng 25 1.0 7.192 35.958 0.725 Phương sai tổng toàn tập liệu Sp2 = 1.495 χ2stat = (N−k) ln S2p −∑k i=1 fi lnSi 1+ 1 (∑k − ) 3k−3 i=1fi N−k = (30−5) ln 1.495−0.725 1+ 1 (1− ) 18−3 30−5 = 8.77 χ2crit = χ2 (α, k–1) =χ2 (0.05, 5) = 11.07 (bảng A7, phụ lục) χ2stat = 8.77 < χ2crit = 11.07, phương sai tập số liệu đồng nhất, hay độ hòa tan thuốc hộp đồng với 3.7 Kiểm định Cochran ứng dụng Tương tự χ2–test, kiểm định Cochran sử dụng có tham số (Cochran’ C test) không tham số (Cochran’ Q test) Trong kiểm định có tham số Cochran’ C test sử dụng phổ biến lĩnh vực hóa học Về ý nghĩa thống kê, Cochran’ C test dùng để đánh giá tính đồng thống kê tập liệu lớn bao gồm nhiều tập số liệu nhỏ thành phần với phép so sánh phương sai dãy số liệu với tổng phương sai tập lớn Điều cho phép Cochran’ C test đưa kết luận dãy số liệu thành phần xem xét có phương sai khác biệt hay khơng với tập cịn lại, từ định giữ hay loại bỏ thí nghiệm Do vậy, Cochran’ C test sử dụng để kiểm tra thí nghiệm có độ lặp 84 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC đạt yêu cầu thiết kế thực nghiệm sử dụng để đánh giá tính đồng mẫu tập số liệu thử nghiệm thành thạo ứng dụng khác Giả sử tập số liệu bao gồm N tập số liệu nhỏ Mỗi tập số liệu thành phần có n giá trị với phương sai tương ứng S12 , S22 , S32 , , SN Sj2 phương sai tập thứ j cần xem xét, thông thường tập thứ j tập có phương sai lớn so với tập lại Giả thuyết thống kê: Ho: S12 = S22 = S32 = ⋯ = SN , tất phương sai đồng Ha: phương sai lớn phương sai khác tập số liệu Biểu thức tính Cochran’ C test: S2 Cstat = ∑N j S2 (3.37) i=1 i Nếu Cstat < Ccrit (α, n, N), kết luận Ho ngược lại Tại độ tinh cậy định tra bảng giá trị Ccrit tính theo biểu thức sau: N−1 −1 Ccrit (α, n, N) = [1 + F(α/N,(n−1),(N−1)(n−1)] (3.38) Với F số Fisher với độ tin cậy α/N, bậc tự (N–1) (N–1)(n–1) Ví dụ 3.15: 15 phịng thí nghiệm tham gia chương trình thử nghiệm thành thạo với phép thử phương pháp UV–Vis 02 mẫu lặp Dùng kiểm định thống kê xác định phịng thí nghiệm khơng đồng phương sai với toàn tập số liệu PTN x1 x2 22.62 22.63 24.35 24.78 21.21 22.3 23.19 23.65 Chương Kiểm định thống kê ứng dụng 85 24.93 25.07 24.58 24.61 22.69 22.6 22.16 22.24 19.62 19.7 10 23.37 23.69 11 23.85 23.94 12 23.97 23.92 13 22.52 22.87 14 24.71 24.59 15 22.72 23.21 Giải: Tập số liệu kết phân tích 15 phịng thí nghiệm, phịng thí nghiệm có phương sai lặp lại riêng Do vậy, để xác định xem phịng thí nghiệm có phương sai khơng đồng với tồn tập liệu Cochran’ C test cho phép thực điều cách thuận lợi Giả thuyết thống kê toán: Ho: S12 = S22 = S32 = ⋯ = S15 , phương sai phịng thí nghiệm đồng Ha: Sj2 > Si2 , phịng thí nghiệm có phương sai lớn giá trị khác Áp dụng công thức 3.35 tính Ci cho phịng thí nghiệm thu bảng kết quả: PTN x1 x2 Si2 Ci 22.62 22.63 0.0000 0.000 24.35 24.78 0.0924 0.087 21.21 22.3 0.5941 0.561 23.19 23.65 0.1058 0.100 86 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC 24.93 25.07 0.0098 0.009 24.58 24.61 0.0005 0.000 22.69 22.6 0.0040 0.004 22.16 22.24 0.0032 0.003 19.62 19.7 0.0032 0.003 10 23.37 23.69 0.0512 0.048 11 23.85 23.94 0.0040 0.004 12 23.97 23.92 0.0012 0.001 13 22.52 22.87 0.0613 0.058 14 24.71 24.59 0.0072 0.007 15 22.72 23.21 0.1201 0.113 Tra bảng với α = 0.05, n =2, N=15 Ccrit = 0.471 (Bảng A9 Phụ lục) Phịng thí nghiệm thứ có Cstat = 0.561 > Ccrit = 0.471, phương sai phòng thí nghiệm khác biệt so với phịng thí nghiệm cịn lại BÀI TẬP CHƯƠNG Bài tập 3.1: Một nhà cung cấp vải nguyên liệu cho sở sản xuất may Tiêu chuẩn độ bền kéo trung bình nhỏ 200 psi Kết kiểm tra ngẫu nhiên 04 mẫu cho giá trị trung bình 214 psi Đánh giá chất lượng lơ hàng 95% biết phương sai cho phép kiểm định chấp nhận 100 psi2 Bài tập 3.2: Một nghiên cứu hàm lượng (hoạt độ) monoamine oxidase tiểu cầu 43 bệnh nhân tâm thần phân liệt có giá trị trung bình 2.69 với độ lệch chuẩn 2.30 Hàm lượng 45 người bình thường 6.35 với độ lệch chuẩn 4.03 Dùng kiểm định thống kê kiểm tra kết luận mức monoamine oxidase trung bình người bình thường gấp đơi mức trung bình bệnh nhân tâm thần phân liệt Chương Kiểm định thống kê ứng dụng 87 Bài tập 3.3: Một thiết bị kiểm tra độ cứng vật liệu sử dụng hai đầu kim khác mẫu Thực kiểm tra 10 mẫu khác thu kết sau: Thí nghiệm 10 Đầu kim Đầu kim 5 Sử dụng kiểm định thống kê đánh giá xem kết phân tích có phụ thuộc vào thiết bị khác Bài tập 3.4: Yêu cầu độ nhớt loại chất tẩy rửa lỏng trung bình 800 centistokes 25∘C Kiểm tra ngẫu nhiên 16 mẻ thành phẩm thu độ nhớt trung bình 812 Sử dụng kiểm định thống kê đánh giá chất lượng sản phẩm nói biết độ lệch chuẩn 𝜎 = 25 centistokes, độ tin cậy 95% Bài tập 3.5: Một thiết bị thử nghiệm cũ sử dụng để giám sát đầu quy trình sản xuất Thiết bị bị nghi ngờ độ xác phép đo Để kiểm tra thiết bị người ta thực đo lặp lại đối chứng với thiết bị tốt mẫu đo Kết thu sau: Thiết bị cũ: phương sai 14.3 ứng với n = 12 Thiết bị mới: phương sai 11.2 với n = 10 Sử dụng kiểm định thống kê xác định xem thiết bị cũ cịn đạt u cầu độ xác phép đo độ tin cậy 95% Ví dụ 3.6: Một thực phẩm chức bổ sung vitamin thử nghiệm 10 tình nguyện viên xem có tác dụng làm tăng sức nâng vật nặng thể Kết kiểm tra sức nâng (tính kg) tình nguyện viên trước sau sử dụng sản phẩm tập luyện tháng thu bảng bên đây: Trước sử dụng (A) 95 104 83 93 119 115 Sau sử dụng (B) 107 81 93 Tình nguyện viên 99 10 99 112 98 89 123 114 101 116 100 84 88 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC Hãy sử dụng kiểm định thống kê đánh giá xem loại thực phẩm chức có tác dụng rõ ràng độ tin cậy 95% hay không? Bài tập 3.7: Trong nghiên cứu phát triển sản phẩm thuốc bảo vệ thực vật Inip 650EC (hoạt chất chlorpyrifos ethyl ≈ 53%), để đánh giá hạn sử dụng thuốc hai năm có cịn đảm bảo hàm lượng khơng Người ta tiến hành xác định hàm lượng hoạt chất chlorpyrifos ethyl phương pháp HPLC–UV trước sau xử lý gia nhiệt 54oC 14 ngày (tương đương với bảo quản năm theo điều kiện bảo quản nhiệt độ thường) thu thập bảng bên Hãy sử dụng đánh giá thống kê xem hàm lượng hoạt chất có ổn định năm bảo quản không độ tin cậy 95% N Trước xử lý Sau xử lý 52.624 52.898 53.037 52.909 52.816 53.408 53.248 53.161 52.889 52.663 52.933 52.994 53.201 53.173 53.021 52.902 52.989 52.980 10 53.123 53.082 Tài liệu tham khảo Alexey L Pomerantsev, Chemometrics in Excel, John Wiley & Sons, Inc (2014) Lehmann Erich L., Joseph P Romano, Testing statistical hypotheses, Springer Science & Business Media (2006) James N Miller, Jane C Miller, Robert D Miller, Statistics and Chemometrics for Analytical Chemistry, 7th Edition, Pearson Education Limited (2018) Chương Kiểm định thống kê ứng dụng 89 International Standard, General requirements for the competence of testing and calibration laboratories, ISO/IEC 17025 (2017) International Standard, Statistical methods for use in proficiency testing by interlaboratory comparison, ISO 13528:2015 (2015) International Standard, Accuracy (trueness and precision) of measurement methods and results – Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement method, ISO 5725–2, 2nd (2019) Tiêu chuẩn Quốc gia, Phương pháp thống kê dùng thử nghiệm thành thạo so sánh liên phịng thí nghiệm, TCVN 9596:2013 (2013) ... bình tập số liệu với giá trị thực (one 42 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC sample), so sánh giá trị trung bình hai tập số liệu (two samples) Đối với trường hợp hai tập số liệu, tùy... cụ hữu hiệu để loại bỏ dãy số liệu thành phần bất thường so với toàn tập liệu lớn 70 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC Giả sử tập số liệu gồm N tập số liệu thành phần với giá trị... dụng để kiểm tra thí nghiệm có độ lặp 84 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC đạt yêu cầu thiết kế thực nghiệm sử dụng để đánh giá tính đồng mẫu tập số liệu thử nghiệm thành thạo ứng