Quy hoạch thực nghiệm là công cụ lý thú và có ích trong việc thu gọn lượng thí nghiệm mà vẫn đưa ra được quy luật, cũng như tối ưu hóa các quá trình thực nghiệm. Đây là bài giảng Lý thuyết chung và bài tập mẫu cho quy hoạch thực nghiệm trong thí nghiệm hóa học của Khoa Hóa Trường ĐHKHTN
Trang 1Chương 1: QUI HOẠCH THỰC NGHIỆM
Trong thực nghiệm hoá học, các kết quả thực nghiệm phải được xử lý thống kê nhằm mang lại những thông tin có ích cho người sử dụng Để thu được những thông tin có giá trị thì số liệu thu được từ thực nghiệm phải có tính chính xác cao tức là phải được tiến hành theo những qui luật chặt chẽ Cách tiến hành thí nghiệm như thế được
gọi là qui hoạch thực nghiệm (experiment design) Qui hoạch thực nghiệm liên quan
đến việc xây dựng số thí nghiệm cần tiến hành, cách thức tiến hành thí nghiệm, xây dựng mô hình thí nghiệm và từ đó xác định mức độ ảnh hưởng của các biến đến kết quả thí nghiệm cũng như dùng mô hình đó để dự đoán kết quả thí nghiệm
Các phương pháp qui hoạch thực nghiệm gồm:
- Phân tích phương sai (analysis of variance-ANOVA) (một yếu tố, hai yếu tố và
ba yếu tố ảnh hưởng trở lên)
- Phân tích phương sai đa biến (multivariate analysis of variance- MANOVA)
- Phân tích đồng phương sai ANCOVA(covariance analysis).
- Phương pháp thực nghiệm theo nhân tố (factorial design)
- Phương pháp khối ngẫu nhiên (Randomize block)
Trong các phương pháp trên, cơ sở lý thuyết của phương pháp ANOVA đã được
đề cập đến trong giáo trình “Thống kê trong Hoá phân tích” Vì vậy, giáo trình này chỉ
đề cập đến ví dụ ứng dụng ANOVA và các phương pháp còn lại
1.1 ANOVA
Thí dụ 1.1.: Văn phòng công nhận chất lượng các phòng thử nghiệm tiến hành một chương trình thử nghiệm kiểm tra 8 phòng thử nghiệm khác nhau đối với chỉ tiêu hàm lượng tổng P2O5 (%) trong 1 mẫu phân bón nông nghiệp Mỗi phòng thử nghiệm tiến hành phân tích lặp lại 3 lần (Bảng 1.1) Hãy dùng phương pháp ANOVA kiểm tra xem giá trị trung bình của mỗi phòng thử nghiệm có giống nhau không, từ đó kết luận về chất lượng phòng thí nghiệm?
Bảng 1.1 Kết quả phân tích liên phòng thí nghiệm về hàm lượng (%) P 2 O 5 trong mẫu phân bón của 8 phòng thí nghiệm
1 45.51 46.02 45.12 46.18 46.17 45.87 46.21 46.25
2 45.61 45.86 45.31 46.27 46.24 46.11 46.25 46.23
3 46.08 45.27 45.09 46.38 45.89 45.81 45.97 46.52 Hướng dẫn giải
Sử dụng phần mềm Minitab 14, nhập số liệu của bảng 1 dưới dạng cột chưa số
liệu về hàm (response) là %P2O5 theo thứ tự từ trên xuống dưới và từ trái qua phải
trong bảng; các yếu tố (factor) là số thứ tự biểu diễn các phòng thí nghiệm từ 1 đến 8
(theo thứ tự từ trên xuống sẽ là: 1,1,1,2,2,2, 8,8,8) Kết quả tính theo phương pháp ANOVA một yếu tố như sau:
One-way ANOVA: %P2O5 theo PTN
Trang 2Source DF SS MS F P
PTN 7 3.0416 0.4345 9.11 0.000
Error 16 0.7632 0.0477
Total 23 3.8048
S = 0.2184 R-Sq = 79.94% R-Sq(adj) = 71.17%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev + -+ -+ -+ -
1 3 45.733 0.304 ( -* )
2 3 45.717 0.395 ( * -)
3 3 45.173 0.119 ( * -)
4 3 46.277 0.100 ( -* )
5 3 46.100 0.185 ( * )
6 3 45.930 0.159 ( -* )
7 3 46.143 0.151 ( * )
8 3 46.333 0.162 ( -* )
+ -+ -+ -+ -
45.00 45.50 46.00 46.50
Pooled StDev = 0.218
Giải thích kết quả:
Dùng trị số P (Pvalue) để so sánh giữa các giá trị trung bình của các phòng thí nghiệm, chúng ta nhận thấy kết quả thu được có P=0,000 < 0,05 (mức ý nghĩa ) nên khẳng định được rằng không phải tất cả các kết quả trung bình của các phòng thí nghiệm khác nhau đều giống nhau Nói cách khác, cùng một mẫu thí nghiệm nhưng đã
có kết quả khác nhau giữa các phòng thí nghiệm
Khái niệm trị số P- P value :
Trị số P hay P value là giá trị xác xuất (probability value) chỉ “mức ý nghĩa thống kê thấp nhất mà ở đó giá trị quan sát được của thống kê kiểm định có ý nghĩa” (theo từ điển toán kinh tế thống kê, kinh tế lượng Anh- Việt, NXB KHKT, 2004)
Trong thống kê, hai mô hình của Fisher và Neyman-Pearson được viết gọn thành một mô hình tổng hợp trong đó sử dụng kết quả kiểm định thống kê của Fisher để đi đến quyết định chấp nhận hay bác bỏ giả thuyết đảo H0 hay giả thuyết chính H1 theo
mô hình của Neyman và Pearson Theo đó, một nghiên cứu cần được tiến hành theo các bước như sau:
Bước 1, định nghĩa một giả thuyết đảo và một giả thuyết chính
Bước 2, xác định xác suất a (còn gọi là sai số loại I) và b (còn gọi là sai số loại II), và ước tính cỡ mẫu dựa vào hai xác suất này
Bước 3, thu thập dữ liệu liên quan đến giả thuyết Gọi dữ liệu là D
Bước 4, sử dụng phương pháp kiểm định ý nghĩa thống kê của Fisher ước tính xác suất P(D | H0) Gọi trị số này là P
Bước 5, nếu P < 0,05 thì bác bỏ giả thuyết H0
Chú ý, bác bỏ H0 không có nghĩa là chúng ta chấp nhận giả thuyết H1 Tất cả các giá trị P< 0,05 (thấp hơn 5%) được xem là có ý nghĩa thống kê
Hình 1.1 là đồ thị biểu diễn sự phân bố các giá trị riêng rẽ và phân bố dạng boxplot của mỗi phòng thí nghiệm
Trang 346.6 46.4 46.2 46.0 45.8 45.6 45.4 45.2 45.0
Boxplot of %P2O5 by Lab
Hình 1.1.: Sự phân bố các giá trị riêng rẽ và phân bố dạng boxplot của mỗi phòng thí nghiệm
Theo đồ thị Individual value plot và boxplot có thể thấy rằng giá trị trung bình của kết quả thí nghiệm có sự khác nhau khi phòng thí nghiệm thay đổi Đồ thị boxplot cho thấy phòng thí nghiệm số 3 và số 8 có kết quả nằm ngoài xa so với kết quả của các phòng còn lại
Sử dụng các đồ thị Residual có thể rút ra được nhiều kết luận thống kê khác, kiểm tra các giả thiết thống kê:
+ Đồ thị Normal probablity plot để đánh giá sự tuân theo phân phối chuẩn Đồ thị thu được là một đường tương đối thẳng Do vậy, có thể kết luận số liệu thu được tuân theo phân phối chuẩn
+ Đồ thị Histogram of the residuals cho thấy hình dáng phân phối tương đối cân đối hình chuông úp của phân phối chuẩn
+ Đồ thị Residuals versus the fitted values nhận định các biến có sự dao động lớn, giá trị nằm ngoài khoảng chấp nhận được Các giá trị (Residual) phải phân bố ngẫu nhiên quan điểm không
+ Đồ thị Residuals versus order biểu diễn số liệu theo thời gian hoặc thứ tự số liệu, cho biết sự có số liệu mắc sai số hệ thống hay không Số liệu phân bố cần có dạng sát khít nhau
Trang 40.00 -0.25
45.5 45.0
0.4 0.2 0.0 -0.2 -0.4
0.4 0.2 0.0 -0.2 -0.4
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for %P2O5
Hình 1.2 Đồ thị sai số dư của các giá trị thực nghiệm
Trong ví dụ này các đồ thị residual (four-in-one residual plots) cho thấy có sự không đáng tin cậy khi giả thiết các giá trị kết quả của các phòng thí nghiệm là giống nhau
Thí dụ 1.2: Để đánh giá mức độ ảnh hưởng hàm lượng các kim loại nặng đến các loài cá nước ngọt, các tác giả đã phân tích hàm lượng các kim loại nặng như As, Cd, Cu, Hg và Zn và các chất điện ly Ca, K và Na được định lượng trong các loại cá tươi ăn được và không ăn được bằng phương pháp hấp thụ nguyên tử AAS và phân tích phân tích phương sai (ANOVA) Phân tích phương sai được tiến hành với tất cả các số liệu với các mẫu cá ăn được từ cả 2 địa điểm
sử dụng chương trình SAS (version 8.2) và SPSS (version 11.5) Các giá trị trung bình của mỗi thông số được so sánh bằng chuẩn Fisher với độ tin cậy 95% Kết quả phân tích Anova được trình bày ở bảng 2
(nguồn: Environ monit Asess ( 2010) 167: 461-471)
Các kết quả trung bình cho thấy nồng độ các ion kim loại nặng ở vùng A (vùng sông) cao hơn vùng B (trại cá) Tính toán giá trị nồng độ các kim loại và các chất điện ly cho thấy có sự sai khác có nghĩa giữa loại
Trang 5cá ăn được của hai vùng Các số liệu cũng cho thấy rằng thói quen nuôi
và những dinh dưỡng có sẵn gây ảnh hưởng thấp tới chất lượng cá tại các vùng
+ Với As: Các kết quả thống kê chỉ ra rằng nồng độ As cao hơn có nghĩa trong các loại cá không ăn được của khu vực A so với các kim loại khác cùng khu vực
+ Với Hg: Nồng độ Hg cao hơn có nghĩa với cả hai địa điểm và với
cả hai loại cá ăn được và không ăn được so với các kim loại khác
+ Với Zn: Nồng độ Zn cao hơn có nghĩa trong các loại cá ăn được
và không ăn được ở khu vực A so với các kim loại khác
+ Với Cd: Nồng độ Cd cao hơn có nghĩa trong các loại cá không ăn được ở khu vực A so với các kim loại khác
+ Với Pb: Nồng độ Pb ở các loại cá ăn được ở khu vực B cao hơn
so với các loại cá ăn được và không ăn được ở khu vực A
+ Với Cu: Nồng độ Cu cao hơn có nghĩa trong các loại cá không ăn được ở khu vực A so với cá ở khu vực B
Trang 6+ Với Ca: Nồng độ Ca cao hơn có nghĩa ở các loại cá ăn được ở khu vực A so với các chất điện ly khác
+ Với K: Nồng độ K không có nghĩa trong các loại cá ăn được của khu A so với các chất điện ly khác
+ Với Na: Nồng độ Na cao hơn có nghĩa trong các loài cá không ăn được ở khu A và không có nghĩa trong các loại cá ăn được ở khu B so với các chất điện ly khác
Phương pháp này được dùng để đánh giá ảnh hưởng tương hỗ và ảnh hưởng chính của biến độc lập đến các kết quả thí nghiệm MANOVA dùng một hay nhiều
biến phụ thuộc (predictors) như ANOVA nhưng khác với ANOVA nó gồm nhiều hơn
một biến độc lập Nếu như ANOVA kiểm tra sự khác nhau giữa các giá trị trung bình của nhiều biến độc lập tức là sử dụng một phép đo độc lập thì MANOVA kiểm tra sự khác nhau về gía trị (vecto) trung tâm của giá trị trung bình của rất nhiều biến tức là so sánh các mẫu dựa trên hai hay nhiều biến độc lập
Mục đích của ANOVA gồm:
- So sánh các nhóm số liệu được lập ra bởi các biến độc lập với các nhóm khác nhau trong tập hợp chứa các biến độc lập
- Nhận ra các biến độc lập khác nhiều nhất với biến phụ thuộc
Để kiểm tra giả thiết đảo trong MANOVA người ta sử dụng nghiệm đặc trưng
lớn nhất (greatest characteristic root-gcr) Nó sẽ kiểm tra hàm khác biệt đầu tiên của
các biến độc lập với khả năng của nó để nhận ra sự khác nhau giữa các nhóm
Sự khác nhau có ý nghĩa thống kê về giá trị trung bình của hai hay nhiều biến giữa hai nhóm được kiểm tra bằng giá trị Hotelling's T2
Cả ANOVA và MANOVA đều cần giả thiết về các phép đo độc lập gồm:
- Phân phối chuẩn: Biến phụ thuộc phải tuân theo phân phối chuẩn trong nhóm
- Phải kiểm tra và loại bỏ giá trị bất thường trước khi tiến hành MANOVA
- Tính tuyến tính: MANOVA cần giả thiết có quan hệ tuyến tính giữa tất cả các cặp của biến phụ thuộc, các cặp biến ngẫu nhiên và cặp biến phụ thuộc – biến ngẫu nhiên
- Phương sai phải đồng nhất
- Biến ngẫu nhiên (variate): là sự kết hợp tuyến tính của các biến Trong
MANOVA, biến độc lập được tạo vào trong biến ngẫu nhiên trong hàm biệt thức Thuận lợi khi dùng MANOVA:
Nếu bài toán MANOVA được thay bằng ANOVA nhiều lần, mỗi lần sử dụng ANOVA một yếu tố thì sẽ mắc sai lầm loại một trong khi MANOVA kiểm soát được
sự lan truyền sai số này
Trang 7Khi xuất hiện đa cộng tính giữa các biến độc lập thì MANOVA có thể phát hiện
sự khác nhau mà bằng ANOVA 1 yếu tố không phát hiện được
Hạn chế của MANOVA: nếu số thí nghiệm nhỏ thì kết quả bị ảnh hưởng bởi giá trị bất thường
+ Giữa các biến độc lập phải có quan hệ tuyến tính
+ MANOVA không cho ta ảnh hưởng tương hỗ của yếu tố chính và yếu tố lặp lại
1.2.2 Thí dụ áp dụng MANOVA:
Thí dụ 1.2: Một nghiên cứu về nhiễm độc Mn, Cr, Ni và Pb trong tóc của cư dân sống
ở vùng nghi nhiễm độc A so với vùng không bị nhiễm độc B Nghiên cứu được phân theo giới tính (nam/nữ) và độ tuổi ( <15 tuổi từ 16-30 tuổi và trên 30 tuổi) Hàm
lượng các kim loại (g/kg) trong tất cả 24 mẫu tóc thu được ở bảng 1
Bảng 1.2 Kết quả phân tích hàm lượng Mn, Cr, Ni và Pb (g/kg) trong mẫu tóc
STT Mn Cr Ni Pb Địa điểm Giới tính Độ tuổi
Trang 822 5 32 4 25 2 2 2
Trong đó địa điểm A ký hiệu là 1; địa điểm B ký hiệu là 2
Giới tính nam ký hiệu là 1; giới tính nữ ký hiệu là 2
Tuổi dưới 15 ký hiệu là 1; từ 15-30 tuổi ký hiệu là 2 và trên 30 tuổi ký hiệu là 3
Nhập số liệu giống như bảng trên vào phần mềm MINITAB 14
Dùng Stat->ANOVA->Balanced MANOVA
Nhập Respone là hàm lượng của Mn, Cr, Ni, Pb Model là địa điểm, giới tính, độ tuổi
Vào phần results, trong mục display of Results chọn Matrices và egenanalysis Kết quả
thu được như sau:
MANOVA: Mn, Cr, Ni, Pb versus Dia diem, gioi tinh, do tuoi
MANOVA for Dia diem
Trang 9SSCP Matrix for gioi tinh
SSCP Matrix for do tuoi
Trang 10Các giá trị MANOVA theo giới tính và độ tuổi đều có trị số P>0,05 chứng tỏ hai yếu tố này không ảnh hưởng đến hàm lượng các kim loại Trường hợp cần nghiên cứu ảnh hưởng tương hỗ của 3 yếu tố có thể tính MANOVA của 3 yếu tố và xét trị số P như trên
Thí dụ 1.3: Nghiên cứu ảnh hưởng của việc sử dụng phân bón hoá học trong nông nghiệp Người ta tiến hành lấy mẫu và phân tích hàm lượng K(mg/kg), N(mg/kg),
P 2 O 5 (mg/kg), Na (mg/Kg) trong mẫu đất tại 2 địa điểm khác nhau (1,2), hai mùa là mùa khô và mùa mưa (1,2), chăm sóc theo ba phương pháp là chỉ bón phân hoá học
và chỉ bón phân hữu cơ và cách nữa là không dùng phân nào cả (1,2, 3) Mỗi mẫu phân tích được lặp lại 2 lần:
Giải : Nhập số liệu vào phần mềm MINITAB 14 sử dụng phương pháp MANOVA để
xử lý số liệu và thu được kết quả trình bày ở bảng 1.3
Bảng 1.3 Kết quả phân tích hàm lượng N, P, K, Na ( mg/kg) trong mẫu đất
Trang 11STT N(mg/kg) P(mg/kg) K(mg/kg) Na(mg/kg) Địa điểm Mùa Phương
ANOVA: N, P, K, Na versus Dia diem, Mua, Phuong phap
MANOVA for Dia diem
Trang 12Eigenvector 1 2 3 4 N(mg/kg) 0.01052 0.04047 -0.03367 -0.01320 P(mg/kg) -0.03068 -0.01544 0.08947 0.04112 K(mg/kg) 0.07950 -0.03402 0.03663 -0.05038 Na(mg/kg) 0.07032 -0.00003 -0.00126 0.03908
MANOVA for Mua
s = 1 m = 1.0 n = 7.0
Test DF
Criterion Statistic F Num Denom P Wilks' 0.17826 18.439 4 16 0.000 Lawley-Hotelling 4.60972 18.439 4 16 0.000 Pillai's 0.82174 18.439 4 16 0.000 Roy's 4.60972
SSCP Matrix for Mua
N(mg/kg) P(mg/kg) K(mg/kg) Na(mg/kg) N(mg/kg) 2773.5 1408.3 -268.8 290.25 P(mg/kg) 1408.3 715.0 -136.5 147.38 K(mg/kg) -268.8 -136.5 26.0 -28.13 Na(mg/kg) 290.3 147.4 -28.1 30.38
EIGEN Analysis for Mua
Eigenvalue 4.610 0.00000 0.00000 0.00000
Proportion 1.000 0.00000 0.00000 0.00000
Cumulative 1.000 1.00000 1.00000 1.00000
Eigenvector 1 2 3 4 N(mg/kg) 0.02220 0.00719 0.01621 -0.04742 P(mg/kg) 0.02498 -0.00377 -0.02041 0.09910 K(mg/kg) -0.05383 -0.02838 0.08448 0.02275 Na(mg/kg) 0.00637 -0.07674 0.02239 -0.00660
MANOVA for Phuong phap
s = 2 m = 0.5 n = 7.0
Test DF
Criterion Statistic F Num Denom P Wilks' 0.01610 27.529 8 32 0.000 Lawley-Hotelling 17.73722 33.257 8 30 0.000 Pillai's 1.68233 22.507 8 34 0.000 Roy's 14.80653
SSCP Matrix for Phuong phap
N(mg/kg) P(mg/kg) K(mg/kg) Na(mg/kg) N(mg/kg) 2554.3 1530.5 1271.1 258.33 P(mg/kg) 1530.5 1553.3 1158.9 222.50 K(mg/kg) 1271.1 1158.9 880.6 170.83 Na(mg/kg) 258.3 222.5 170.8 33.33
EIGEN Analysis for Phuong phap
Eigenvalue 14.8065 2.9307 0.0000 0.0000
Proportion 0.8348 0.1652 0.0000 0.0000
Cumulative 0.8348 1.0000 1.0000 1.0000