Quy hoạch thực nghiệm

Quy hoạch thực nghiệm là công cụ lý thú và có ích trong việc thu gọn lượng thí nghiệm mà vẫn đưa ra được quy luật, cũng như tối ưu hóa các quá trình thực nghiệm. Đây là bài giảng Lý thuyết chung và bài tập mẫu cho quy hoạch thực nghiệm trong thí nghiệm hóa học của Khoa Hóa Trường ĐHKHTN

Trang 1

Chương 1: QUI HOẠCH THỰC NGHIỆM

Trong thực nghiệm hoá học, các kết quả thực nghiệm phải được xử lý thống kê nhằm mang lại những thông tin có ích cho người sử dụng Để thu được những thông tin có giá trị thì số liệu thu được từ thực nghiệm phải có tính chính xác cao tức là phải được tiến hành theo những qui luật chặt chẽ Cách tiến hành thí nghiệm như thế được

gọi là qui hoạch thực nghiệm (experiment design) Qui hoạch thực nghiệm liên quan

đến việc xây dựng số thí nghiệm cần tiến hành, cách thức tiến hành thí nghiệm, xây dựng mô hình thí nghiệm và từ đó xác định mức độ ảnh hưởng của các biến đến kết quả thí nghiệm cũng như dùng mô hình đó để dự đoán kết quả thí nghiệm

Các phương pháp qui hoạch thực nghiệm gồm:

- Phân tích phương sai (analysis of variance-ANOVA) (một yếu tố, hai yếu tố và

ba yếu tố ảnh hưởng trở lên)

- Phân tích phương sai đa biến (multivariate analysis of variance- MANOVA)

- Phân tích đồng phương sai ANCOVA(covariance analysis).

- Phương pháp thực nghiệm theo nhân tố (factorial design)

- Phương pháp khối ngẫu nhiên (Randomize block)

Trong các phương pháp trên, cơ sở lý thuyết của phương pháp ANOVA đã được

đề cập đến trong giáo trình “Thống kê trong Hoá phân tích” Vì vậy, giáo trình này chỉ

đề cập đến ví dụ ứng dụng ANOVA và các phương pháp còn lại

1.1 ANOVA

Thí dụ 1.1.: Văn phòng công nhận chất lượng các phòng thử nghiệm tiến hành một chương trình thử nghiệm kiểm tra 8 phòng thử nghiệm khác nhau đối với chỉ tiêu hàm lượng tổng P2O5 (%) trong 1 mẫu phân bón nông nghiệp Mỗi phòng thử nghiệm tiến hành phân tích lặp lại 3 lần (Bảng 1.1) Hãy dùng phương pháp ANOVA kiểm tra xem giá trị trung bình của mỗi phòng thử nghiệm có giống nhau không, từ đó kết luận về chất lượng phòng thí nghiệm?

Bảng 1.1 Kết quả phân tích liên phòng thí nghiệm về hàm lượng (%) P 2 O 5 trong mẫu phân bón của 8 phòng thí nghiệm

1 45.51 46.02 45.12 46.18 46.17 45.87 46.21 46.25

2 45.61 45.86 45.31 46.27 46.24 46.11 46.25 46.23

3 46.08 45.27 45.09 46.38 45.89 45.81 45.97 46.52 Hướng dẫn giải

Sử dụng phần mềm Minitab 14, nhập số liệu của bảng 1 dưới dạng cột chưa số

liệu về hàm (response) là %P2O5 theo thứ tự từ trên xuống dưới và từ trái qua phải

trong bảng; các yếu tố (factor) là số thứ tự biểu diễn các phòng thí nghiệm từ 1 đến 8

(theo thứ tự từ trên xuống sẽ là: 1,1,1,2,2,2, 8,8,8) Kết quả tính theo phương pháp ANOVA một yếu tố như sau:

One-way ANOVA: %P2O5 theo PTN

Trang 2

Source DF SS MS F P

PTN 7 3.0416 0.4345 9.11 0.000

Error 16 0.7632 0.0477

Total 23 3.8048

S = 0.2184 R-Sq = 79.94% R-Sq(adj) = 71.17%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev + -+ -+ -+ -

1 3 45.733 0.304 ( -* )

2 3 45.717 0.395 ( * -)

3 3 45.173 0.119 ( * -)

4 3 46.277 0.100 ( -* )

5 3 46.100 0.185 ( * )

6 3 45.930 0.159 ( -* )

7 3 46.143 0.151 ( * )

8 3 46.333 0.162 ( -* )

+ -+ -+ -+ -

45.00 45.50 46.00 46.50

Pooled StDev = 0.218

Giải thích kết quả:

Dùng trị số P (Pvalue) để so sánh giữa các giá trị trung bình của các phòng thí nghiệm, chúng ta nhận thấy kết quả thu được có P=0,000 < 0,05 (mức ý nghĩa ) nên khẳng định được rằng không phải tất cả các kết quả trung bình của các phòng thí nghiệm khác nhau đều giống nhau Nói cách khác, cùng một mẫu thí nghiệm nhưng đã

có kết quả khác nhau giữa các phòng thí nghiệm

Khái niệm trị số P- P value :

Trị số P hay P value là giá trị xác xuất (probability value) chỉ “mức ý nghĩa thống kê thấp nhất mà ở đó giá trị quan sát được của thống kê kiểm định có ý nghĩa” (theo từ điển toán kinh tế thống kê, kinh tế lượng Anh- Việt, NXB KHKT, 2004)

Trong thống kê, hai mô hình của Fisher và Neyman-Pearson được viết gọn thành một mô hình tổng hợp trong đó sử dụng kết quả kiểm định thống kê của Fisher để đi đến quyết định chấp nhận hay bác bỏ giả thuyết đảo H0 hay giả thuyết chính H1 theo

mô hình của Neyman và Pearson Theo đó, một nghiên cứu cần được tiến hành theo các bước như sau:

 Bước 1, định nghĩa một giả thuyết đảo và một giả thuyết chính

 Bước 2, xác định xác suất a (còn gọi là sai số loại I) và b (còn gọi là sai số loại II), và ước tính cỡ mẫu dựa vào hai xác suất này

 Bước 3, thu thập dữ liệu liên quan đến giả thuyết Gọi dữ liệu là D

 Bước 4, sử dụng phương pháp kiểm định ý nghĩa thống kê của Fisher ước tính xác suất P(D | H0) Gọi trị số này là P

 Bước 5, nếu P < 0,05 thì bác bỏ giả thuyết H0

Chú ý, bác bỏ H0 không có nghĩa là chúng ta chấp nhận giả thuyết H1 Tất cả các giá trị P< 0,05 (thấp hơn 5%) được xem là có ý nghĩa thống kê

Hình 1.1 là đồ thị biểu diễn sự phân bố các giá trị riêng rẽ và phân bố dạng boxplot của mỗi phòng thí nghiệm

Trang 3

46.6 46.4 46.2 46.0 45.8 45.6 45.4 45.2 45.0

Boxplot of %P2O5 by Lab

Hình 1.1.: Sự phân bố các giá trị riêng rẽ và phân bố dạng boxplot của mỗi phòng thí nghiệm

Theo đồ thị Individual value plot và boxplot có thể thấy rằng giá trị trung bình của kết quả thí nghiệm có sự khác nhau khi phòng thí nghiệm thay đổi Đồ thị boxplot cho thấy phòng thí nghiệm số 3 và số 8 có kết quả nằm ngoài xa so với kết quả của các phòng còn lại

Sử dụng các đồ thị Residual có thể rút ra được nhiều kết luận thống kê khác, kiểm tra các giả thiết thống kê:

+ Đồ thị Normal probablity plot để đánh giá sự tuân theo phân phối chuẩn Đồ thị thu được là một đường tương đối thẳng Do vậy, có thể kết luận số liệu thu được tuân theo phân phối chuẩn

+ Đồ thị Histogram of the residuals cho thấy hình dáng phân phối tương đối cân đối hình chuông úp của phân phối chuẩn

+ Đồ thị Residuals versus the fitted values nhận định các biến có sự dao động lớn, giá trị nằm ngoài khoảng chấp nhận được Các giá trị (Residual) phải phân bố ngẫu nhiên quan điểm không

+ Đồ thị Residuals versus order biểu diễn số liệu theo thời gian hoặc thứ tự số liệu, cho biết sự có số liệu mắc sai số hệ thống hay không Số liệu phân bố cần có dạng sát khít nhau

Trang 4

0.00 -0.25

45.5 45.0

0.4 0.2 0.0 -0.2 -0.4

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for %P2O5

Hình 1.2 Đồ thị sai số dư của các giá trị thực nghiệm

Trong ví dụ này các đồ thị residual (four-in-one residual plots) cho thấy có sự không đáng tin cậy khi giả thiết các giá trị kết quả của các phòng thí nghiệm là giống nhau

Thí dụ 1.2: Để đánh giá mức độ ảnh hưởng hàm lượng các kim loại nặng đến các loài cá nước ngọt, các tác giả đã phân tích hàm lượng các kim loại nặng như As, Cd, Cu, Hg và Zn và các chất điện ly Ca, K và Na được định lượng trong các loại cá tươi ăn được và không ăn được bằng phương pháp hấp thụ nguyên tử AAS và phân tích phân tích phương sai (ANOVA) Phân tích phương sai được tiến hành với tất cả các số liệu với các mẫu cá ăn được từ cả 2 địa điểm

sử dụng chương trình SAS (version 8.2) và SPSS (version 11.5) Các giá trị trung bình của mỗi thông số được so sánh bằng chuẩn Fisher với độ tin cậy 95% Kết quả phân tích Anova được trình bày ở bảng 2

(nguồn: Environ monit Asess ( 2010) 167: 461-471)

Các kết quả trung bình cho thấy nồng độ các ion kim loại nặng ở vùng A (vùng sông) cao hơn vùng B (trại cá) Tính toán giá trị nồng độ các kim loại và các chất điện ly cho thấy có sự sai khác có nghĩa giữa loại

Trang 5

cá ăn được của hai vùng Các số liệu cũng cho thấy rằng thói quen nuôi

và những dinh dưỡng có sẵn gây ảnh hưởng thấp tới chất lượng cá tại các vùng

+ Với As: Các kết quả thống kê chỉ ra rằng nồng độ As cao hơn có nghĩa trong các loại cá không ăn được của khu vực A so với các kim loại khác cùng khu vực

+ Với Hg: Nồng độ Hg cao hơn có nghĩa với cả hai địa điểm và với

cả hai loại cá ăn được và không ăn được so với các kim loại khác

+ Với Zn: Nồng độ Zn cao hơn có nghĩa trong các loại cá ăn được

và không ăn được ở khu vực A so với các kim loại khác

+ Với Cd: Nồng độ Cd cao hơn có nghĩa trong các loại cá không ăn được ở khu vực A so với các kim loại khác

+ Với Pb: Nồng độ Pb ở các loại cá ăn được ở khu vực B cao hơn

so với các loại cá ăn được và không ăn được ở khu vực A

+ Với Cu: Nồng độ Cu cao hơn có nghĩa trong các loại cá không ăn được ở khu vực A so với cá ở khu vực B

Trang 6

+ Với Ca: Nồng độ Ca cao hơn có nghĩa ở các loại cá ăn được ở khu vực A so với các chất điện ly khác

+ Với K: Nồng độ K không có nghĩa trong các loại cá ăn được của khu A so với các chất điện ly khác

+ Với Na: Nồng độ Na cao hơn có nghĩa trong các loài cá không ăn được ở khu A và không có nghĩa trong các loại cá ăn được ở khu B so với các chất điện ly khác

Phương pháp này được dùng để đánh giá ảnh hưởng tương hỗ và ảnh hưởng chính của biến độc lập đến các kết quả thí nghiệm MANOVA dùng một hay nhiều

biến phụ thuộc (predictors) như ANOVA nhưng khác với ANOVA nó gồm nhiều hơn

một biến độc lập Nếu như ANOVA kiểm tra sự khác nhau giữa các giá trị trung bình của nhiều biến độc lập tức là sử dụng một phép đo độc lập thì MANOVA kiểm tra sự khác nhau về gía trị (vecto) trung tâm của giá trị trung bình của rất nhiều biến tức là so sánh các mẫu dựa trên hai hay nhiều biến độc lập

Mục đích của ANOVA gồm:

- So sánh các nhóm số liệu được lập ra bởi các biến độc lập với các nhóm khác nhau trong tập hợp chứa các biến độc lập

- Nhận ra các biến độc lập khác nhiều nhất với biến phụ thuộc

Để kiểm tra giả thiết đảo trong MANOVA người ta sử dụng nghiệm đặc trưng

lớn nhất (greatest characteristic root-gcr) Nó sẽ kiểm tra hàm khác biệt đầu tiên của

các biến độc lập với khả năng của nó để nhận ra sự khác nhau giữa các nhóm

Sự khác nhau có ý nghĩa thống kê về giá trị trung bình của hai hay nhiều biến giữa hai nhóm được kiểm tra bằng giá trị Hotelling's T2

Cả ANOVA và MANOVA đều cần giả thiết về các phép đo độc lập gồm:

- Phân phối chuẩn: Biến phụ thuộc phải tuân theo phân phối chuẩn trong nhóm

- Phải kiểm tra và loại bỏ giá trị bất thường trước khi tiến hành MANOVA

- Tính tuyến tính: MANOVA cần giả thiết có quan hệ tuyến tính giữa tất cả các cặp của biến phụ thuộc, các cặp biến ngẫu nhiên và cặp biến phụ thuộc – biến ngẫu nhiên

- Phương sai phải đồng nhất

- Biến ngẫu nhiên (variate): là sự kết hợp tuyến tính của các biến Trong

MANOVA, biến độc lập được tạo vào trong biến ngẫu nhiên trong hàm biệt thức Thuận lợi khi dùng MANOVA:

Nếu bài toán MANOVA được thay bằng ANOVA nhiều lần, mỗi lần sử dụng ANOVA một yếu tố thì sẽ mắc sai lầm loại một trong khi MANOVA kiểm soát được

sự lan truyền sai số này

Trang 7

Khi xuất hiện đa cộng tính giữa các biến độc lập thì MANOVA có thể phát hiện

sự khác nhau mà bằng ANOVA 1 yếu tố không phát hiện được

Hạn chế của MANOVA: nếu số thí nghiệm nhỏ thì kết quả bị ảnh hưởng bởi giá trị bất thường

+ Giữa các biến độc lập phải có quan hệ tuyến tính

+ MANOVA không cho ta ảnh hưởng tương hỗ của yếu tố chính và yếu tố lặp lại

1.2.2 Thí dụ áp dụng MANOVA:

Thí dụ 1.2: Một nghiên cứu về nhiễm độc Mn, Cr, Ni và Pb trong tóc của cư dân sống

ở vùng nghi nhiễm độc A so với vùng không bị nhiễm độc B Nghiên cứu được phân theo giới tính (nam/nữ) và độ tuổi ( <15 tuổi từ 16-30 tuổi và trên 30 tuổi) Hàm

lượng các kim loại (g/kg) trong tất cả 24 mẫu tóc thu được ở bảng 1

Bảng 1.2 Kết quả phân tích hàm lượng Mn, Cr, Ni và Pb (g/kg) trong mẫu tóc

STT Mn Cr Ni Pb Địa điểm Giới tính Độ tuổi

Trang 8

22 5 32 4 25 2 2 2

Trong đó địa điểm A ký hiệu là 1; địa điểm B ký hiệu là 2

Giới tính nam ký hiệu là 1; giới tính nữ ký hiệu là 2

Tuổi dưới 15 ký hiệu là 1; từ 15-30 tuổi ký hiệu là 2 và trên 30 tuổi ký hiệu là 3

Nhập số liệu giống như bảng trên vào phần mềm MINITAB 14

Dùng Stat->ANOVA->Balanced MANOVA

Nhập Respone là hàm lượng của Mn, Cr, Ni, Pb Model là địa điểm, giới tính, độ tuổi

Vào phần results, trong mục display of Results chọn Matrices và egenanalysis Kết quả

thu được như sau:

MANOVA: Mn, Cr, Ni, Pb versus Dia diem, gioi tinh, do tuoi

MANOVA for Dia diem

Trang 9

SSCP Matrix for gioi tinh

SSCP Matrix for do tuoi

Trang 10

Các giá trị MANOVA theo giới tính và độ tuổi đều có trị số P>0,05 chứng tỏ hai yếu tố này không ảnh hưởng đến hàm lượng các kim loại Trường hợp cần nghiên cứu ảnh hưởng tương hỗ của 3 yếu tố có thể tính MANOVA của 3 yếu tố và xét trị số P như trên

Thí dụ 1.3: Nghiên cứu ảnh hưởng của việc sử dụng phân bón hoá học trong nông nghiệp Người ta tiến hành lấy mẫu và phân tích hàm lượng K(mg/kg), N(mg/kg),

P 2 O 5 (mg/kg), Na (mg/Kg) trong mẫu đất tại 2 địa điểm khác nhau (1,2), hai mùa là mùa khô và mùa mưa (1,2), chăm sóc theo ba phương pháp là chỉ bón phân hoá học

và chỉ bón phân hữu cơ và cách nữa là không dùng phân nào cả (1,2, 3) Mỗi mẫu phân tích được lặp lại 2 lần:

Giải : Nhập số liệu vào phần mềm MINITAB 14 sử dụng phương pháp MANOVA để

xử lý số liệu và thu được kết quả trình bày ở bảng 1.3

Bảng 1.3 Kết quả phân tích hàm lượng N, P, K, Na ( mg/kg) trong mẫu đất

Trang 11

STT N(mg/kg) P(mg/kg) K(mg/kg) Na(mg/kg) Địa điểm Mùa Phương

ANOVA: N, P, K, Na versus Dia diem, Mua, Phuong phap

MANOVA for Dia diem

Trang 12

Eigenvector 1 2 3 4 N(mg/kg) 0.01052 0.04047 -0.03367 -0.01320 P(mg/kg) -0.03068 -0.01544 0.08947 0.04112 K(mg/kg) 0.07950 -0.03402 0.03663 -0.05038 Na(mg/kg) 0.07032 -0.00003 -0.00126 0.03908

MANOVA for Mua

s = 1 m = 1.0 n = 7.0

Test DF

Criterion Statistic F Num Denom P Wilks' 0.17826 18.439 4 16 0.000 Lawley-Hotelling 4.60972 18.439 4 16 0.000 Pillai's 0.82174 18.439 4 16 0.000 Roy's 4.60972

SSCP Matrix for Mua

N(mg/kg) P(mg/kg) K(mg/kg) Na(mg/kg) N(mg/kg) 2773.5 1408.3 -268.8 290.25 P(mg/kg) 1408.3 715.0 -136.5 147.38 K(mg/kg) -268.8 -136.5 26.0 -28.13 Na(mg/kg) 290.3 147.4 -28.1 30.38

EIGEN Analysis for Mua

Eigenvalue 4.610 0.00000 0.00000 0.00000

Proportion 1.000 0.00000 0.00000 0.00000

Cumulative 1.000 1.00000 1.00000 1.00000

Eigenvector 1 2 3 4 N(mg/kg) 0.02220 0.00719 0.01621 -0.04742 P(mg/kg) 0.02498 -0.00377 -0.02041 0.09910 K(mg/kg) -0.05383 -0.02838 0.08448 0.02275 Na(mg/kg) 0.00637 -0.07674 0.02239 -0.00660

MANOVA for Phuong phap

s = 2 m = 0.5 n = 7.0

Test DF

Criterion Statistic F Num Denom P Wilks' 0.01610 27.529 8 32 0.000 Lawley-Hotelling 17.73722 33.257 8 30 0.000 Pillai's 1.68233 22.507 8 34 0.000 Roy's 14.80653

SSCP Matrix for Phuong phap

N(mg/kg) P(mg/kg) K(mg/kg) Na(mg/kg) N(mg/kg) 2554.3 1530.5 1271.1 258.33 P(mg/kg) 1530.5 1553.3 1158.9 222.50 K(mg/kg) 1271.1 1158.9 880.6 170.83 Na(mg/kg) 258.3 222.5 170.8 33.33

EIGEN Analysis for Phuong phap

Eigenvalue 14.8065 2.9307 0.0000 0.0000

Proportion 0.8348 0.1652 0.0000 0.0000

Cumulative 0.8348 1.0000 1.0000 1.0000

Định dạng
Số trang	24
Dung lượng	520,45 KB