Giả sử trong dung dịch cần phân tích có k cấu tử (X1, X2… Xk), tín hiệu phân tích của hỗn hợp là y thì phương trình hồi quy đa biến mô tả quan hệ giữa y và các biến Xi (i= 1,2,…k) có dạng:
y = a + b1X1 + b2X2 + … + bkXk
Với a là tín hiệu nền gây ra sai số khi phân tích
Về mặt lý thuyết, để tìm nồng độ của k cấu tử cần có ít nhất k phương trình hồi quy. Vì vậy, thực tế sẽ cần phải tiến hành m thí nghiệm (m × k) với m dung dịch chuẩn hỗn hợp thì sẽ lập được m phương trình hồi quy đa biến. Dạng tổng quát của hệ phương trình này như sau:
Trong đó:
- b: là các vectơ chứa các hệ số của phương trình hồi quy - y: là vectơ cột chứa m giá trị y1, y2,…ym
- X: là ma trận có m hàng (ứng với m thí nghiệm) và k cột (ứng với k cấu tử)
Nếu tín hiệu đo ứng với mỗi thí nghiệm có nhiều hơn một giá trị (ví dụ đo độ hấp thụ quang một dung dịch chuẩn hỗn hợp tại p bước sóng thay vì một bước sóng) thì số liệu của y sẽ là ma trận có m hàng và p cột (𝑦𝑚×𝑝) như sau:
= mp m m p p x x x x x x x x y y ... ... .. ... ... ... ... 2 1 2 22 21 1 12 11
Để giải bài toán theo phương pháp hồi quy đa biến tuyến tính thì tín hiệu phân tích của những cấu tử trong hỗn hợp phải thỏa mãn tính chất cộng tính.
Các phương trình hồi quy tuyến tính thu được sẽ cho biết:
- Những biến (cấu tử) nào có ảnh hưởng lớn (nếu giá trị tuyệt đối của hệ số hồi quy lớn) đến kết quả thí nghiệm (tín hiệu đo).
- Biết được chiều hướng các ảnh hưởng khi thay đổi nồng độ của cấu tử cần phân tích đến tín hiệu phân tích (hệ số hồi quy mang dấu dương sẽ ảnh hưởng cùng chiều đến kết quả thí nghiệm và ngược lại).
- Tìm được nồng độ các cấu tử trong dung dịch cần định phân khi có tín hiệu phân tích y của mẫu chưa biết.
Một số thuật toán hồi quy đa biến tuyến tính phổ biến như: phương pháp bình phương tối thiểu thông thường (CLS), phương pháp bình phương tối thiểu nghịch đảo (ILS), phương pháp bình phương tối thiểu riêng phần (PLS), phương pháp hồi quy cấu tử chính (PCR)…
4.3.Phương pháp bình phương tối thiểu thông thường (classical least square - CLS) [13], [18]
Phương pháp này còn gọi là ma trận K (K – matrix)
Từ dạng tổng quát y = KX + e (1)
K là vectơ hệ số của phương trình hồi quy. K là ma trận (k×1) nếu y là vectơ cột biểu diễn tín hiệu đo của một dung dịch chuẩn với y là vectơ (m×1), X là ma trận (m×k) và e là vectơ số dư (m×1). K là ma trận (k×p) nếu y là số liệu dạng ma trận (m×p) biểu diễn tín hiệu của dung dịch chuẩn được đo tại nhiều thời điểm (ví dụ đo độ hấp thụ quang tại p bước sóng).
Nếu có giá trị nhập vào là biến độc lập X và biến phụ thuộc y sẽ tính được giá trị hệ số b. Theo phương pháp bình phương tối thiểu, ma trận hệ số K sẽ được tính như sau:
K = (XTX)-1 XTy (2)
với XT
là ma trận chuyển vị của X (transpose to matrix).
Khi đã có giá trị hệ số phương trình hồi quy, với mẫu chưa biết cần tìm giá trị X0 từ giá trị y0 ta sẽ có:
X0 = y0 KT (KKT)-1 (3)
Phương trình (1) cho thấy có thể xem CLS như là phân tích nhân tố vì ma trận tín hiệu y là tích của hai ma trận nhỏ X và K.
4.3.1.Ưu điểm
Tín hiệu phân tích y là một ma trận phổ toàn phần, do vậy phương pháp CLS đạt được độ chính xác cao so với các phương pháp chỉ sử dụng một số bước sóng và cho phép tính toán đúng với tất cả các phổ trong hỗn hợp.
4.3.2.Nhược điểm
Phương pháp CLS đòi hỏi những cấu tử trong hỗn hợp phải cho tín hiệu có tính chất cộng tính. Vì vậy, cần phải biết tất cả các phổ của những chất gây ảnh hưởng đến vùng phổ được đo vì chúng đều đóng góp vào đường chuẩn. Điều này có thể được loại
trừ đáng kể bằng cách phân tích dải phổ tại một thời điểm sau khi gộp kết quả vào phép phân tích thống kê. Nó cho phép loại bỏ dải phổ không tuân theo đinh luật Lambert – Beer hoặc phổ có chứa tín hiệu của ion cản. Do đó, cần thiết phải xác định xem trong hỗn hợp có những chất nào đóng góp vào tín hiệu phổ để định lượng chính xác theo phương pháp CLS.
4.4.Phương pháp bình phương tối thiểu riêng phần (partial least square – PLS) [13], [18]
Phương pháp bình phương tối thiểu riêng phần (PLS) là phương pháp đa biến dùng để mô hình hóa mối quan hệ giữa biến độc lập X và biến phụ thuộc Y, từ đó có thể đoán được thông tin trong Y khi đã biết các thông tin của X và ngược lại. Mục đích của PLS là giảm số biến và tạo ra các phần tử không liên quan, sau đó biểu diễn phương trình bình phương tối thiểu với những phần tử này.
Thuật toán PLS được giải bằng cách tối ưu hóa giá trị đồng phương sai (covariance) giữa ma trận X và Y. Hai ma trận X và Y được phân tích thành hai ma trận trị số (score matrices) T và U, và ma trận trọng số (loading matrices) P và Q. Có hai dạng khác nhau của trọng số trong PLS, trọng số bình phương tối thiểu riêng phần w là một trong số hai dạng đó và được tính theo công thức :
w = (Y’*X)*inv(X’*X)
t = Y*w
Mỗi ma trận X và Y sẽ được chuyển thành hai ma trận nhỏ P = (Y’*t)*inv(t’*t)
Q = (X’*t)*inv(t’*t)
Từ phương trình hồi quy tuyến tính tổng quát dạng x= a+by, hệ số hồi quy b và a được tính theo công thức :
b = w*inv(P’*w)*Q
a = mean(X) – mean(Y)*b
Với mẫu chưa biết nồng độ, từ ma trận tín hiệu đo y0 của mẫu sẽ xác định được nồng độ của các chất dựa vào hệ số hồi quy b đã tính:
X0 = a + y0*b
4.4.1.Ưu điểm của phương pháp PLS
- Phương pháp PLS khác với các phương pháp hồi quy khác ở chỗ nó thích hợp cho những tập số liệu có số thí nghiệm ít hơn số biến và sự tương quan giữa các biến độc lập và có tính chất cộng tính cao.
- Giảm số biến và tạo ra các cấu tử không liên quan sau đó biểu diễn phương trình bình phương tối thiểu với những cấu tử này.
- Phương pháp PLS cho kết quả có độ chính xác cao và tiện lợi, từ nội dung của thuật toán ta có thể lập trình theo nhiều ngôn ngữ khác nhau như ngôn ngữ Pascal, ngôn ngữ C+, C++…
- So với phương pháp lọc Kalman thì phương pháp PLS có điểm trội hơn là ở khả năng tính toán được nhiều cấu tử. Ưu thế của phương pháp PLS so với phương pháp mạng nơron là thời gian tính toán ít và khả năng hội tụ nhanh.
4.4.2.Nhược điểm của phương pháp PLS
Phương pháp PLS đòi hỏi khá phức tạp về mặt toán học trong khi đó lại không đơn giản được nhiều số biến phân tích như phương pháp hồi quy cấu tử chính (PCR).