Cơ sở lý thuyết của cỏc phương phỏp hồi quy đa biến

Một phần của tài liệu Xác định đồng thời Ni,Co,Pd trong bản mạch điện tử bằng phương pháp trắc quang với thuốc thử PAN sử dụng thuật toán hồi quy đa biến (Trang 37 - 46)

Chemometrics được định nghĩa là việc ứng dụng cỏc phương phỏp toỏn học, thống kờ, đồ hoạ,… để qui hoạch thực nghiệm, tối ưu hoỏ cỏc thụng tin hoỏ học trớch ra từ tập số liệu phõn tớch và đưa ra tối đa những thụng tin hữu ớch từ tập số liệu ban đầu.

Ra đời từ những năm đầu của thập kỉ 70, cho tới nay Chemometrics đó xỏc lập được một vị trớ quan trọng cho mỡnh trong ngành hoỏ học, đặc biệt là trong hoỏ học phõn tớch hiện đại. Một mảng lớn trong Chemometrics phỏt triển nhanh gắn liền với toỏn học và tin học là hồi qui đa biến – kỹ thuật đa biến được dựng rộng rói trong phũng thớ nghiệm hoỏ học giỳp giải quyết cỏc bài toỏn xỏc định đồng thời nhiều cấu tử cựng cú mặt trong hỗn hợp mà khụng cần tỏch loại trước. Về nguyờn tắc, chỉ cần xõy dựng dóy dung dịch chuẩn cú mặt tất cả cỏc cấu tử cần xỏc định với nồng độ biết trước trong hỗn hợp (cỏc biến độc lập x), đo tớn hiệu phõn tớch của cỏc dung dịch này dưới dạng một hay nhiều biến phụ thuộc y và thiết lập mụ hỡnh toỏn học mụ tả quan hệ giữa hàm y (tớn hiệu đo) và cỏc biến độc lập x (nồng độ cỏc chất trong hỗn hợp). Dựa trờn mụ hỡnh này cú thể tỡm được nồng độ của cỏc cấu tử trong cựng dung dịch định phõn khi cú tớn hiệu phõn tớch của dung dịch đú.

Nếu cỏc cấu tử cú mặt trong hỗn hợp cho tớn hiệu đo cú tớnh chất cộng tớnh thỡ

cú thể sử dụng phương phỏp hồi qui đa biến tuyến tớnh thụng thường (multiple linear

regression- MLR) như phương phỏp bỡnh phương tối thiểu thụng thường hoặc hiệu quả hơn như bỡnh phương tối thiểu từng phần, phương phỏp hồi qui cấu tử chớnh, …. Nhưng nếu trong hỗn hợp, cỏc cấu tử cú sự tương tỏc lẫn nhau làm mất tớnh chất cộng tớnh ở tớn hiệu đo thỡ phải sử dụng mụ hỡnh hồi qui đa biến phi tuyến tớnh mà phổ biến

là cỏc phương phỏp kết hợp với mạng nơron nhõn tạo.[4], [16]

Tựy thuộc vào đặc điểm của hàm phụ thuộc, cú thể chia cỏc phương phỏp hồi qui đa biến tuyến tớnh thành 2 nhúm chớnh: cỏc phương phỏp hồi qui đa biến tuyến tớnh sử dụng phổ toàn phần như phương phỏp CLS, PLS, ... và phương phỏp sử dụng dữ liệu phổ riờng phần như ILS. Trong luận văn này chỳng tụi tiến hành nghiờn cứu phương phỏp hồi quy đa biến tuyến tớnh xỏc định đồng thời 3 nguyờn tố kim loại Ni, Co và Pd trong cỏc bản mạch điện tử, sử dụng thuốc thử PAN.

Giả sử hỗn hợp cần phõn tớch cú k cấu tử (X1, X2…Xk), tớn hiệu phõn tớch của

hỗn hợp là y thỡ phương trỡnh hồi qui đa biến mụ tả quan hệ giữa y và cỏc biến Xi

(i=1,2,…k) cú dạng :

y= a+ b1X1 + b2X2 +…+ bkXk

Về mặt lý thuyết để tỡm nồng độ của k cấu tử cần cú ớt nhất k phương trỡnh hồi qui. Vỡ vậy thực tế sẽ cần tiến hành m thớ nghiệm (m x k) với m dung dịch chuẩn hỗn hợp thỡ sẽ lập được m phương trỡnh hồi qui đa biến. Dạng tổng quỏt của hệ phương trỡnh này như sau :

y= a+Xb

Trong đú b là vecto chứa cỏc hệ số của phương trỡnh hồi qui.

y là vecto cột chứa m giỏ trị y1…ym cũn X là ma trận cú m hàng (ứng với m

quan sỏt) và k cột (ứng với k biến) =mkmmkkxxxxxxxxxX. ... ... .. ... ... ..212222111211

Nếu tớn hiệu đo ứng với mỗi thớ nghiệm cú nhiều hơn một giỏ trị (vớ dụ đo độ hấp thụ quang một dung dịch chuẩn hỗn hợp tại p bước súng thay vỡ một bước súng)

thỡ số liệu của Y sẽ là ma trận cú m hàng và p cột ( ymxp) như sau:

              = mp m m p p y y y y y y y y y y ... ... ... ... ... ... ... 2 1 2 22 21 1 12 11

Cỏc phương trỡnh hồi qui tuyến tớnh thu được sẽ cho biết:

- Những biến (cấu tử) nào cú ảnh hưởng lớn (nếu giỏ trị tuyệt đối của hệ số hồi qui lớn) đến kết quả thớ nghiệm (tớn hiệu đo).

- Biết được chiều hướng cỏc ảnh hưởng (hệ số hồi qui mang dấu dương sẽ cú ảnh hưởng cựng chiều đến kết quả thớ nghiệm và ngược lại).

- Tỡm được nồng độ cỏc cấu tử trong dung dịch cần định phõn khi cú tớn hiệu phõn tớch y.

1.4.1. Phương phỏp bỡnh phương tối thiểu thụng thường (classical least square- CLS)

- Từ dạng tổng quỏt y = XK +e (1)

K là vecto hệ số của phương trỡnh hồi qui. K là ma trận (kx1) nếu y là vộc tơ cột biểu diễn tớn hiệu đo của một dung dịch chuẩn với y là vecto (mx1), X là ma trận

Khoa Hoá học- Tr ờng ĐHKHTN Luận văn Thạc sĩ

(mxk), và e là vecto số dư (mx1). K là ma trận (kxp) nếu y là số liệu dạng ma trận (mxp) biểu diễn tớn hiệu của dung dịch chuẩn được đo tại nhiều thời điểm (vớ dụ đo độ hấp thụ quang tại p bước súng).

- Nếu cú giỏ trị nhập vào là biến độc lập X và biến phụ thuộc y sẽ tớnh được giỏ trị hệ số b. Theo phương phỏp bỡnh phương tối thiểu, ma trận hệ số K sẽ được tớnh như sau:

K= (XTX)-1 XTy (2)

với XT là ma trận chuyển vị của X (transpose to matrix). (adsbygoogle = window.adsbygoogle || []).push({});

- Khi đó cú giỏ trị hệ số phương trỡnh hồi quy, với mẫu chưa biết cần tỡm giỏ trị

X0 từ giỏ trị y0 ta sẽ cú:

X0 = y0 KT (KKT)-1 (3)

Phương trỡnh (1) cho thấy cú thể xem CLS như là phõn tớch nhõn tố vỡ ma trận tớn hiệu y là tớch của hai ma trận nhỏ X và K.

Ưu điểm : Tớn hiệu phõn tớch y là một ma trận phổ toàn phần, do vậy phương phỏp CLS đạt được độ chớnh xỏc cao so với cỏc phương phỏp chỉ sử dụng một số bước súng và cho phộp tớnh toỏn đỳng với tất cả cỏc phổ trong hỗn hợp.

Nhược điểm: Phương phỏp CLS đũi hỏi những cấu tử trong hỗn hợp phải cho

tớn hiệu cú tớnh chất cộng tớnh. Vỡ vậy cần phải biết tất cả cỏc phổ của những chất gõy ảnh hưởng đến vựng phổ được đo vỡ chỳng đều đúng gúp vào đường chuẩn. Điều này cú thể được loại trừ đỏng kể bằng cỏch phõn tớch dải phổ tại một thời điểm sau khi gộp kết quả vào phộp phõn tớch thống kờ. Nú cho phộp loại bỏ dải phổ khụng tuõn

theo định luật Lambe-Bia hoặc những phổ cú chứa tớn hiệu của ion cản. [4], [16]

1.4.2. Phương phỏp bỡnh phương tối thiểu nghịch đảo (inverse least squares - ILS)

Phương phỏp bỡnh phương tối thiểu nghịch đảo (ILS) hay cũn gọi là phuơng phỏp ma trận P được xõy dựng trờn giả thiết rằng nồng độ của tớn hiệu phõn tớch là hàm của tớn hiệu đo [7, 29, 31]:

C = P . A

Trong phương phỏp hồi qui đa biến, phương trỡnh trờn cú thể khai triển thành:

C1 = P11A1 + P12A2 + … + P1mAm

C2 = P21A1 + P22A2 + … + P2mAm

Trong đú:

Am : Giỏ trị tớn hiệu đo ở thời điểm m

Pxm : Giỏ trị hệ số hồi qui của cấu tử thứ x tại thời điểm m.

Cx : Nồng độ cấu tử thứ x.

Cỏc bước tớnh toỏn trong mụ hỡnh ILS bao gồm * Xõy dựng cỏc ma trận dữ liệu chuẩn:

Để xõy dựng đường chuẩn sử dụng kĩ thuật ILS ta cần xỏc định ma trận hệ số hồi qui P từ mẫu chuẩn cú ma trận nồng độ C và ma trận tớn hiệu đo A. P là ma trận chứa hệ số hồi qui của phương trỡnh, trong đú mỗi hàng chứa hệ số hồi qui của một cấu tử, vỡ vậy số hàng của P là số cấu tử, số cột là số thời điểm đo.

Do trong tập số liệu C và A đều cú chứa sai số ngẫu nhiờn nờn để P mụ tả chớnh xỏc quan hệ giữa C và A ta cần xỏc định P bằng phương phỏp bỡnh phương tối thiểu (tổng bỡnh phương của sai số giữa giỏ trị tớnh theo mụ hỡnh và giỏ trị thực nghiệm là nhỏ nhất). * Xỏc định cụng thức tớnh P: C = A . P AT . C= AT . A . P [AT . A]-1 . AT . C = [AT . A]-1 . [AT . A] . P [AT . A]-1 . AT . C = P

Để ma trận nghịch đảo của [AT . A] - nghịch đảo giả của A - tồn tại, A cần cú

số hàng tối thiểu bằng số cột. Mỗi hàng trong A là tớn hiệu của một mẫu, mỗi cột là tớn hiệu của cỏc mẫu ở một thời điểm nhất định. Vỡ vậy, trong phương phỏp ILS số mẫu khụng được ớt hơn số thời điểm đo. Do yờu cầu về số mẫu tối thiểu như trờn nờn để tiến hành sử dụng phương phỏp này, ta cần lựa chọn số thời điểm đo tối thiểu đặc trưng nhất trờn toàn dải phổ, vỡ vậy, phương phỏp ILS cũn được gọi là phương phỏp phổ riờng phần. Cỏc điểm đo đặc trưng này thường là những điểm thỏa món cỏc yờu cầu sau:

- Giỏ trị tớn hiệu đo tại cỏc thời điểm này lớn so với cỏc điểm đo khỏc để tăng độ nhạy.

- Tớn hiệu của cỏc cấu tử khỏc nhau tại mỗi điểm đo được lựa chọn phải biến đổi khỏc nhau tức là cú sự khỏc biệt lớn về tớn hiệu đo tại mỗi điểm của cỏc cấu tử.

- Tại cỏc điểm này, tớn hiệu của cỏc ion cản trở phộp đo là nhỏ nhất. * Dự đoỏn thụng tin của mẫu chưa biết:

Với mẫu chưa biết nồng độ, từ ma trận tớn hiệu đo Aunk của mẫu sẽ xỏc định

được nồng độ cỏc chất dựa vào ma trận P đó tớnh:

Cunk = Aunk . P (adsbygoogle = window.adsbygoogle || []).push({});

* Ưu điểm của phương phỏp ILS:

- Thớch hợp với tập số liệu nhỏ, ớt thụng tin.

- Loại trừ được sai số nhiễu phổ và giảm thiểu được ảnh hưởng của cỏc cấu tử lạ do đó lựa chọn cỏc thời điểm đo đặc trưng.

- Khi tớn hiệu đo là cỏc giỏ trị nhỏ hơn giỏ trị qui ước của nồng độ thỡ giỏ trị cỏc hệ số trong ma trận P sẽ lớn hơn hệ số hồi qui của phương phỏp CLS, điều này sẽ làm giảm sai số trong quỏ trỡnh tớnh toỏn.

* Nhược điểm của phương phỏp ILS:

- Cần lựa chọn tối thiểu cỏc thời điểm đo đặc trưng cho cỏc cấu tử. Lựa chọn sai lệch sẽ dẫn đến sai số lớn trong quỏ trỡnh tớnh toỏn.

- Phải đảm bảo cú tớnh cộng tớnh cao của cỏc cấu tử ở cỏc thời điểm đo được

lựa chọn. [4], [16]

1.4.3. Phương phỏp bỡnh phương tối thiểu từng phần (partial least square-PLS )

PLS là phương phỏp đa biến dựng để mụ hỡnh hoỏ mối quan hệ giữa biến độc lập X và biến phụ thuộc Y, từ đú cú thể đoỏn được thụng tin trong Y khi đó biết cỏc thụng tin của X và ngược lại. PLS sẽ tối ưu hoỏ giỏ trị đồng phương sai (covariance) giữa ma trận X và Y. Hai ma trận X và Y được phõn tớch thành một ma trận số (score matrices) T chung và ma trận nạp (loading matrices) P và Q.

Hay X= T x P + E Y= T x Q + F

Tớnh chất quan trọng của PLS là chỳng ta cú thể nhận được một ma trận T

chung cho cả 2 phương trỡnh [4], [16]

1.4.4. Phương phỏp hồi qui cẩu tử chớnh ( principal component regression -PCR)

PCR - phương phỏp hồi quy cấu tử chớnh, gồm 2 quỏ trỡnh: Phõn tớch cấu tử chớnh chuyển sang tập dữ liệu mới, chứa một số ớt cỏc yếu tố quan trọng, cần thiết. Sau đú sử dụng phương phỏp bỡnh phương tối thiểu nghịch đảo để phõn tớch tập dữ liệu mới này.

Trước tiờn, chiếu tập số liệu tớn hiệu phõn tớch đú lờn khụng gian cú ớt chiều hơn theo PCA mà khụng làm mất đi cỏc thụng tin quan trọng và tiến hành phõn tớch hồi qui đa biến trờn khụng gian mới này. Nú giả thiết rằng mỗi thành phần trong tập số liệu cú thể được gỏn một giỏ trị định lượng đầu tiờn cần tạo mụ hỡnh PCA cho tập số liệu và sử dụng giỏ trị riờng của cỏc biến ảo (score) để xõy dựng phương trỡnh hồi qui đa biến tuyến tớnh trong đú giỏ trị y là giỏ trị hàm mục tiờu .

Cũng cần lưu ý rằng, do phương phỏp này phỏt triển trờn cơ sở của phương phỏp ILS nờn để sử dụng được cỏc phương phỏp này trong phõn tớch trắc quang chỳng ta cần số mẫu chuẩn tối thiểu phải bằng số thời điểm sử dụng trong đường chuẩn mó húa, tức là số mẫu chuẩn khụng nhỏ hơn số PC lựa chọn. Lấy một vớ dụ cụ thể, khi đo phổ của 15 dung dịch chuẩn tại 100 bước súng, để sử dụng phương phỏp ILS, chỳng ta cần phải giảm kớch thước phổ xuống số bước súng khụng quỏ 15. Cỏch đơn giản nhất là chọn ớt hơn 15 bước súng để đo độ hấp thụ nhưng sai số sẽ lớn nếu khụng chọn được cỏc bước súng đặc trưng cho phổ cỏc chất. Với mụ hỡnh PCR ta cú thể sử dụng toàn phổ để tớnh cỏc PC, sau đú chọn số PC nhỏ hơn 15 để tớnh toỏn tiếp. Thụng thường, với một tập số liệu cú mức độ tập trung tốt thỡ chỉ cú một số ớt cỏc PC đầu tiờn là cú nghĩa (cú tổng phương sai tớch lũy đủ lớn để coi rằng chỳng đó chứa toàn bộ thụng tin hữu ớch đặc trưng của tập số liệu). Như vậy, sử dụng mụ hỡnh PCR cú thể giảm được kớch thước tập số liệu mà khụng làm mất thụng tin đồng thời cú thể loại được tớn hiệu nhiễu của dữ liệu gốc.

* Cỏc bước chớnh của PCR bao gồm: 1. Xử lý ban đầu (khụng bắt buộc)

Nội dung chớnh của bước này là chuẩn húa tập số liệu.

2. Cỏc xử lý cần thiết:

Với một tập số liệu đó chuẩn húa hoặc chưa chuẩn húa, trước khi sử dụng đều cần bước bỡnh phương toàn tập dữ liệu - đõy là yờu cầu bắt buộc đối với hầu hết cỏc hàm tớnh vectơ riờng.

D = AT . A

Trong đú A là ma trận số liệu biểu diễn độ hấp thụ quang theo cỏc thời điểm đo của

cỏc dung dịch chuẩn và AT là ma trận chuyển vị của ma trận A.

Cú thể tớnh toỏn cỏc vectơ riờng của tập số liệu bằng nhiều hàm toỏn học khỏc nhau. Cú 3 hàm chớnh, thường sử dụng là hàm NIPALS (hàm phi tuyến lặp sử dụng kĩ thuật bỡnh phương tối thiểu riờng phần), hàm SVD (hàm phõn tỏch cỏc giỏ trị riờng) và hàm Princomp (hàm tớnh cỏc cấu tử chớnh). Cần lưu ý rằng, tất cả cỏc hàm này đều tớnh toỏn và đưa ra tất cả cỏc cấu tử nhưng thường khụng sử dụng tất cả mà chỉ sử dụng N cấu tử đầu đủ để xỏc định khụng gian mới :

NIPALS là hàm lặp thường sử dụng cho cỏc tập số liệu kớch thước lớn hoặc cú độ đa cộng tuyến cao. Với tập số liệu cú kớch thước nhỏ, quỏ trỡnh tớnh lặp trong hàm NIPALS sẽ làm khuếch đại sai số của tập số liệu nờn thụng thường người ta khụng sử dụng hàm này để tớnh cỏc PC.

SVD là hàm tớnh PC sử dụng phương phỏp tỏch tập số liệu ban đầu thành cỏc nhõn tố. Cỏc vectơ riờng và trị riờng của ma trận dữ liệu đều là những tập con riờng của cỏc nhõn tố trong SVD. Hàm SVD sử dụng hỡnh thức chộo húa cho phộp khống chế thang đo một cỏch hợp lớ nờn giảm thiểu được sai số do làm trũn. Vỡ vậy hàm này sử dụng được với cỏc kiểu tập số liệu rộng rói hơn hàm NIPALS.

Princomp là hàm tớnh toỏn trực tiếp cỏc cấu tử chớnh (PC) cú vai trũ tương đương cỏc vectơ riờng. Tuy nhiờn, so với hàm SVD thỡ việc sử dụng hàm Princomp với tập số liệu lớn cú ưu điểm là phương sai tập trung khụng cao nờn vị trớ cỏc PC sẽ chờnh lệch khụng quỏ lớn, do đú sai số trong quỏ trỡnh làm trũn số và chuyển húa tập số liệu sẽ nhỏ hơn.

Cỏc hàm toỏn học trờn đều đưa ra một ma trận cột chứa cỏc vectơ riờng - Vc -

là ma trận trong đú mỗi cột là một vectơ hay nhõn tố mới - PC - của ma trận dữ liệu và số hàng ma trận là số thời điểm đo. Mỗi nhõn tố hay vectơ này lại là tổ hợp bậc nhất của cỏc điểm phổ ban đầu, phần đúng gúp của cỏc điểm này vào mỗi vectơ là khỏc nhau tựy thuộc vào giỏ trị hàm phụ thuộc tại điểm đú. Những điểm cú giỏ trị đúng gúp lớn vào cỏc PC chứa phương sai lớn sẽ là những điểm đo cú ảnh hưởng (adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu Xác định đồng thời Ni,Co,Pd trong bản mạch điện tử bằng phương pháp trắc quang với thuốc thử PAN sử dụng thuật toán hồi quy đa biến (Trang 37 - 46)