CHƢƠNG 1 : TỔNG QUAN
1.4. PHƢƠNG PHÁP PHỔ HỒNG NGOẠI KẾT HỢP VỚI THUẬT TOÁN HỒI QUY ĐA BIẾN
1.4.2.1. Cơ sở lớ thuyết của phương phỏp hồi quy đa biến
Phƣơng phỏp hồi quy đa biến về cơ bản khỏc với kỹ thuật đơn biến là dóy cỏc mẫu chuẩn là hỗn hợp chứa cỏc cấu tử cần phõn tớch (cỏc biến độc lập X) và tớn hiệu đo gồm tất cả cỏc chất cú trong hỗn hợp đúng gúp nờn (biến phụ thuộc y). Do vậy, để giải quyết bài toỏn bằng phƣơng phỏp bỡnh phƣơng tối thiểu thỡ phải cú tớn hiệu phõn tớch tại nhiều điểm (vớ dụ độ hấp thụ quang hoặc cƣờng độ vạch phổ tại nhiều bƣớc súng, cƣờng độ dũng hũa tan tại nhiều giỏ trị thế, tốc độ phản ứng tại cỏc thời gian khỏc nhau…). Dựa trờn mụ hỡnh này cú thể tỡm đƣợc nồng độ của cỏc cấu tử trong cựng mẫu định phõn khi cú tớn hiệu phõn tớch của mẫu đú [10, 64].
Nếu cỏc cấu tử cú mặt trong hỗn hợp cho tớn hiệu do cú tớnh chất cộng tớnh thỡ cú thể sử dụng phƣơng phỏp hồi quy đa biến tuyến t nh thụng thƣờng (Multiple
linear regression- MLR) nhƣ phƣơng phỏp bỡnh phƣơng tối thiểu thụng thƣờng
(CLS) và nghịch đảo (ILS) dựa trờn tập số liệu thụ (raw data) hoặc bỡnh phƣơng tối thiểu từng phần (PLS), phƣơng phỏp hồi quy thành phần chớnh (PCR)… trờn tập số liệu đó rỳt gọn k ch thƣớc. Nhƣng nếu trong hỗn hợp cỏc cấu tử cú sự tƣơng tỏc lẫn nhau làm mất tớnh chất cộng tớnh tớn hiệu đo thỡ phải sử dụng mụ hỡnh hồi quy đa biến phi tuyến tớnh (phổ biến là phƣơng phỏp phõn t ch thành phần chớnh kết hợp với mạng nơron nhõn tạo PCA- ANN) [10].
Cỏc thuật toỏn về hồi quy tuyến tớnh và dự đoỏn nồng độ cỏc chất trong cựng hỗn hợp cần đƣợc giải bằng phần mềm MATLAB, Uscrambler [5, 6, 71]…Một số thuật toỏn đơn giản nhƣ chỉ cần xõy dựng phƣơng trỡnh hồi quy tuyến tớnh thỡ cú thể sử dụng MINITAB hoặc SPSS hay STATGRAPHICS.
Hồi quy đa biến tuyến tớnh
Giả sử trong hỗn hợp cần phõn t ch cú k cấu tử (X1, X2…Xk), t n hiệu phõn
t ch của hỗn hợp là y thỡ phƣơng trỡnh hồi quy đa biến mụ tả quan hệ giữa y và cỏc
biến Xi (i=1,2,…k) cú dạng:
y= a+ b1X1 + b2X2 +…+ bkXk (1.1)
Về mặt lý thuyết để tỡm nồng độ của k cấu tử cần cú t nhất k phƣơng trỡnh hồi quy. Vỡ vậy thực tế sẽ cần tiến hành m th nghiệm (m ≥ k) với m mẫu chuẩn hỗn hợp thỡ sẽ lập đƣợc m phƣơng trỡnh hồi quy đa biến. Dạng tổng quỏt của hệ phƣơng trỡnh này nhƣ sau:
y= a+Xb (1.2)
Trong đú b là vecto chứa cỏc hệ số của phƣơng trỡnh hồi quy.
y là vecto cột chứa m giỏ trị y1…ym cũn X là ma trận cú m hàng (ứng với m
quan sỏt) và k cột (ứng với k biến)
Nếu t n hiệu đo ứng với mỗi th nghiệm cú nhiều hơn một giỏ trị (v dụ đo độ hấp thụ quang một dung dịch chuẩn hỗn hợp tại p bƣớc súng thay vỡ một bƣớc súng) thỡ số liệu của Y sẽ là ma trận cú m hàng và p cột (ymxp) nhƣ sau:
mp m m p p y y y y y y y y y y ... ... ... ... ... ... ... 2 1 2 22 21 1 12 11
Cỏc phƣơng trỡnh hồi quy tuyến t nh thu đƣợc sẽ cho biết:
- Những biến (cấu tử) nào cú ảnh hƣởng lớn (nếu giỏ trị tuyệt đối của hệ số hồi quy lớn) đến kết quả th nghiệm (t n hiệu đo).
- Biết đƣợc chiều hƣớng cỏc ảnh hƣởng (hệ số hồi quy mang dấu dƣơng sẽ cú ảnh hƣởng cựng chiều đến kết quả th nghiệm và ngƣợc lại).
- Tỡm đƣợc nồng độ cỏc cấu tử trong dung dịch cần định phõn khi cú t n hiệu phõn tớch y.
Tựy thuộc vào đặc điểm của hàm phụ thuộc, cú thể chia cỏc phƣơng phỏp hồi quy đa biến tuyến t nh thành 2 nhúm ch nh: cỏc phƣơng phỏp hồi quy đa biến tuyến t nh sử dụng phổ toàn phần nhƣ phƣơng phỏp CLS, PLS, ... và phƣơng phỏp sử dụng dữ liệu phổ riờng phần nhƣ ILS [64, 69, 71].
Phương phỏp bỡnh phương tối thiểu thụng thường (classical least
square-CLS)
Phƣơng phỏp bỡnh phƣơng tối thiểu thụng thƣờng là phƣơng phỏp định lƣợng trực tiếp đƣợc xõy dựng dựa trờn mụ hỡnh tuyến t nh nhiều điểm mà tại mỗi điểm, đỏp ứng phổ và nồng độ chất phõn t ch thay đổi tuyến t nh theo định luật Lambert - Beer. Phƣơng trỡnh của mụ hỡnh nhƣ sau:
Y0nxk =X0nxm Kmxk (1.3)
Trong đú: Y0: là ma trận chứa dữ liệu phổ của n mẫu;
X0: Ma trận nồng độ của m thành phần húa học trong n mẫu; K: Chứa cỏc đỏp ứng phổ của m thành phần húa học trờn; E: Sai số của mụ hỡnh;
N: Số mẫu để xõy dựng mụ hỡnh hồi quy đa biến k: Số bƣớc súng;
Phƣơng phỏp CLS cú thể xõy dựng từ chuỗi cỏc thay đổi nồng độ đó biết của từng chất phõn t ch trong từng mẫu tƣơng ứng với phổ chuẩn của từng mẫu đƣợc thiết lập từ thực nghiệm hoặc qua một phộp ƣớc lƣợng cụ thể. Khi đú, K đƣợc t nh từ cỏc yếu tố đó biết trờn theo phƣơng trỡnh:
K=(X0tX0)-1X0tY0 (1.4)
trong đú X0t
là ma trận chuyển vị của ma trận X
Khi đú nồng độ của mẫu cần phõn t ch đƣợc t nh theo K và phổ chuẩn tƣơng ứng
X=YKt(KKt)-1(1.5)
trong đú Kt
là ma trận chuyển vị của ma trận K
Ƣu điểm của CLS: Đầu tiờn, chỉ cần xõy dựng một mụ hỡnh t nh toỏn nhƣng cú thể sử dụng để t nh toỏn đồng thời cho nhiều thành phần trong mẫu phõn t ch. Thứ hai, do tất cả cỏc đỏp ứng phổ của tất cả cỏc thành phần phõn t ch đƣợc thể hiện đồng thời trờn cựng một phổ nờn từ một số thay đổi nào đú trong tổng thể cỏc phổ phõn tớch ta cú thể sử dụng để đỏnh giỏ mụ hỡnh vừa thiết lập và loại bỏ cỏc ảnh hƣởng ngoại lai nhƣ do độ dày mẫu (quang trỡnh) để làm cho mụ hỡnh đƣợc ch nh xỏc hơn (đối với mụ hỡnh để đỏnh giỏ đơn thành phần thỡ khi cú sai số, ngƣời ta khụng biết là do hệ thống hay do bản thõn mẫu gõy ra). Khi sử dụng mụ hỡnh CLS để xỏc định đỏp ứng cơ sở (hệ số K) của thành phần chất phõn t ch thỡ CLS cũn là cụng cụ hữu ch để tr ch xuất thụng tin phổ của từng chất phõn t ch, xỏc định đõu là đỏp ứng của chất cần quan tõm và đỏnh giỏ sự thay đổi của cỏc thành phần trong quy trỡnh phõn tớch [10].
Nhƣợc điểm của CLS: phƣơng phỏp CLS chỉ tập trung phõn t ch sự thay đổi những yếu tố liờn quan đến nồng độ chứ khụng thể sử dụng để đỏnh giỏ cỏc thuộc
t nh vật lý khỏc, v dụ nhƣ cấu hỡnh, độ nhớt,…Thành phần (XtX)-1 rất khụng ổn
định nếu nhƣ nồng độ của hai trong cỏc thành phần phõn t ch cú liờn quan (thể hiện sự liờn quan trong kết quả phõn t ch). Điều này cũng là một thỏch thức trong thực nghiệm và ngƣời phõn t ch phải thực sự chỳ ý đến từng thành phần khi thiết kế quy trỡnh phõn t ch. Mụ hỡnh CLS đƣợc xõy dựng trờn cỏc thành phần và cỏc đỏp ứng phổ đƣợc xem nhƣ là tuyến t nh lý tƣởng. Vỡ vậy, nú khụng đƣợc sử dụng trong cỏc
trƣờng hợp đỏp ứng phổ và nồng độ khụng phụ thuộc tuyến t nh với nhau. Ngoài ra, trong quỏ trỡnh xõy dựng mụ hỡnh, cỏc vấn đề về nhiễu thƣờng khụng đƣợc quan tõm nhƣng đụi khi nhiễu lại gõy ra sai số lớn nhất trong cỏc thành phần của sai số mụ hỡnh, đặc biệt là phõn t ch quang phổ [10, 71].
Phương phỏp bỡnh phương tối thiểu nghịch đảo (inverse least
squares - ILS)
ILS giả thiết rằng nồng độ chất phõn t ch là hàm của t n hiệu phõn t ch X0nxm =Y0nxk Pkxm (1.5)
Trong đú: Y0: là ma trận chứa dữ liệu phổ của n mẫu;
X0: Ma trận nồng độ của m thành phần húa học trong n mẫu; P: Chứa cỏc đỏp ứng phổ của m thành phần húa học trờn; E: Sai số của mụ hỡnh;
n: Số mẫu để xõy dựng mụ hỡnh hồi quy đa biến k: Số bƣớc súng;
m: Số cấu tử (thành phần húa học) trong mỗi mẫu.
Khi thay đổi nồng độ đó biết của cỏc cấu tử trong mẫu ta thu đƣợc ma trận nồng độ X0 tƣơng ứng với phổ chuẩn từng mẫu thu đƣợc ma trận t n hiệu Y0, từ cỏc dữ kiện đó biết ta t nh đƣợc ma trận hệ số P:
P = (Y0tY0)-1Y0tX0 (1.6)
trong đú Y0t là ma trận chuyển vị của ma trận Y
Nồng độ của chất phõn t ch trong mẫu thực cú dạng: X = YP (1.7)
Nhƣợc điểm của phƣơng phỏp ILS: t n hiệu mẫu phõn t ch phải đƣợc ghi số t nhất thời điểm ch nh xỏc nhất (v dụ trắc quang phải chọn đƣợc số t nhất cỏc bƣớc súng phản ỏnh đầy t n hiệu của tất cả cỏc chất trong hỗn hợp). Vỡ ma trận hệ số P t nh theo phƣơng trỡnh trờn là ma trận nghịch đảo, do đú k ch thƣớc của ma trận này bằng số bƣớc súng sử dụng và phải nhỏ hơn số dung dịch chuẩn đem dựng. Một số vấn đề khỏc là t nh cộng t nh của t n hiệu đo và đƣờng chuẩn khi cú nhiều bƣớc súng đƣợc sử dụng sẽ xảy ra làm cho độ ch nh xỏc giảm [69].
Phương phỏp phõn tớch thành phần chớnh (Principal Component Analysis - PCA)
PCA là thuật toỏn đa biến bằng cỏch quay cỏc trục số liệu ban đầu đến trục tọa độ mới chứa cỏc biến tối ƣu. Số biến trong tập số liệu đƣợc giảm đi trờn cơ sở tỡm ra giỏ trị đồng phƣơng sai lớn nhất để quy về số thành phần ch nh (Principal
Component - PC) t nhất.
Khi đú, một tập hợp cỏc biến liờn quan với nhau ban đầu trong tập số liệu đƣợc chuyển thành tập hợp cỏc biến khụng liờn quan và đƣợc sắp xếp theo thứ tự giảm độ biến thiờn hay phƣơng sai. Những biến khụng liờn quan này là sự kết hợp tuyến t nh cỏc biến ban đầu. Dựa trờn phƣơng sai do mỗi biến mới gõy ra cú thể loại bỏ bớt cỏc biến ph a cuối dóy mà chỉ mất t nhất thụng tin về cỏc số liệu thực ban đầu. Bằng cỏch này sẽ giảm đƣợc k ch thƣớc của tập số liệu trong khi vẫn cú thể giữ nguyờn thụng tin.
Việc quay cỏc trục tồn tại trong tập số liệu ban đầu đến cỏc vị tr mới trong khụng gian đƣợc gọi là “varimax rotation”. Cỏc biến mới tạo thành đƣợc gọi là cỏc biến ảo (latent variables) hay cỏc thành phần ch nh (PC) trong đú biến ảo thứ nhất cú chứa phƣơng sai lớn nhất. Biến ảo thứ hai (PC2) chứa phƣơng sai lớn tiếp theo mà khụng giải th ch đƣợc bởi PC thứ nhất và vuụng gúc với PC thứ nhất. Trục thứ ba (PC3) chứa tổng phƣơng sai lớn nhất cũn lại khụng đƣợc giải th ch bởi biến ảo thứ nhất và thứ hai và cú t nh chất vuụng gúc với trục thứ nhất và thứ hai…
Trong thuật toỏn PCA, cú thể cú nhiều PC vỡ cú nhiều biến trong tập số liệu. Số PC tối đa bằng số biến ban đầu. Việc dựng PCA cú thể túm lƣợc đƣợc cấu trỳc đồng phƣơng sai với tập số liệu cú k ch thƣớc nhỏ hơn. [10, 69, 71]
Cỏch bƣớc tớnh toỏn trong PCA
Bƣớc 1: Nhập cỏc giỏ trị của biến độc lập (hoặc biến phụ thuộc nếu cú) dƣới dạng
ma trận ma trận m x n gồm m hàng và n cột (thụng thƣờng trong hoỏ học m là số
phộp đo, n là số biến, hoặc số thành phần trong hệ).
Bƣớc 2: Tớnh ma trận đồng phƣơng sai (hoặc ma trận hệ số tƣơng quan) của ma trận số liệu ban đầu.
Bƣớc 3: Tớnh vecto riờng (eigenvector) và trị riờng (eigenvalue) của ma trận đồng phƣơng sai.
Bƣớc 4 : Chọn số thành phần và tạo vecto đặc trƣng
Sau khi tỡm đƣợc cỏc vecto riờng cần sắp xếp chỳng theo thứ tự từ cao xuống thấp để cú thể nhận ra thứ tự cú nghĩa của cỏc thành phần và cú thể loại bỏ bớt cỏc thành phần t cú nghĩa mà khụng sợ bị mất thụng tin về tập số liệu nếu cỏc giỏ trị riờng nhỏ. Khi bỏ đi một số thành phần thỡ tập số liệu cuối cựng sẽ cú kớch thƣớc nhỏ hơn tập số liệu ban đầu.
Núi cỏch khỏc, nếu tập số liệu ban đầu cú n chiều thỡ sẽ t nh đƣợc n vecto riờng và n giỏ trị riờng, từ đú chỳng ta sẽ chọn chỉ p vecto riờng đầu tiờn cú nghĩa. Khi đú tập số liệu sẽ chỉ cũn p chiều.
Thực tế, những vecto riờng cú trị riờng cao nhất là thành phần chớnh của tập số liệu.
Bƣớc tiếp theo cần làm là tạo vecto đặc trƣng bằng cỏch lấy cỏc trị riờng mà đƣợc giữ lại từ dóy cỏc vecto riờng, lập ma trận với những vecto riờng này theo cột.
Vecto đặc trƣng = ( Vecto riờng1 Vecto riờng 2 … Vecto riờng n )
Bƣớc 5: Chuyển hoỏ từ tập số liệu mới.
Đõy là bƣớc cuối cựng trong PCA. Khi đó chọn đƣợc thành phần chớnh (vecto riờng) muốn giữ trong tập số liệu và tạo đƣợc vecto đặc trƣng, bƣớc tiếp theo cần chuyển vị vecto (transpose of the vector) và nhõn nú với tập số liệu ban đầu. Khi đú,
Số liệu sau cựng =Vecto riờng đặc trƣng hàng x số liệu hiệu chỉnh hàng
(FinalData= Row FeatureVector x RowDatadjust)
Ở đõy: Row FeatureVector là ma trận cú vecto riờng theo cột đó chuyển vị
thành hàng.
RowDatadjust là trung bỡnh số liệu hiệu chỉnh đó chuyển vị FinalData là tập số liệu cuối cựng.
Từ giỏ trị cuối này cú thể biểu diễn cỏc thành phần chớnh trờn cỏc trục toạ độ trực giao với nhau.
Nhƣ vậy bằng phƣơng phỏp PCA chỳng ta cú thể chuyển tập số liệu gồm n chiều ban đầu thành tập số liệu cú k ch thƣớc nhỏ hơn gồm p chiều.
Nhƣ vậy, trong quỏ trỡnh tớnh toỏn tỡm cỏc thành phần ch nh, đó cú sự quay thứ cấp của thành phần chớnh nhằm giỳp cho việc quan sỏt tốt hơn và thu gọn cỏc phƣơng sai từ biến độc lập vào thành phần đơn giản đồng thời hiểu rừ hơn về số liệu gốc [47, 71].
Phương phỏp bỡnh phương tối thiểu từng phần (partial least square-PLS)
PLS là phƣơng phỏp đa biến dựng để mụ hỡnh hoỏ mối quan hệ giữa biến độc lập X và biến phụ thuộc Y, từ đú cú thể đoỏn đƣợc thụng tin trong Y khi đó biết cỏc thụng tin của X và ngƣợc lại. PLS sẽ tối ƣu hoỏ giỏ trị đồng phƣơng sai (covariance) giữa ma trận X và Y. Hai ma trận X và Y đƣợc phõn t ch thành một ma trận số (score matrices) T chung và ma trận nạp (loading matrices) P và Q.
Hay X= T x P + E (1.8) Y= T x Q + F (1.9)
T nh chất quan trọng của PLS là chỳng ta cú thể nhận đƣợc một ma trận T chung cho cả 2 phƣơng trỡnh.
Ƣu điểm của phƣơng phỏp PLS : cú thể đƣa ra phƣơng trỡnh hồi quy bằng cỏch tỡm ra ma trận trực giao T, từ đú mà ta cú thể dự đoỏn Y thụng qua giỏ trị X đo đƣợc.
Nhƣợc điểm của phƣơng phỏp PLS : Đối với trƣờng hợp cỏc mẫu khụng cú nhiều cỏc yếu tố ảnh hƣởng khi ta dựng PLS vụ tỡnh đƣa thờm biến số vào trong tập số liệu mới làm sai lệch mụ hỡnh [43, 69, 71].
Phương phỏp hồi quy cẩu tử chớnh (principal component regression
-PCR)
Phƣơng trỡnh hồi quy cú dạng X = a+bA Với b = PxQ
Q: ma trận trọng số P: ma trận trị số
PCR - phƣơng phỏp hồi quy cấu tử chớnh, gồm 2 quỏ trỡnh: Phõn tớch cấu tử chớnh chuyển sang tập dữ liệu mới, chứa một số ớt cỏc yếu tố quan trọng, cần thiết. Sau đú sử dụng phƣơng phỏp bỡnh phƣơng tối thiểu nghịch đảo để phõn tớch tập dữ liệu mới này.
Trƣớc tiờn, chiếu tập số liệu tớn hiệu phõn t ch đú lờn khụng gian cú t chiều hơn theo PCA mà khụng làm mất đi cỏc thụng tin quan trọng và tiến hành phõn tớch hồi qui đa biến trờn khụng gian mới này. Nú giả thiết rằng mỗi thành phần trong tập số liệu cú thể đƣợc gỏn một giỏ trị định lƣợng đầu tiờn cần tạo mụ hỡnh PCA cho tập số liệu và sử dụng giỏ trị riờng của cỏc biến ảo (score) để xõy dựng phƣơng trỡnh
hồi qui đa biến tuyến t nh trong đú giỏ trị y là giỏ trị hàm mục tiờu. Cũng cần lƣu ý rằng, do phƣơng phỏp này phỏt triển trờn cơ sở của phƣơng
phỏp ILS nờn để sử dụng đƣợc cỏc phƣơng phỏp này trong phõn t ch phổ hồng ngoại chỳng ta cần số mẫu chuẩn tối thiểu phải bằng số thời điểm sử dụng trong đƣờng chuẩn mó húa, tức là số mẫu chuẩn khụng nhỏ hơn số PC lựa chọn. Nhƣ vậy, sử dụng mụ hỡnh PCR cú thể giảm đƣợc k ch thƣớc tập số liệu mà khụng làm mất