Cơ sở lý thuyết của phương pháp hồi quy đa biến- 123docz.net

CHƯƠNG I : TỔNG QUAN

1.4. Phương pháp quang phổ kế hồng ngoại gần và trung bình kết hợp với thuật

1.4.2.1. Cơ sở lý thuyết của phương pháp hồi quy đa biến

Chemometrics được định nghĩa là việc ứng dụng các phương pháp toán học, thống kê, đồ hoạ,… để qui hoạch thực nghiệm, tối ưu hố các thơng tin hố học trích ra từ tập số liệu phân tích và đưa ra tối đa những thơng tin hữu ích từ tập số

Chun ngành hóa phân tích 20 Trường ĐHKHTN

liệu ban đầu [8]. Ra đời từ những năm đầu của thập kỉ 70, cho tới nay Chemometrics đã xác lập được một vị trí quan trọng cho mình trong ngành hố học, đặc biệt là trong hoá học phân tích hiện đại. Một mảng lớn trong Chemometrics phát triển nhanh gắn liền với toán học và tin học là hồi qui đa biến – kỹ thuật đa biến được dùng rộng rãi trong phịng thí nghiệm hố học giúp giải quyết các bài toán xác định đồng thời nhiều cấu tử cùng có mặt trong hỗn hợp mà không cần tách loại trước. Về nguyên tắc, chỉ cần xây dựng dãy mẫu chuẩn có mặt tất cả các cấu tử cần xác định với nồng độ biết trước trong hỗn hợp (các biến độc lập x), đo tín hiệu phân tích của các dung dịch này dưới dạng một hay nhiều biến phụ thuộc y và thiết lập mơ hình tốn học mơ tả quan hệ giữa hàm y (tín hiệu đo) và các biến độc lập x (nồng độ các chất trong hỗn hợp). Dựa trên mơ hình này có thể tìm được nồng độ của các cấu tử trong cùng mẫu định phân khi có tín hiệu phân tích của dung dịch đó. Trong luận văn này chúng tôi đã sử dụng phương pháp phổ hồng ngoại gần và trung bình kết hợp với các thuật tốn hồi quy đa biến tuyến tính để định lượng các sulfamid. Tùy thuộc vào đặc điểm của hàm phụ thuộc, có thể chia các phương pháp hồi qui đa biến tuyến tính thành 2 nhóm chính: các phương pháp hồi qui đa biến tuyến tính sử dụng phổ tồn phần như phương pháp CLS, PLS, ... và phương pháp sử dụng dữ liệu phổ riêng phần như ILS.

 Phương pháp bình phương tối thiểu thơng thường (classical least square- CLS)

- Từ dạng tổng quát y = XK +e (1)

K là vecto hệ số của phương trình hồi qui. K là ma trận (kx1) nếu y là véc tơ cột biểu diễn tín hiệu đo của một dung dịch chuẩn với y là vecto (mx1), X là ma trận (mxk), và e là vecto số dư (mx1). K là ma trận (kxp) nếu y là số liệu dạng ma trận (mxp) biểu diễn tín hiệu của dung dịch chuẩn được đo tại nhiều thời điểm (ví dụ đo độ hấp thụ quang tại p bước sóng).

Chuyên ngành hóa phân tích 21 Trường ĐHKHTN

 Phương pháp bình phương tối thiểu nghịch đảo (inverse least squares- ILS)

Phương pháp bình phương tối thiểu nghịch đảo (ILS) hay còn gọi là phuơng pháp ma trận P được xây dựng trên giả thiết rằng nồng độ của tín hiệu phân tích là hàm của tín hiệu đo [4, 5, 8]:

C = P . A

Trong phương pháp hồi qui đa biến, phương trình trên có thể khai triển thành: C1 = P11A1 + P12A2 + … + P1mAm C2 = P21A1 + P22A2 + … + P2mAm … Cx = Px1A1 + Px2A2 + … + PxmAm Trong đó:

Am : Giá trị tín hiệu đo ở thời điểm m

Pxm : Giá trị hệ số hồi qui của cấu tử thứ x tại thời điểm m. Cx : Nồng độ cấu tử thứ x.

Các bước tính tốn trong mơ hình ILS bao gồm * Xây dựng các ma trận dữ liệu chuẩn:

Để xây dựng đường chuẩn sử dụng kĩ thuật ILS ta cần xác định ma trận hệ số hồi qui P từ mẫu chuẩn có ma trận nồng độ C và ma trận tín hiệu đo A. P là ma trận chứa hệ số hồi qui của phương trình, trong đó mỗi hàng chứa hệ số hồi qui của một cấu tử, vì vậy số hàng của P là số cấu tử, số cột là số thời điểm đo.

Do trong tập số liệu C và A đều có chứa sai số ngẫu nhiên nên để P mơ tả chính xác quan hệ giữa C và A ta cần xác định P bằng phương pháp bình phương tối thiểu (tổng bình phương của sai số giữa giá trị tính theo mơ hình và giá trị thực nghiệm là nhỏ nhất).

* Xác định cơng thức tính P:

Chun ngành hóa phân tích 22 Trường ĐHKHTN

AT . C= AT . A . P

[AT . A]-1 . AT . C = [AT . A]-1 . [AT . A] . P [AT . A]-1 . AT . C = P

Để ma trận nghịch đảo của [AT . A] - nghịch đảo giả của A - tồn tại, A cần có số hàng tối thiểu bằng số cột. Mỗi hàng trong A là tín hiệu của một mẫu, mỗi cột là tín hiệu của các mẫu ở một thời điểm nhất định. Vì vậy, trong phương pháp ILS số mẫu khơng được ít hơn số thời điểm đo. Do yêu cầu về số mẫu tối thiểu như trên nên để tiến hành sử dụng phương pháp này, ta cần lựa chọn số thời điểm đo tối thiểu đặc trưng nhất trên tồn dải phổ, vì vậy, phương pháp ILS còn được gọi là phương pháp phổ riêng phần. Các điểm đo đặc trưng này thường là những điểm thỏa mãn các yêu cầu sau:

- Giá trị tín hiệu đo tại các thời điểm này lớn so với các điểm đo khác để tăng độ nhạy.

- Tín hiệu của các cấu tử khác nhau tại mỗi điểm đo được lựa chọn phải biến đổi khác nhau tức là có sự khác biệt lớn về tín hiệu đo tại mỗi điểm của các cấu tử.

- Tại các điểm này, tín hiệu của các ion cản trở phép đo là nhỏ nhất. * Dự đốn thơng tin của mẫu chưa biết:

Với mẫu chưa biết nồng độ, từ ma trận tín hiệu đo Aunk của mẫu sẽ xác định được nồng độ các chất dựa vào ma trận P đã tính:

Cunk = Aunk . P

 Phương pháp bình phương tối thiểu từng phần (partial least square-PLS )

PLS là phương pháp đa biến dùng để mơ hình hố mối quan hệ giữa biến độc lập X và biến phụ thuộc Y, từ đó có thể đốn được thơng tin trong Y khi đã biết các thông tin của X và ngược lại. PLS sẽ tối ưu hoá giá trị đồng phương sai (covariance) giữa ma trận X và Y. Hai ma trận X và Y được phân tích thành một ma trận số (score matrices) T chung và ma trận nạp (loading matrices) P và Q.

Chun ngành hóa phân tích 23 Trường ĐHKHTN

Y= T x Q + F

Tính chất quan trọng của PLS là chúng ta có thể nhận được một ma trận T chung cho cả 2 phương trình [4, 8].

 Phương pháp hồi qui cẩu tử chính (principal component regression-PCR)

PCR - phương pháp hồi quy cấu tử chính, gồm 2 q trình: Phân tích cấu tử chính chuyển sang tập dữ liệu mới, chứa một số ít các yếu tố quan trọng, cần thiết. Sau đó sử dụng phương pháp bình phương tối thiểu nghịch đảo để phân tích tập dữ liệu mới này.

Trước tiên, chiếu tập số liệu tín hiệu phân tích đó lên khơng gian có ít chiều hơn theo PCA mà khơng làm mất đi các thông tin quan trọng và tiến hành phân tích hồi qui đa biến trên khơng gian mới này. Nó giả thiết rằng mỗi thành phần trong tập số liệu có thể được gán một giá trị định lượng đầu tiên cần tạo mơ hình PCA cho tập số liệu và sử dụng giá trị riêng của các biến ảo (score) để xây dựng phương trình hồi

qui đa biến tuyến tính trong đó giá trị y là giá trị hàm mục tiêu. Cũng cần lưu ý rằng, do phương pháp này phát triển trên cơ sở của phương

pháp ILS nên để sử dụng được các phương pháp này trong phân tích phổ hồng ngoại chúng ta cần số mẫu chuẩn tối thiểu phải bằng số thời điểm sử dụng trong đường chuẩn mã hóa, tức là số mẫu chuẩn khơng nhỏ hơn số PC lựa chọn. Lấy một ví dụ cụ thể, khi đo phổ của 15 mẫu chuẩn tại 100 bước sóng, để sử dụng phương pháp ILS, chúng ta cần phải giảm kích thước phổ xuống số bước sóng khơng quá 15. Cách đơn giản nhất là chọn ít hơn 15 bước sóng để đo độ hấp thụ nhưng sai số sẽ lớn nếu không chọn được các bước sóng đặc trưng cho phổ các chất. Với mơ hình PCR ta có thể sử dụng tồn phổ để tính các PC, sau đó chọn số PC nhỏ hơn 15 để tính tốn tiếp. Thơng thường, với một tập số liệu có mức độ tập trung tốt thì chỉ có một số ít các PC đầu tiên là có nghĩa (có tổng phương sai tích lũy đủ lớn để coi rằng chúng đã chứa toàn bộ thơng tin hữu ích đặc trưng của tập số liệu). Như vậy, sử dụng mơ hình PCR có thể giảm được kích thước tập số liệu mà khơng làm mất thơng tin đồng thời có thể loại được tín hiệu nhiễu của dữ liệu gốc [4, 8].

Chun ngành hóa phân tích 24 Trường ĐHKHTN * Các bước chính của PCR bao gồm:

1. Xử lý ban đầu (khơng bắt buộc)

Nội dung chính của bước này là chuẩn hóa tập số liệu.

2. Các xử lý cần thiết:

Với một tập số liệu đã chuẩn hóa hoặc chưa chuẩn hóa, trước khi sử dụng đều cần bước bình phương tồn tập dữ liệu - đây là yêu cầu bắt buộc đối với hầu hết các hàm tính vectơ riêng.

D = AT. A

Trong đó A là ma trận số liệu biểu diễn độ hấp thụ quang theo các thời điểm đo của các dung dịch chuẩn và AT là ma trận chuyển vị của ma trận A.

3. Xác định các vectơ riêng hay các PC:

Có thể tính tốn các vectơ riêng của tập số liệu bằng nhiều hàm toán học khác nhau. Có 3 hàm chính, thường sử dụng là hàm NIPALS (hàm phi tuyến lặp sử dụng kĩ thuật bình phương tối thiểu riêng phần), hàm SVD (hàm phân tách các giá trị riêng) và hàm Princomp (hàm tính các cấu tử chính). Cần lưu ý rằng, tất cả các hàm này đều tính tốn và đưa ra tất cả các cấu tử nhưng thường không sử dụng tất cả mà chỉ sử dụng N cấu tử đầu đủ để xác định không gian mới :

NIPALS là hàm lặp thường sử dụng cho các tập số liệu kích thước lớn hoặc có độ đa cộng tuyến cao. Với tập số liệu có kích thước nhỏ, q trình tính lặp trong hàm NIPALS sẽ làm khuếch đại sai số của tập số liệu nên thông thường người ta không sử dụng hàm này để tính các PC.

SVD là hàm tính PC sử dụng phương pháp tách tập số liệu ban đầu thành các nhân tố. Các vectơ riêng và trị riêng của ma trận dữ liệu đều là những tập con riêng của các nhân tố trong SVD. Hàm SVD sử dụng hình thức chéo hóa cho phép khống chế thang đo một cách hợp lí nên giảm thiểu được sai số do làm trịn. Vì vậy hàm này sử dụng được với các kiểu tập số liệu rộng rãi hơn hàm NIPALS.

Princomp là hàm tính tốn trực tiếp các cấu tử chính (PC) có vai trị tương đương các vectơ riêng. Tuy nhiên, so với hàm SVD thì việc sử dụng hàm Princomp với tập số liệu lớn có ưu điểm là phương sai tập trung khơng cao nên vị trí các PC

Chun ngành hóa phân tích 25 Trường ĐHKHTN

sẽ chênh lệch khơng q lớn, do đó sai số trong q trình làm trịn số và chuyển hóa tập số liệu sẽ nhỏ hơn.

Các hàm toán học trên đều đưa ra một ma trận cột chứa các vectơ riêng - Vc - là ma trận trong đó mỗi cột là một vectơ hay nhân tố mới - PC - của ma trận dữ liệu và số hàng ma trận là số thời điểm đo. Mỗi nhân tố hay vectơ này lại là tổ hợp bậc nhất của các điểm phổ ban đầu, phần đóng góp của các điểm này vào mỗi vectơ là khác nhau tùy thuộc vào giá trị hàm phụ thuộc tại điểm đó. Những điểm có giá trị đóng góp lớn vào các PC chứa phương sai lớn sẽ là những điểm đo có ảnh hưởng quyết định tới kết quả tính ma trận hệ số hồi qui và kết quả hồi qui sau đó. Ma trận kết quả thứ hai cũng rất quan trọng là ma trận phương sai của các PC: đó là dạng ma trận chéo đối với hàm SVD, là một vectơ cột đối với hàm NIPALS và hàm Princomp.

4. Lựa chọn các vectơ có nghĩa

Đây là bước có ảnh hưởng đặc biệt quan trọng đến bước xử lý tiếp theo. Nếu giữ lại nhiều vectơ hơn số cần dùng thì những vectơ đó sẽ chứa cả tín hiệu nhiễu và như vậy, kết quả hồi qui sẽ mắc phải sai số. Nếu giữ lại không đủ số vecto cần thiết sẽ làm mất đi thơng tin có ích từ tập dữ liệu, điều này cũng sẽ gây nên sai lệch giữa mơ hình hồi qui thu được và mơ hình thực. Vì vậy, việc đánh giá và lựa chọn các vectơ có nghĩa là rất quan trọng. Dưới đây là một số phương pháp phổ biến để xác định số PC có nghĩa :

 Dùng các hàm chỉ thị: Có rất nhiều hàm chỉ thị khác nhau như CPV (tính phần trăm phương sai tích lũy), hàm IEF, ...

 Tính tốn PRESS (tổng bình phương sai số dự đốn) để đánh giá thông tin từ dữ liệu.

 Phương pháp đánh giá chéo

 Phương pháp đánh giá Xu – Kailath  Đánh giá theo tiêu chuẩn Akaike  Tính phương sai của sai số tái lập VRE

Chun ngành hóa phân tích 26 Trường ĐHKHTN

Các phương pháp này đều có những ưu điểm riêng khi sử dụng và kết quả đánh giá tương đối thống nhất với nhau. Phương pháp được sử dụng rộng rãi để lựa chọn các PC có nghĩa khi các PC này được tính bằng hàm SVD hay Princomp là phương pháp tính và đánh giá qua phần trăm phương sai tích lũy của các PC đó. Cách tính này đơn giản hơn và các hàm tính PC trên đã cho sẵn dữ liệu để có thể đánh giá nhanh.

5. Tính tốn lại

Sau khi loại bỏ các vectơ riêng khơng có nghĩa, chúng ta cũng loại được tín hiệu nhiễu của dữ liệu gốc và cần tính lại dữ liệu sau khi loại bỏ sai số. Như vậy, khi tính tốn ở hệ tọa độ mới ta đã loại bỏ được tín hiệu nhiễu trong tập dữ liệu ban đầu.

6. Xây dựng đường chuẩn

Khi xây dựng đường chuẩn PCR theo phương pháp ILS, điểm khác biệt duy nhất là tập số liệu sử dụng.

Các bước tiến hành bao gồm:

- Xác định phép chiếu trong hệ tọa độ mới: Aj = A . Vc

Trong đó:

Aj: ma trận số liệu ở hệ tọa độ mới A: ma trận gốc

Vc: ma trận các vectơ riêng có nghĩa - Thay thế A bằng Aj trong phương trình hồi quy

C = Aj . F , trong đó F được tính theo cơng thức: F = (AjT . Aj)-1 . AjT . C

Nồng độ chất phân tích trong mẫu chưa biết được tính theo cơng thức: Cx = Ax . Vc . F

= Ax . Fcal

với Fcal = Vc . F đóng vai trị tương tự ma trận P trong phương trình của ILS

Chun ngành hóa phân tích 27 Trường ĐHKHTN

- Hội tụ đầy đủ các ưu điểm của phương pháp ILS đồng thời khắc phục được các nhược điểm của phương pháp ILS do tiến hành tính tốn trên tồn phổ.

- Phương pháp này cho phép loại bỏ sai số nhiễu phổ và sai số ngẫu nhiên trong quá trình đo khi lựa chọn được số PC phù hợp.

- Đối với trường hợp sử dụng phổ toàn phần, khi dùng các phương pháp khác như CLS, kết quả tính cuối cùng là kết quả tính trung bình trên tồn phổ nên kém chính xác hơn trường hợp dùng phổ chọn lọc. Khi sử dụng mơ hình PCR, tuy kết quả vẫn tính trên tất cả các điểm nhưng đóng góp của các điểm đo sẽ khác nhau tùy theo lượng đóng góp của từng điểm này vào các PC được chọn mà lượng đóng góp này lại được phân tích dựa trên tín hiệu đo tại từng điểm của các mẫu chuẩn. Do có sự phân biệt và chọn lọc trong đánh giá mỗi điểm đo nên kết quả thu được sẽ chính xác hơn phương pháp tính trung bình trên tồn phổ ở các phương pháp phổ toàn phần khác [4, 8].

Cơ sở lý thuyết của phương pháp hồi quy đa biến

Nội dung và phương pháp nghiên cứu

Hóa chất và thiết bị