1.3. Sơ lƣợc về các thuật tốn hồi quy đa biến dùng trong phân tích dạng
1.3.2. Phƣơng pháp hồi qui cấu tử chính – PCR
Phƣơng pháp này phát triển trên cơ sở của phƣơng pháp ILS, vì vậy số mẫu chuẩn tối thiểu phải bằng số thời điểm sử dụng trong đƣờng chuẩn mã hóa, tức là số mẫu chuẩn khơng nhỏ hơn số PC (cấu tử chính) lựa chọn.
Lấy một ví dụ cụ thể, khi đo phổ của 15 dung dịch chuẩn tại 100 bƣớc sóng, để sử dụng phƣơng pháp ILS, chúng ta cần phải giảm kích thƣớc phổ xuống số bƣớc sóng khơng quá 15 [10]. Cách đơn giản nhất là chọn ít hơn 15 bƣớc sóng để đo độ hấp thụ nhƣng sai số sẽ lớn nếu khơng chọn đƣợc các bƣớc sóng đặc trƣng cho phổ các chất. Với mơ hình PCR ta có thể sử dụng tồn phổ để tính các PC, sau đó chọn số PC nhỏ hơn 15 để tính tốn tiếp. Thơng thƣờng, với một tập số liệu có mức độ tập trung tốt thì chỉ có một số ít các PC đầu tiên là có nghĩa (có tổng phƣơng sai tích lũy đủ lớn để coi rằng chúng đã chứa tồn bộ thơng tin hữu ích đặc trƣng của tập số liệu). Nhƣ vậy, sử dụng mơ hình PCR có thể giảm đƣợc kích thƣớc tập số liệu mà không làm mất thơng tin đồng thời có thể loại đƣợc tín hiệu nhiễu của dữ liệu gốc.
Các bƣớc chính của PCR bao gồm :
+ Bước 1. Tương tự như phương pháp ILS + Bước 2. Xử lý tập số liệu
Với một tập số liệu đã chuẩn hóa hoặc chƣa chuẩn hóa, trƣớc khi sử dụng đều cần bƣớc bình phƣơng tồn tập dữ liệu – đây là yêu cầu bắt buộc đối với hầu hết các hàm tính vectơ riêng. Cơng thức nhƣ sau : D = AT
. A
+ Bước 3. Xác định các vectơ riêng (các PC)
Có thể tính tốn các PC của tập số liệu bằng nhiều hàm toán học khác nhau. Có 3 hàm chính, thƣờng sử dụng là : hàm NIPALS (hàm phi tuyến lặp sử dụng kĩ thuật bình phƣơng tối thiểu riêng phần), hàm SVD (hàm phân tách các giá trị riêng) và hàm Princomp (hàm tính các cấu tử chính). Các hàm này đều tính tốn và đƣa ra tất cả các cấu tử nhƣng thƣờng không sử dụng tất cả mà chỉ sử dụng N cấu tử đầu đủ để xác định khơng gian mới. Hàm SVD sử dụng hình thức chéo hóa cho phép khống chế thang đo
một cách hợp lí nên giảm thiểu đƣợc sai số do làm trịn. Vì vậy hàm này sử dụng đƣợc với các kiểu tập số liệu rộng rãi hơn hàm NIPALS và Princomp.
+ Bước 4. Lựa chọn các PC có nghĩa
Đây là bƣớc có ảnh hƣởng đặc biệt quan trọng đến bƣớc xử lý tiếp theo. Nếu giữ lại nhiều PC hơn số cần dùng thì những PC đó sẽ chứa cả tín hiệu nhiễu và nhƣ vậy, kết quả hồi qui sẽ mắc phải sai số. Nếu giữ lại không đủ số PC cần thiết sẽ làm mất đi thơng tin có ích từ tập dữ liệu, điều này cũng sẽ gây nên sai lệch giữa mơ hình hồi qui thu đƣợc và mơ hình thực. Để lựa chọn các PC có nghĩa thƣờng căn cứ vào phƣơng sai của các PC, các PC có phƣơng sai nhỏ sẽ đƣợc loại bỏ.
+ Bước 5. Tính tốn lại và xây dựng đường chuẩn
Sau khi loại bỏ các vectơ riêng khơng có nghĩa, chúng ta cũng loại đƣợc tín hiệu nhiễu của dữ liệu gốc và cần tính lại dữ liệu sau khi loại bỏ sai số. Nhƣ vậy, khi tính tốn ở hệ tọa độ mới ta đã loại bỏ đƣợc tín hiệu nhiễu trong tập dữ liệu ban đầu.
Ưu điểm của phương pháp PCR:
Hội tụ đầy đủ các ƣu điểm của phƣơng pháp ILS đồng thời khắc phục đƣợc các nhƣợc điểm của phƣơng pháp ILS do tiến hành tính tốn trên tồn phổ.
Phƣơng pháp này cho phép loại bỏ sai số nhiễu phổ và sai số ngẫu nhiên trong quá trình đo khi lựa chọn đƣợc số PC phù hợp.
Nhƣ vậy có thể thấy, muốn áp dụng mơ hình hồi quy đa biến thì điều kiện là các dạng có tín hiệu phân tích khác nhau ở một điểm đo và tín hiệu đo của các dạng có tính chất cộng tính với nhau. Việc xác định hàm lƣợng các dạng tuy phải sử dụng một lƣợng lớn thông tin từ các dung dịch mẫu chuẩn, nhƣng nếu có một cơ sở dữ liệu có thể phân tích đồng thời các dạng một cách nhanh chóng đơn giản và chi phí thấp. Các bƣớc xác định nồng độ các dạng theo phƣơng pháp này, trƣớc hết cần phải xây dựng đƣợc ma trận nồng độ của các dung dịch chuẩn có chứa các dạng cần phân tích, sau đó đo tín hiệu phân tích của các dung dịch này ở các điểm đo khác nhau, cuối cùng là dùng các thuật tốn để tìm ra các phƣơng trình hồi quy mô tả mối quan hệ giữa tín hiệu đo với nồng độ các dạng trong dung dịch. Khi đó, với tín hiệu đo của mẫu định phân ở cùng điều kiện sẽ dự đoán đƣợc nồng độ các dạng.