Phương phỏp phõn tớch thành phần chớnh (PCA).[24,15]

Một phần của tài liệu hợp chất ứng dụng trong phân tích trắc quang (Trang 25 - 28)

* Khỏi niệm

Phõn tớch thành phần (cấu tử) chớnh là cụng cụ hữu hiệu cho phộp giảm số biến trong tập số liệu từ tập số liệu đa chiều bằng cỏch tỡm ra giỏ trị phương sai lớn nhất với số cấu tử chớnh (PC) hay cỏc biến ảo ớt nhất.

PCA là thuật toỏn đa biến dựa trờn việc quay cỏc trục số liệu chứa cỏc biến tối ưu. Khi đú, một tập hợp cỏc biến liờn quan với nhau được chuyển thành tập hợp cỏc biến khụng liờn quan và được sắp xếp theo thứ tự giảm độ biến thiờn hay phương sai. Những biến khụng liờn quan này là sự kết hợp tuyến tớnh cỏc biến ban đầu. Dựa trờn phương sai do mỗi biến mới gõy ra cú thể loại bỏ bớt cỏc biến phớa cuối dóy mà chỉ mất ớt nhất thụng tin về cỏc số liệu thực

ban đầu. Bằng cỏch này sẽ giảm được kớch thước của tập số liệu trong khi vẫn cú thể giữ nguyờn thụng tin.

*Thuật toỏn PCA.

Phương phỏp này sẽ thiết lập 1 tập biến mới, được gọi là cỏc cấu tử chớnh. Mỗi cấu tử chớnh là 1 sự kết hợp tuyến tớnh của cỏc biến chung. Tất cả cỏc cấu tử chớnh đều trực giao với nhau và khụng làm giảm đi lượng thụng tin cú trong tập dữ liệu. Cỏc cấu tử chớnh đú coi như 1 dạng trực giao cơ sở của khụng gian dữ liệu.

- Cấu tử chớnh thứ nhất là 1 trục tọa độ trong khụng gian, sao cho chứa nhiều thụng tin của cỏc biến nhất.

Hỡnh 7: Đồ thị biểu diễn sự dịch chuyển cỏc biến sang trục đầu tiờn

Khi chiếu mỗi biến cũ lờn hệ tọa độ đú trước tiờn sẽ hỡnh thành 1 biến mới (PC1) hay trục thứ nhất, đú là giỏ trị riờng lớn nhất của cỏc biến ảo (cỏc PC). Cấu tử thứ 2 hay một 1 trục tọa độ khỏc trong khụng gian (PC2), vuụng gúc với cấu tử thứ nhất. Quỏ trỡnh chiếu cỏc biến lờn trục tọa độ này sẽ tạo ra cỏc giỏ trị mới.

Hỡnh 8: Đồ thị biểu diễn sự dịch chuyển cỏc biến sang trục thứ 2

- Nếu tập dữ liệu cú k biến thỡ hệ tọa độ mới cũng cú k chiều (k PC). Tập dữ liệu đầy đủ của cỏc cấu tử này cũng chứa lượng thụng tin giống như cỏc giỏ trị của

tập dữ liệu cũ, nhưng 80% thụng tin tập trung vào cỏc PC đầu tiờn. Kớch thước của tập dữ liệu được giảm bằng cỏch kiểm tra cỏc yếu tố ảnh hưởng chớnh tới tập dữ liệu ban đầu. Thụng thường, chỉ cú 3, 4PC đầu là chứa nhiều thụng tin ảnh hưởng đến kết quả của tập dữ liệu ban đầu.

Khi phõn tớch cấu tử chớnh (là quỏ trỡnh chiếu cỏc biến ban đầu lờn 1 hệ trục tọa độ mới phự hợp), cỏc giỏ trị mới thu được là:

PCALoading: là hệ số gúc của hệ trục tọa độ cũ so với hệ trục tọa độ mới. PCAScore: là cỏc giỏ trị của dữ liệu ban đầu chiếu lờn hệ trục tọa độ mới. Đõy là cỏc giỏ trị mang thụng tin của tập dữ liệu, được sử dụng để làm dữ liệu đầu vào trong cỏc phộp phõn tớch tiếp theo.

PCAVar: là phương sai tớch lũy của cỏc biến mới so với cỏc biến ban đầu. Dựa vào PCAVar để đỏnh giỏ lượng thụng tin chứa trong mỗi PC.

PCALoading PCAScore

PCAVar

Hỡnh 9: Giỏ trị PCALoading, PCAScore, PCAVar thu được khi chiếu lờn cỏc trục

*Ứng dụng của PCA

- Giảm kớch thước tập số liệu, từ biểu diễn n chiều trong khụng gian thành biểu diễn hai hoặc 3 chiều với số biến cú ảnh hưởng chớnh đến tập số liệu.

- Loại bỏ sự đa cộng tớnh giữa cỏc biến trong việc xõy dựng phương trỡnh hồi qui biểu diễn sự phụ thuộc của tớn hiệu phõn tớch vào cỏc biến là nồng độ cỏc cấu tử trong hệ. Phương phỏp này cú tờn gọi là hồi qui cấu tử chớnh.

- Từ tập số liệu với n biến ban đầu cú liờn quan mật thiết với nhau, sau khi giảm thành p biến khụng liờn quan thỡ trị riờng của chỳng cú thể sử dụng làm số liệu đầu vào của phương phỏp hồi qui kết hợp với mạng noron nhõn tạo giải bài toỏn phõn tớch đồng thời cỏc cấu tử trong hệ cú tương tỏc khụng cộng tớnh.

Tuy nhiờn PCA đơn thuần là phương phỏp toỏn học nờn cỏc kết quả thu được bị ảnh hưởng rất lớn bởi tập số liệu ban đầu vỡ vậy cần kết hợp với những kiến thức chuyờn ngành khỏc nếu khụng sẽ dẫn đến những giải nghĩa sai lệch.

Một phần của tài liệu hợp chất ứng dụng trong phân tích trắc quang (Trang 25 - 28)