- Tiến hành nhập ma trận nồng độ và ma trận độ hấp thụ quang của 80 mẫu chuẩn vào chương trỡnh PCA đó dựng sẵn để xõy dựng mụ hỡnh hồi quy đa biến trờn cơ sở phõn tớch cấu tử chớnh nhằm giảm kớch thước tập số liệu.
- Sau khi dựng phương phỏp ANN đỏnh giỏ sơ bộ, loại trừ cỏc mẫu mắc sai số thụ, ảnh hưởng tới kết quả quỏ trỡnh phõn tớch. Bộ số liệu học gồm ma trận nồng độ của cỏc dung dịch chuẩn chỉ cũn kớch thước 77x5 và ma trận độ hấp thụ quang cú kớch thước 77x151.
- Nhập ma trận độ hấp thụ quang của mẫu học và mẫu kiểm tra Ao (mxn) trong đú m hàng là số mẫu chuẩn bị ( m= 77+20= 97, n cột là số bước súng (n=151). - Chuẩn húa tập số liệu đầu vào: stdr = std(Ao) ;
- Chuyển tập số liệu sang 1 tọa độ mới: sr = Ao./repmat(stdr,100,1); - Tớnh toỏn cỏc giỏ trị tải trọng (loading) và trị số (score), phương sai (var)
[PCALoadings, PCAScores, PCAVar] = princomp(sr);
- Tớnh tổng giỏ trị phương sai tớch lũy trờn cỏc cấu tử:
cumsum(PCAVar./sum(PCAVar) * 100);
Sau khi tớnh toỏn vecto cột chứa giỏ trị phần trăm phương sai tớch lũy gồm 151 hàng (tương ứng với 151 bước súng) thu được như bảng 8 sau:
Bảng 8: Giỏ trị phương sai tớch lũy ứng với 151 cấu tử
Cấu tử Giỏ trị phương sai tớch lũy
1 61,0620135980013 2 94,6386206361863 3 99,4701457087665 4 99,9047763641201 5 99,9675941164431 6 99,9846263560543 7 99,9961983769519 8 99,9968829228295 9 99,9974242980017 10 99,9976864025098 11 99,9978870269475 12 99,9980840753909 13 99,9982529434438 14 99,9984155586119 15 99,9985570592987 ….. ….
Bảng 8 thực tế cú 151 cấu tử, tương ứng với 151 bước súng. Sau khi dựng PCA từ ma trận độ hấp thụ quang 97x151 về nguyờn tắc sẽ thu được 151 cấu tử (PC) nhưng kết quả cho thấy cấu tử 1 (PC1) đó chiếm 61,06% lượng thụng tin của tập dữ
liệu, nếu thờm cấu tử thứ hai (PC2) thỡ phương sai tớch lũy đó đạt 94,64%. Khi thờm một cấu tử nữa (PC3) thỡ 3 cấu tử đầu này đó chiếm 99,47% lượng thụng tin tập dữ liệu. Từ cấu tử thứ 4 trở đi lượng thụng tin thu được tăng khụng đỏng kể.
Từ kết quả trờn cho thấy, 3 cấu tử ban đầu cú ảnh hưởng chớnh tới cỏc thụng tin chứa trong tập số liệu. Bảng 16 là độ sai chuẩn tương đối RSE(%) tựy thuộc vào số cấu tử chớnh đó chọn.
Bảng 9 : Sự phụ thuộc của RSE vào số cấu tử chớnh khi phõn tớch mẫu kiểm tra
Số cấu tử (PC) 1 2 3 4 5
RSE(%) 26,86 3,14 4,00 4,20 5,07
Kết quả ở bảng 8 cho thấy nếu mụ hỡnh ANN chỉ chọn 1 cấu tử làm số nỳt lớp nhập thỡ sai số rất lớn là do cấu tử 1 chỉ chiếm khoảng 64% lượng thụng tin của tập dữ liệu ban đầu. Với lượng thụng tin đú, rất khú để thiết lập mụ hỡnh ANN phự hợp để xỏc định đồng thời cả 5 cấu tử.
Tuy nhiờn, nếu tăng số cấu tử lờn 3, 4 hoặc 5 thỡ sai số RSE tăng là do lượng thụng tin chứa trong cỏc cấu tử thứ 3, thứ 4 và thứ 5 khụng ảnh hưởng nhiều tới tập dữ liệu ban đầu trong khi kớch thước tập số liệu lại tăng, vỡ vậy chỳng tụi đó lựa chọn chỉ 2 cấu tử chớnh cho cỏc bước nghiờn cứu tiếp theo. Như vậy, tập dữ liệu ban đầu từ kớch thước 97x151 cấu tử (ma trận độ hấp thụ quang) được chuyển về kớch thước nhỏ hơn, chỉ cũn 97x2 ( ma trận trị số (score) của 97 dung dịch chuẩn và kiểm tra và 2 PC).