1.6.2108 Lựa chọn ngẫu nhiên trên Excel các dẫn xuất flavonoid thành tập luyện, tập kiểm tra, tập ngoại trong Bảng 2.1.
Hợp chất pGCso exp pGCỉoiinear pGCsQneural ARE%|inear ARE%ncura|
fla-A2 5,92
1 5,961 5,944 0,683 0,398
tla-Aọ 5,74 5,784 5,678 0,680 1,170
Íla-Ai4 6,00
0 5,913 5,995 1,443 0,077
fla-A2i 5,79
6
5,8
11 5,680 0,268 1,993
fla-A24 5,62
0
5,7
61 5,633 2,511 0,237
fla-A28 5,56
9
5,4
49 5,543 2,152 0,459
MARE,% 1,289 0,722
3.7.2 Xây dựng mô hình PCR
1.6.2109 Trong phân tích thành phần chính có thể sử dụng nhiều biến để thiết lập mô hình QSAR [1], ở đây, chúng tôi sử dụng dữ liệu cấu trúc điện tử là điện tích 17 nguyên tử 0], C2, C3, C4, C5, CỐ, C7, Cs, C9, C10, Oil, C1-, C2’, Cy, C4’, C5’, c6> và thành phân chính PCI, PC2, PC3, ...PCn để thiết lập mô hình PCR. Mô hình hồi tuyến tính PCR được xây dựng từ ma trận thành phần chính và kĩ thuật hồi qui trên hệ thống Regress và MS-EXCEL.
1.6.2110 Mạng thần minh nhân tạo có một lớp ẩn là một trong những kiểu mạng phổ dụng vì vậy trong bài báo này chúng tôi xây dựng các mô hình mạng có 3 lớp, gồm một lớp input, một lớp ẩn và một output. Để có được mô hình mạng tối ưu, số nơron ẩn trong hai mô hình mạng sẽ được khảo sát từ 1 đến 50. Giá trị MSE từ 50 mô hình ANN và 50 mô hình PCA-ANN sẽ được so sánh để rút ra mạng tối ưu nhất ứng với MSE nhỏ nhất. Mô hình ANN và PCA - ANN được xây dựng từ các chất trong tập luyện để dự đoán hoạt tính của chất trong tập kiểm tra. Việc phân tích PCA và xây dựng các mô hình mạng thần kinh được thực hiện trên MATLAB. Kết quả từ các mô hình được so sánh với dữ liệu thực nghiệm bằng các phân tích phương sai (ANOVA) đơn yếu tó.
1.6.2111
1.6.2112 Hình 3.7 Hệ số tích lũy, phương sai của các thành phần chính
1.6.2113 Giá trị score của các thành phần chính nít ra từ phép phân tích PCA cho ma trận điện tích được đánh giá thông qua giá trị phương sai đóng góp của mỗi thành phần. Mức độ đóng góp và phương sai tích lũy cùa 17 thành phần chính được biểu diễn trên Hình 3. Đối với tám thành phần chính đầu tiên từ PCI đến PC8 có phương sai tích lũy hơn 99.99%, các thành phần còn lại từ PC9 đến PCI8 có mức độ đóng góp nhỏ không đáng kể (< 0.005%), do đó tám thành phần chính đầu tiên sẽ được sử dụng để xây dựng mô hình PCR.
1.6.2114 Từ kết quả chọn lựa các thành phần chính, chúng tôi thiết lập được mô hình hồi quy tuyến tính thể hiện mối quan hệ giữa PGI50 và các thành phần chính:
1.6.2115 pGI50 = 5.578 - 1.217*PC1 + 0.402*PC2+ 2.864*PC3 - 2.514*PC4 - 9.642*PC5.
80 70 60 50 40 30 20 10 0
Phương sai
o
Hệ số tích lũy
Ooooooooooooooo
0 5 10 15 20
100 95
90 85 80
0 5 10 15 20
với R2 = 0.919; R2adj =0.899; R2prediction = 0.787 và giá trị p value < 0.05. Các giá trị PGI50 tính từ mô hình PCR cho tập ngoại và các giá trị thống kê từ mô hình PCR trình bày trên Bảng 3.21.
3.7.3 Xây dụng mô hình ANN, PCA-ANN
1.6.2116 Từ kết quả quá trình luyện, giá trị MSE cho các mô hình ANN và PCA-ANN được biểu diễn trên Hình 3.8. Đối với mô hình ANN, két quả kiến trúc mạng thần kinh I(17)- HL(44)-O(1) ứng với 17 nơron đầu vào (điện tích nguyên tử từ 01 đến C17 trên khung phân tử), 1 nơron đầu ra pGIso, lớp ẩn gồm 44 noron (số lớp ẩn được chọn lựa úng với sai số MSE nhỏ nhất (Phụ lục 11), Hình 3.8) tối ưu nhất. Tưong tự, từ kết quả MSE, số nơron ẩn (23 nơron) cho kiểu mạng PCA-ANN cũng được chọn theo giá trị MSE nhỏ nhất (0.00217). Do đó kiến trúc mạng thần kinh cho mô hình PCA-ANN là I(8)-HL(23)-O(1), trong đó 8 nơron đầu vào (PCI đến PC8), 1 nơron đầu ra pGI50. Cả hai mô hình mạng đều sử dụng hàm truyền sigmoid, thuật toán lan truyền ngược được dùng để luyện mạng, tốc độ học 0.01; moment 0.7, vòng lặp 1000.
1.6.2117 1.6.2118
1.6.2119 Hình 3.8. Biến thiên MSE theo số noron trong lớp ẩn
1.6.2120 Mô hình ANN-I(17)-HL(44)-O(1) có R2train = 0.991, R2validation = 0.959, R2test = 0.945; mô hình PCA-ANN- I(8)-HL(23)-O(1) cho R2 train = 0.990, R2vaiidation = 0.987, R2test= 0.980.
1.6.2121 Kết quả quá trình luyện của hai mô hình trên được biểu diễn ở Hình 3.9. Các giá trị pGIso tính toán từ mô hình ANN và PCA-ANN được trình bày trong Bảng 3.21.
1.6.2122
1.6.2123
1.6.2124 Hình 3.9. Giá trị thực nghiệm và giá trị dự đoán từ quá trình luyện của hai mô hình:
1.6.2125 (a) mô hình ANN-I(17)-HL(44)-O(1), (b) PCA-ANN- I(8)-HL(23)-O(1)
1.6.2126 Các kết quả dự đoán từ ba mô hình PCR, ANN và PCA-ANN có sự trùng khớp nhau, điều này được chứng minh khi thực hiện phân tích phương sai một yếu tố ANOVA (F = 0.068 < Fcrit = 3,885). Tương tự bằng phép phân tích ANOVA một yếu tố, các giá trị dự đoán hoạt tính kháng ung thư cổ tử cung nhận được từ các mô hình PCR, ANN và PCA-ANN không có sự khác biệt so với giá trị thực nghiệm, sự sai khác không đáng kể, trong vùng sai số cho phép đo của thực nghiệm (F = 0,073 < F„it = 3,239).
1.6.2127 Bảng 3.21. Dự đoán pGIsoexpt từ ba mô hình PCR, ANN và PCA-ANN 1.6.2128 TẬP KIÊM TRA
1.6.2129 Hợp chất
1.6.2130
pGIsoex pt
1.6.2131 PCR
1.6.2132
1.6.2133 ARE%
1.6.2134 ANN
1.6.2135
1.6.2136 ARE%
1.6.2137 PC