3.1 THĂM DÒ PHƯƠNG PHÁP
3.1.3 Mô hình tuyến tính
1.6.913 Trong quá trình xây dựng mô hình hồi quy tuyến tính, dạng biến phụ thuộc Y cũng có thể ảnh hưởng đến chất lượng mô hình, cần khảo sát các kiểu chuyển dạng của giá trị GI50, I/GI50 và pGIso = -log(GIso) kết quả khảo sát ảnh hưởng của dạng biết phụ thuộc dựa trên giá trị R2iuyện cho ở Bảng 3.3.
1.6.914 Bảng 3.3 Ảnh hưởng của loại biến độc lập đến giá trị R2iuyện 1.6.915 Biến độc lập (X) 1.6.916 Biên phụ thuộc (Y)
1.6.918 GEoexp 1/ GlsOexp
1.6.919
pGIsOexp
1.6.920 Điện tích nguyên tủ' (QESARiinear) Độ dịch chuyển hóa học (QSDARiinear)
1.6.921 0,921 0,774 1.6.922 0,906
1.6.923 0,938 1.6.924 không lặp cho thây: các dạng biến phụ thuộc ảnh hưởng đến giá trị R2iuyộn (Ftt = 4,118 > F0)05 = 2,134) như vậy có thể chọn dạng biến phụ thuộc là pGIso cho R2iuyện cao để xây dựng mô hình.
4 9
1.6.926 Chọn số biến số
1.6.927 o 1.6.928
1.6.929
1.6.930 23456789
10
1.6.931k
1.6.932 Hình 3.2 Ảnh hưởng của k đến R2iuyện Sự thay đối sô biên sô trong mô hình cũng có thể tác động đến giá trị hồi quy R2 khi xây dựng mô eác mô hình tuyến tính và mạng thần kinh, kết quả khảo sát cho ở Bảng 3.4, Hình 3.2, theo đó ta chọn lựa khoảng số biến số (k) từ 5 đến 7 là phù hợp vì R2 uyên cao và ổn định.
1.6.933 , X 1 . X ,x■ -2 1.6.934 Bảng 3.4 Anh hường cùa sô biên độc lập đên giá trị R luyên
1.6.935 K 2
1.6.936 3
1.6.937 4
1.6.938 5
1.6.939 6
1.6.940 7
1.6.941 8
1.6.942 9
1.6.943 1.6.944 R2luvén 10
0,327
1.6.945 0,484
1.6.946 0,636
1.6.947 0,802
1.6.948 0,861
1.6.949 0,906
1.6.950 0,909
1.6.951 0,921
1.6.952 0,921 1.6.953 3.1.4 Mạng thần kinh nhân tạo1.6.954
3.1.4.1 Chọn số ỉớp ẩn
1.6.955 I<ết quả thăm dò ảnh hưởng của số lóp ẩn đến giá trị R2 luyện, cấu trúc mạng sử dụng 1(6) - HL(m) - 0(1), 1(7) - HL(ằỉ) - 0(1) giỏ trị m thay đổi từ 1- 6 kết quả ở Bảng 3.5.
1.6.956 1 t . 7 ti • r 9
1.6.957Bảng 3.5 Anh hưởng củalóp ân đên giá trị R luyện
1.6.958 m 1.6.959 1 1.6.960 2 1.6.961 3 1.6.962 4 1.6.963 5 1.6.964 6 1.6.965 QESAR
„eurai QSDARneurai
1.6.966 95 ,569 1.6.967 92
1.6.968 90 ,480 1.6.969 93
,392
1.6.970 88 ,374 1.6.971 93
,121
1.6.972 89 ,146 1.6.973 93
,417
1.6.974 88 ,928 1.6.975 92
,572
1.6.976 88 ,398 1.6.977 92 1.6.978 Phân tích ANOVA một yếu tố nhận thấy cấu trúc mạng với số nút của lớp ẩn thay đổi,228 không ảnh hưởng đến giá trị R2iuyện (F = 0,0335<F0I05= 2,7729).
1.6.979
1.6.980 Kết quả khảo sầt chọn lựa số lóp ẩn là 1 để xây dựng mô hình, hơn nữa các mạng có hai lớp ẩn có thể hiện các hàm với dáng điệu bất kỳ, nên về mặt lý thuyết không có lý do nào cần sử dụng nhiều hơn hai lớp ẩn. Một số nghiên cứu đã chỉ ra rằng đối với phần lớn các bài toán cụ thể, chỉ cần sử dụng một lớp ẩn cho quá trình luyện mạng.
1.6.981 3.1.4.2 Chọn số nút trên mỗi lóp ẩn
1.6.982 Kết quả khảo sát ảnh hường của sự tăng số núttrên mỗi lớp ẩn đến giá trị R2iuyện cho ở Bảng 3.6 chọn cấu trúc một nút trên lớp ẩn để luyện mạng với R2iuyện= 0,905 cao hơn cả.
1.6.983 í , Ấ t 4.Ẩ • r ' T* 2 A 2
1.6.984Bảng 3.6 Anh hưởng của câu trúc mạng đên giá trị R luyện và R thừ 1.6.985 Số lớp
ẩn 1.6.986 Cấu trúc mạng 1.6.987p2
1.6.988luyệ
1.6.989R2t
1.6.990 hừ
1 1.6.991 1(6) - HL(2) - 0(1) 1.6.992
0,905
1.6.993 0,837 1.6.994
2
1.6.995 ■ 1(6) - HL(2) - HL(2) - 0(1) 1.6.996 0,863
1.6.997 0,888 1.6.998
3
1.6.999 1(6) - HL(2) - HL(2) - HL(2)- 0(1)
1.6.1000 -0,23
1.6.1001 -0,017 1.6.1002
1
1.6.1003 1(7) - HL(2) - 0(1) 1.6.1004 0,924
1.6.1005 0,800 1.6.1006
2 1.6.1007 1(7) - HL(2) - HL(2) - 0(1) 1.6.1008
0,853 1.6.1009 -0,021 1.6.1010
3
1.6.1011 1(7) - HL(2) - HL(2) - HL(2)- 0(1)
1.6.1012 -0,292
1.6.1013 -0,285 1.6.10141.6.10153.1.4.3. Chọn hàm truyền
1.6.1016 Để xác định loại hàm truyền cho quá trình, luyện mạng, chúng tôi khảo sát ảnh hưởng của loại hàm truyền đến giá trị R2iuyện và R2thử kết quả cho trong Bảng 3.7
1.6.1017 Phân tích ANOVA cho thấy loại hàm truyền có (Ftt = 1,104 < F0,05 = 5,050) không ảnh hưởng đến giá trị R2iuyện- Hàm truyền Sigmoid cho giá trị R2|Uyện cao nên sẽ chọn làm hàm truyền cho quá trình luyện mạng với mục đích làm giảm mức độ phức tạp của các tính toán.
1.6.1018 Bảng 3.7 Ảnh hưởng của hàm truyền đến giá trị R2iuyện và R2thừ
1.6.1019
1.6.1020 TỊ 2 luyện 1.6.1021 R2fhừ
1.6.1022 Biế n độc lập (R)
1.6.1023 H àm truyền (C)
1.6.1024 1.6.1025 Hàm truyền
1.6.1026 1.6.1027 1.6.1028 Linear
Sigmoid
1.6.1029 Tanh
1.6.1030 Linear Sigmoid
1.6.1031 1.6.1032 QE Tanh
SAR(k=6)
1.6.1033 QS
1.6.1034 -3,443 0,905 1.6.1035 -2,577
1.6.1036 0,858 1.6.1037
1.6.1038 -1,660 0,837 1.6.1039 -73,746
1.6.1040 0,885 1.6.1041 1.6.10421.6.10433.1.4.4 Chọn moment và mức độ sai số luyện
1.6.1044
1.6.1045 Kết quả khảo sát ảnh hưởng của moment và sai số luyện mạng đên giá trị R2luyện và R2thừ được cho ở Bảng 3.8.
1.6.1046 Bảng 3.8 Ảnh hường của moment và sai số luyện đến R2i„vên
1.6.1047 Giá trị moment của mô hình QESARneurai ứng với k = 6
1.6.1048 0,1 0,2 0,3 0,4 0,5 0,6 Õ>7 0,8 0,9 1
1.6.1049
p2 ** luyện 1.6.1050 0,917 0,908 0,909 0,909 0,907 0,956 0,905 0,911
0,870 0,907 1.6.1051
R2thử
1.6.1052 0,808 0,814 0,819 0,825 0,831 0,837 0,837 0,817 0,884 0,831
1.6.1053
1.6.1054 Mức độ sai số luyện của mô hình QESARneurai ứng với k = 6 1.6.1055 1.6.1056
0,000001
1.6.1057 0,00001
1.6.1058 0,0001
1.6.1059 0,001
1.6.1060 0,01
1.6.1061 1.6.1062 0,1
p2 luyện 1.6.1063
0,905
1.6.1064 0,905
1.6.1065 0,956
1.6.1066 0,905
1.6.1067 0,869
1.6.1068 -0,079 1.6.1069
R2thừ
1.6.1070 0,837
1.6.1071 0,837
1.6.1072 0,837
1.6.1073 0,836
1.6.1074 0,848
1.6.1075 1.6.1076 Kết quả phân tích phương sai hai yếu tố không lặp cho thấy các giá trị moment không-
ảnh hường đến kết quả luyện mạng (F = 0,013 < F0;05 = 3,020), các mức độ sai số luyện ảnh hưởng đến kết quả luyện mạng (F = 11,736 > F0;05 = 3,084), chọn sai số luyện 0,0001 ứng với giá trị R2iuyện = 0,905 và R2thử = 0,837 vì nếu chọn mức độ sai số luyện nhỏ hơn cũng không làm tăng R2iuyệnVà R2thừhơn nữa các tính toán lại tốn quá nhiều thời gian và dung lượng đĩa.
1.6.1077 3.1.4.5 Chọn số vòng lặp, giải thuật lan truyền và tốc độ học
1.6.1078 Chọn vòng lặp để cải thiện mô hình mạng thần kinh, kết quả khảo sát về ảnh hưởng của cấu trúc mạng và số vòng lặp trên giá trị R2 luyện, được dẫn ra ở phụ lục 3 với yếu tố A = cấu trúc mạng, yếu tố B = số vòng luyện.
1.6.1079 Phân tích ANOVA cho thấy số vòng luyện ảnh hưỏng đến giá trị R2iuyện (FB = 4,144 >
F0I05 = 1,1462. Chọn số vòng lặp là 10000 cho quá trình luyện mạng, đây là số vòng lặp có giá trị R2 luyện cao, ổn định, sai số nhỏ hơn.
1.6.1080 Chọn giải thuật lan truyền ngược cho quá trình luyện để tính đạo hàm của hàm lỗi (tổng của tất cả các lỗi tại mỗi mẫu) nhằm giảm thiểu sai số cho quá trình luyện mạng.Sự thay đổi tham số tốc độ học (learning_rate) cũng ảnh hưởng hiệu suất của mạng đối với số vòng lặp xác định. Giá trị tham số này càng nhỏ thì mạng hiệu chỉnh trọng số càng chậm. Nhưng muốn đạt đến trạng thái tối ưu thì ta phải tăng số vòng lặp nhiều hơn ở đây chúng tôi chọn tốc độ học 0,7 do mạng thần kinh điều chỉnh cho mô hình xây dựng là tốt nhất.
1.6.1081 Từ cốc kết quả thăm dò trên rút ra kết luận 1.6.1082 . Biến phụ thuộc là pGI5o
- Biến độc lập là điện tích nguyên tử và độ dịch chuyển hóa học - Số biến số trong các mô hình từ 5 đến 7
- Hàm truyền Sỉgmoỉd
- Số lớp ẩn là 1, số nút trên mỗi lớp ẩn là 1 - Moment bằng 0,7
- Mức độ sai số luyện bằng 0,0001 - Số vòng lặp bằng 10000