CHƯƠNG 3 CÁC CÁCH THỨC BIỂU DIỄN RNA
3. THỰC NGHIỆM THUẬT TỐN PHÂN LỚP HỒI QUY TUYẾN TÍNH
3.3. Phương pháp biểu diễn DNA khơng suy thối
- Mỗi chuỗi siRNA độ dài 19 nucleotide sẽ được biểu diễn bởi một vector 39 chiều. Chiều thứ nhất là giá trị score của chuỗi siRNA đĩ, 38 chiều cịn lại là biểu diễn DNA khơng suy thối.
- Tính tốn biểu diễn dữ liệu cho các chuỗi siRNA cho các tập dữ liệu scored Dataset: Huesken_train, Huesken_test, Vicker, Reynolds, Uitei.
- Biểu diễn dữ liệu trên file arff đưa vào phần mềm Weka 3.8 để chạy thuật tốn xây dựng và đánh giá mơ hình.
- Sử dụng dữ liệu training là Huesken_train để training mơ hình với thuộc tính score (thuộc tính thứ nhất) là mục tiêu.
- Kết quả xây dựng mơ hình khi chạy bằng Weka 3.8 trên tập Huesken_train === Cross-validation ===
=== Summary ===
Correlation coefficient 0.6031 Mean absolute error 0.1268 Root mean squared error 0.1593 Relative absolute error 78.2349 % Root relative squared error 79.7662 % Total Number of Instances 2182
Kết quả supplied test trên các tập dữ liệu cịn lại, chỉ thống kê Correlation coefficient (hệ số tương quan)
Huesken19_train Huesken19_test Reynolds Utei Vicker
0.6031 N/A 0.5377 0.6205 0.588
3.4. VOSS
- Mỗi chuỗi siRNA độ dài 19 nucleotide sẽ được biểu diễn bởi một vector 77 chiều. Chiều thứ nhất là giá trị score của chuỗi siRNA đĩ, 76 chiều cịn lại là biểu diễn VOSS.
- Tính tốn biểu diễn dữ liệu cho các chuỗi siRNA cho các tập dữ liệu scored Dataset: Huesken_train, Huesken_test, Vicker, Reynolds, Uitei và ghi các biểu diễn ra file arff.
- Sử dụng dữ liệu training là Huesken_train để training mơ hình với thuộc tính score (thuộc tính thứ nhất) là mục tiêu.
- Kết quả xây dựng mơ hình khi chạy bằng Weka 3.8 trên tập Huesken_train === Cross-validation ===
=== Summary ===
Correlation coefficient 0.6024 Mean absolute error 0.1271 Root mean squared error 0.1595 Relative absolute error 78.4031 % Root relative squared error 79.8555 % Total Number of Instances 2182
Kết quả supplied test trên các tập dữ liệu cịn lại, chỉ thống kê Correlation coefficient (hệ số tương quan)
Huesken19_train Huesken19_test Reynolds Utei Vicker
3.5. TETRAHEDRON
- Mỗi chuỗi siRNA độ dài 19 nucleotide sẽ được biểu diễn bởi một vector 77 chiều. Chiều thứ nhất là giá trị score của chuỗi siRNA đĩ, 76 chiều cịn lại là biểu diễn TETRAHEDRON.
- Tính tốn biểu diễn dữ liệu cho các chuỗi siRNA cho các tập dữ liệu scored Dataset: Huesken_train, Huesken_test, Vicker, Reynolds, Uitei và ghi các biểu diễn ra file arff.
- Sử dụng dữ liệu training là Huesken_train để training mơ hình với thuộc tính score (thuộc tính thứ nhất) là mục tiêu.
- Kết quả xây dựng mơ hình khi chạy bằng Weka 3.8 trên tập Huesken_train === Cross-validation ===
=== Summary ===
Correlation coefficient 0.6047 Mean absolute error 0.1267 Root mean squared error 0.1591 Relative absolute error 78.1187 % Root relative squared error 79.6736 % Total Number of Instances 2182
Kết quả supplied test trên các tập dữ liệu cịn lại, chỉ thống kê Correlation coefficient (hệ số tương quan)
Huesken19_train Huesken19_test Reynolds Utei Vicker
0.6047 0.6218 0.5471 0.6355 0.5681
3.6. INTEGER
- Mỗi chuỗi siRNA độ dài 19 nucleotide sẽ được biểu diễn bởi một vector 77 chiều. Chiều thứ nhất là giá trị score của chuỗi siRNA đĩ, 76 chiều cịn lại là biểu diễn INTEGER.
- Tính tốn biểu diễn dữ liệu cho các chuỗi siRNA cho các tập dữ liệu scored Dataset: Huesken_train, Huesken_test, Vicker, Reynolds, Uitei và ghi các biểu diễn ra file arff.
- Sử dụng dữ liệu training là Huesken_train để training mơ hình với thuộc tính score (thuộc tính thứ nhất) là mục tiêu.
- Kết quả xây dựng mơ hình khi chạy bằng Weka 3.8 trên tập Huesken_train === Cross-validation ===
=== Summary ===
Correlation coefficient 0.3663 Mean absolute error 0.1477 Root mean squared error 0.1858 Relative absolute error 91.1151 % Root relative squared error 93.0365 % Total Number of Instances 2182
Kết quả supplied test trên các tập dữ liệu cịn lại, chỉ thống kê Correlation coefficient (hệ số tương quan)
Huesken19_train Huesken19_test Reynolds Utei Vicker
0.3663 0.451 0.2993 0.2101 0.381
3.7. REAL
- Mỗi chuỗi siRNA độ dài 19 nucleotide sẽ được biểu diễn bởi một vector 77 chiều. Chiều thứ nhất là giá trị score của chuỗi siRNA đĩ, 76 chiều cịn lại là biểu diễn REAL.
- Tính tốn biểu diễn dữ liệu cho các chuỗi siRNA cho các tập dữ liệu scored Dataset: Huesken_train, Huesken_test, Vicker, Reynolds, Uitei và ghi các biểu diễn ra file arff.
- Sử dụng dữ liệu training là Huesken_train để training mơ hình với thuộc tính score (thuộc tính thứ nhất) là mục tiêu.
- Kết quả xây dựng mơ hình khi chạy bằng Weka 3.8 trên tập Huesken_train === Cross-validation ===
=== Summary ===
Correlation coefficient 0.218 Mean absolute error 0.1559 Root mean squared error 0.195 Relative absolute error 96.1335 % Root relative squared error 97.6288 % Total Number of Instances 2182
Kết quả supplied test trên các tập dữ liệu cịn lại, chỉ thống kê Correlation coefficient (hệ số tương quan)
Huesken19_train Huesken19_test Reynolds Utei Vicker
0.218 0.2514 0.2036 0.0219 0.0846
3.8. EIIP
- Mỗi chuỗi siRNA độ dài 19 nucleotide sẽ được biểu diễn bởi một vector 77 chiều. Chiều thứ nhất là giá trị score của chuỗi siRNA đĩ, 76 chiều cịn lại là biểu diễn EIIP.
- Tính tốn biểu diễn dữ liệu cho các chuỗi siRNA cho các tập dữ liệu scored Dataset: Huesken_train, Huesken_test, Vicker, Reynolds, Uitei và ghi các biểu diễn ra file arff.
- Sử dụng dữ liệu training là Huesken_train để training mơ hình với thuộc tính score (thuộc tính thứ nhất) là mục tiêu.
- Kết quả xây dựng mơ hình khi chạy bằng Weka 3.8 trên tập Huesken_train === Cross-validation ===
=== Summary ===
Correlation coefficient 0.3277 Mean absolute error 0.1504 Root mean squared error 0.1887
Relative absolute error 92.7591 % Root relative squared error 94.4762 % Total Number of Instances 2182
Kết quả supplied test trên các tập dữ liệu cịn lại, chỉ thống kê Correlation coefficient (hệ số tương quan)
Huesken19_train Huesken19_test Reynolds Utei Vicker
0.3277 0.405 0.2414 0.2569 0.2958
3.9. ATOMIC
- Mỗi chuỗi siRNA độ dài 19 nucleotide sẽ được biểu diễn bởi một vector 77 chiều. Chiều thứ nhất là giá trị score của chuỗi siRNA đĩ, 76 chiều cịn lại là biểu diễn ATOMIC.
- Tính tốn biểu diễn dữ liệu cho các chuỗi siRNA cho các tập dữ liệu scored Dataset: Huesken_train, Huesken_test, Vicker, Reynolds, Uitei và ghi các biểu diễn ra file arff.
- Sử dụng dữ liệu training là Huesken_train để training mơ hình với thuộc tính score (thuộc tính thứ nhất) là mục tiêu.
- Kết quả xây dựng mơ hình khi chạy bằng Weka 3.8 trên tập Huesken_train === Cross-validation ===
=== Summary ===
Correlation coefficient 0.1427 Mean absolute error 0.1592 Root mean squared error 0.1978 Relative absolute error 98.1929 % Root relative squared error 99.0446 % Total Number of Instances 2182
Kết quả supplied test trên các tập dữ liệu cịn lại, chỉ thống kê Correlation coefficient (hệ số tương quan)
Huesken19_train Huesken19_test Reynolds Utei Vicker
0.1427 0.1125 0.127 0.1659 0.1081
3.10. DNA WALKER
- Mỗi chuỗi siRNA độ dài 19 nucleotide sẽ được biểu diễn bởi một vector 77 chiều. Chiều thứ nhất là giá trị score của chuỗi siRNA đĩ, 76 chiều cịn lại là biểu diễn DNA WALKER.
- Tính tốn biểu diễn dữ liệu cho các chuỗi siRNA cho các tập dữ liệu scored Dataset: Huesken_train, Huesken_test, Vicker, Reynolds, Uitei và ghi các biểu diễn ra file arff.
- Sử dụng dữ liệu training là Huesken_train để training mơ hình với thuộc tính score (thuộc tính thứ nhất) là mục tiêu.
- Kết quả xây dựng mơ hình khi chạy bằng Weka 3.8 trên tập Huesken_train === Cross-validation ===
=== Summary ===
Correlation coefficient 0.341 Mean absolute error 0.1525 Root mean squared error 0.1878 Relative absolute error 94.065 % Root relative squared error 94.0161 % Total Number of Instances 218
Kết quả supplied test trên các tập dữ liệu cịn lại, chỉ thống kê Correlation coefficient (hệ số tương quan)
Huesken19_train Huesken19_test Reynolds Utei Vicker