CHƯƠNG 3 CÁC CÁCH THỨC BIỂU DIỄN RNA
3. THỰC NGHIỆM THUẬT TỐN PHÂN LỚP HỒI QUY TUYẾN TÍNH
3.2. Biểu diễn theo tần số của một bộ các nucleotide cĩ tính thứ tự
- Sử dụng bộ 80 rule và 38 rule thu được từ thực nghiệm phương pháp luật kết hợp sử dụng thuật tốn Apriori để biểu diễn dữ liệu siRNA
- Mỗi bộ dữ liệu cĩ 2 cho tới 3 nucleotide đi kèm với vị trí xuất hiện của nĩ trong chuỗi siRNA.
- Với bộ 80 rules, mỗi chuỗi siRNA cĩ độ dài 19 nucleotide sẽ được biểu diễn bởi một vector 321 chiều. Với chiều thứ nhất là score của chuỗi siRNA, 320
chiều cịn lại biểu diễn rule xuất hiện trong chuỗi. Với những rule khơng xuất hiện sẽ được điền giá trị 0.
- Tính tốn biểu diễn dữ liệu cho các chuỗi siRNA cho các tập dữ liệu scored Dataset: Huesken_train, Huesken_test, Vicker, Reynolds, Uitei.
- Biểu diễn dữ liệu trên file arff đưa vào phần mềm Weka 3.8 để chạy thuật tốn xây dựng và đánh giá mơ hình.
- Sử dụng dữ liệu training là Huesken_train để training mơ hình với thuộc tính score (thuộc tính thứ nhất) là mục tiêu.
- Kết quả xây dựng mơ hình khi chạy bằng Weka 3.8 trên tập Huesken_train cho bộ 80 rules:
=== Cross-validation === === Summary ===
Correlation coefficient 0.2482 Mean absolute error 0.156 Root mean squared error 0.1939 Relative absolute error 96.2278 % Root relative squared error 97.104 % Total Number of Instances 2182
- Kết quả xây dựng mơ hình khi chạy bằng Weka 3.8 trên tập Huesken_train cho bộ 38 rules
=== Cross-validation === === Summary ===
Correlation coefficient 0.1626 Mean absolute error 0.1595 Root mean squared error 0.1975 Relative absolute error 98.3752 % Root relative squared error 98.8776 % Total Number of Instances 2182
Kết quả supplied test trên các tập dữ liệu cịn lại, chỉ thống kê Correlation coefficient (hệ số tương quan)
Huesken19_train Huesken19_test Reynolds Utei Vicker
Bộ 80
rules 0.2482 0.214 0.0695 0.2548 0.1529
Bộ 38
rules 0.1626 0.115 0.1043 0.1219 0.1103