Kết quả thực nghiệm trên hai bộ dữ liệu lớn PatternHunterII và BFAST được cho trong bảng 5.3, còn kết quả trên bộ dữ liệu MegaBFAST được cho trong bảng 5.4. Ý nghĩa biểu thị trong các cột như đã nêu ở trên. Các kết quả của SpEED và SpEEDfast được lấy trong [51].
110
Bảng 5.3: Kết quả thực nghiệm so sánh AcoSeeD với các phương pháp trên bộ dữ liệu lớn PatternHunterII và BFAST
Mandala Iedera SpEED SpEEDfast AcoSeeD
best worst avg
PatternHunterII: 16 hạt giống, = 64 11 0.7 92.3811 92.0708 93.2526 93.3406 93.3608 93.3154 93.3576 0.75 98.432 98.3391 98.6882 98.7156 98.7346 98.7101 98.7205 0.8 99.8448 99.8366 99.882 99.8859 99.8875 99.884 99.8852 BFAST: 10 hạt giống, = 50 22
0.85 chạy được Không 60.1535 60.8127 60.9329 61.0258 60.927 60.9797
0.9 chạy được Không 87.9894 88.5969 88.7120 88.8504 88.8102 88.8287
0.95 chạy được Không 99.2196 99.3659 99.3959 99.4046 99.3988 99.4025
Bảng 5.4: So sánh AcoSeeD với SpEEDfast trên bộ dữ liệu lớn MegaBFAST
Method 28 100 0.9 SpEEDfast 69.3241 79.6629 87.5674 92.7762 95.9170 AcoSeeD 69.4522 80.6561 88.5098 93.5635 96.5560 28 150 0.9 SpEEDfast 87.6426 93.4308 97.0118 98.7430 99.5137 AcoSeeD 87.6571 94.0766 97.5303 99.0520 99.6605 28 200 0.9 SpEEDfast 94.9876 97.8936 99.2937 99.7877 99.9409 AcoSeeD 94.9606 98.2302 99.4766 99.8588 99.9648
Nhận xét: Kết quả thực nghiệm trong các bảng trên cho thấy AcoSeeD tốt hơn SpEED và SpEEDfast trong hầu hết các trường hợp (trừ một test
111
). AcoSeeD đã tìm được các tập hạt giống mới có độ nhạy cao hơn SpEEDfast tìm được.
5.4. Kết luận chương
Trên đây, luận án đề xuất thuật toán AcoSeeD tìm tập hạt giống tối ưu dùng trong tìm kiếm tương đồng của các chuỗi sinh học. Kết quả thực nghiệm cho thấy AcoSeeD tốt hơn phương pháp tốt nhất hiện nay SpEED, SpEEDfast. Nói riêng AcoSeeD đã tìm được các tập hạt giống mới có độ nhạy cao hơn hẳn tập hạt giống mà SpEEDfast tìm được công bố năm 2012. Thông qua thuật toán AcoSeeD, chúng tôi cũng giới thiệu cách sử dụng tìm kiếm cục bộ bằng hàm mục tiêu xấp xỉ nhanh thay cho hàm mục tiêu chính trong ACO. Nhờ cách kết hợp linh hoạt này mà thời gian chạy cho tìm kiếm cục bộ giảm đáng kể mà vẫn cho kết quả tốt.
112
Chương 6. ỨNG DỤNG PHƯƠNG PHÁP ACO CẢI TIẾN HIỆU QUẢ DỰ ĐOÁN HOẠT ĐỘNG ĐIỀU TIẾT GEN
Kể từ khi Watson và Crick phát hiện cấu trúc của DNA (DeDeoxyribonucleic Acid), đến nay, người ta đã có những thành tựu quan trọng trong di truyền học. Tuy nhiên, việc giải mã hoạt động điều tiết gen vẫn còn nhiều thách thức. Trong chương này, luận án đề xuất thuật toán ACO [23] và thuật toán di truyền [26] để tìm tham số cho SVM (Support Vector Machine - SVM) được dùng để dự đoán điều tiết gen từ mối liên kết các yếu tố phiên mã (Transcriptional Factors - TFs). Thực nghiệm trên dữ liệu thực chỉ ra rằng các tham số cho SVM tìm được bằng thuật toán ACO này đã cải tiến được 10% khả năng dự đoán so với cách tiếp cận tìm kiếm dựa trên lưới truyền thống và tốt hơn thuật toán di truyền.