CHƯƠNG IV. KẾT QUẢ THỰC NGHIỆM
4.2. So sánh các kết quả thực nghiệm
4.2.2. So sánh kết quả với hai thuật toán cập nhật mùi khác nhau
Dưới đây giới thiệu kết quả thực nghiệm so sánh hai phương pháp MMAS và SMMAS với 3 bộ dữ liệu rnd_30_60, evo_50_250 và ms_50_250.
Với 3 bộ thực nghiệm và mỗi bộ thực nghiệm có 5 giá trị của tập nguồn k = {5, 6, 7, 8, 9, 10}, mỗi một giá trị của tập nguồn luận văn thực hiện chạy 5 lần, và chọn ra kết quả trung bình và kết quả tốt nhất của các lần chạy.
Kết quả của các phương pháp với từng bộ dữ liệu nằm trong ô giao giữa cột và dòng tương ứng, trong đó số ở trên biểu thị kết quả trung bình, hai số ở dưới lần lượt là kết quả tốt nhất và kết quả tồi nhất trong các lần chạy. Kết quả trung bình phản ánh chất lượng của thuật toán, còn các kết quả tốt nhất và tồi nhất để tham khảo về tính khám phá của nó. Các kết quả được tô đậm là kết quả tốt nhất trong 3 phương pháp.
Bảng 4.4. Kết quả thực nghiệm so sánh hai phương pháp MMAS và SMMAS với bộ dữ liệu rnd_30_60
Chuỗi nguồn (k) MMAS SMMAS
5 428.3 415.6
422 435 415 420
6 374.5 369.3
370 378 369 374
7 336.7 335.2
336 345 335 340
8 316.5 314.2
314 318 314 315
9 296.7 294.7
294 299 292 296
10 276.2 274.3
273 284 273 283
Bảng 4.5. Kết quả thực nghiệm so sánh ba phương pháp ACS, MMAS và SMMAS với bộ dữ liệu evo_50_250
Chuỗi nguồn (k) MMAS SMMAS
5 1296.6 1296.2
1296 1303 1295 1301
6 879.6 877
878 883 877 877
7 610.6 608.1
609 613 608 612
8 435.2 429.5
430 436 429 432
9 327.2 321.8
324 336 320 328
10 278.7 273.2
273 285 270 283
Bảng 4.6. Kết quả thực nghiệm so sánh ba phương pháp ACS, MMAS và SMMAS với bộ dữ liệu ms_50_250
Chuỗi nguồn (k) MMAS SMMAS
5 1306.7 1296.7
1296 1311 1294 1308
6 880.3 877.6
876 883 873 881
7 610 608.2
607 612 605 611
8 436.2 429.8
429 441 426 431
9 327.4 320.1
320 333 319 324
10 287.4 281.3
281 288 280 283
Nhận xét:
So sánh kết quả trung bình. Thực nghiệm trên bộ dữ liệu nhỏ nhất của bộ dữ liệu random và hai bộ dữ liệu lớn nhất của bộ dữ liệu chuẩn cùng với 5 tập nguồn k
={5,6,7,8,9,10} thì nhận thấy SMMAS cho kết quả trung bình là tốt nhất.
Kết quả tốt nhất. Trong cùng bộ dữ liệu nhưng với số tập nguồn là khác nhau, thuật toán SMMAS vẫn cho kết quả tốt hơn MMAS và cả hai thuật toán đều cho kết quả tối ưu hơn thuật toán RecBlock.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN
Bài toán cấu trúc chuỗi nguồn là một bài toán lớn và có ý nghĩa trong sinh học, nó giúp chúng ta giải thích được các thông tin di truyền và tìm ra được các thông tin di truyền của tổ tiên, cũng như sự gần gũi giữa các loài với nhau.
Trong luận văn, chúng tôi đã khảo cứu và cài đặt lại thuật toán RecBlock và dựa trên ý tưởng của RecBlock chúng tôi đã đề xuất thuật toán mới đó là ACO để giải quyết bài toán. Sử dụng với hai quy tắc cập nhật mùi khác nhau. So sánh thực nghiệm giữa các quy tắc cập nhật mùi và chỉ ra quy tắc cập nhật mùi Max – Min trơn (SMMAS) là tốt nhất với bài toán cấu trúc chuỗi nguồn.
So sánh thực nghiệm với thuật toán RecBlock, cho thấy sử dụng thông tin heuristic của thuật toán RecBlock đưa vào thuật toán ACO cho ra kết quả tốt hơn rất nhiều.
HƯỚNG PHÁT TRIỂN
Luận văn đã đề xuất được thuật toán ACO để giải bài toán cấu trúc chuỗi nguồn và cho ra lời giải tối ưu. Tuy nhiên với những bài toán có số tập nguồn và số tái tổ hợp có độ dài lớn thì thuật toán chưa giải quyết được. Trong tương lai sẽ nghiên cứu áp dụng vào các kỹ thuật trình độ cao hơn để giải quyết bài toán cấu trúc chuỗi với với kích thước lớn. Hơn nữa có thể sử dụng bài toán cấu trúc chuỗi nguồn để tìm ra được các bệnh di truyền để có hướng giải quyết.
TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Đỗ Đức Đông và Hoàng Xuân Huấn (2011), “Về biến thiên của vết mùi trong phương pháp ACO và các thuật toán mới”, Tạp chí Tin học và điều khiển học, T.27, tr. 263-275.
[2] Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến và ứng dụng, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận án Tiến sĩ.
[3] Hoàng Trọng Phán, Trương Thị Bích Phượng, Trần Quốc Dung (2005), Giáo trình di truyền học, Dự án Giáo dục Đại học- Đại học Huế.
[4] Lê Sỹ Vinh (2013), Giáo trinh Nhập môn Tin sinh tr.12-tr.23 – trường Đại học Công nghệ - Đại học Quốc gia Hà Nội.
Tiếng Anh
[5] V. Bafna and V. Bansal. The number of recombination events in a sample history:
Conict graph and lower bounds. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1:78- 90, 2004.
[6] Andrea Roli and Christian Blum.Tabu Search for the Founder Sequence Reconstruction Problem: A Preliminary Study (2009).
[7] Andrea Roli, Christian Blum. Large Neighbourhood Search Algorithms for the Founder Sequences Reconstruction Problem (2012).
[8] C. Blum and A. Roli. Metaheuristics in combinatorial optimization: Overview and conceptual comparison. ACM Computing Surveys, 35(3):268 - 308, 2003
[9] E. Ukkonen. Finding founder sequences from a set of recombinants. In R. Guig o and D. Gus-eld, editors, Proceedings of the 2nd Workshop on Algorithms in Bioinformatics { WABI2002, volume 2452 of Lecture Notes in Computer Science, pages 277- 286. Springer, Heidelberg, Germany, 2002
[10] G. W. Thyson, J. Chapman, P. Hugenholtz. E. Allen, R. Ram, P. Richardson, V.
Solovyev, E. Rubin, D. Rokhsar, and J. Baneld. Community structure and metabolism through reconstruction of microbial genomes from the environment.
Nature, 428:37- 43, 2004.
[11] Jingliwu, Huawang. A Parthenogenetic Algorithm for the Founder Sequence Reconstruction Problem (2013).
[12] M. Dorigo, L.M. Gambardella (1997). “Ant colony system: A cooperative learning approach to the traveling salesman problem”, IEEE Transon evolutionary computation, vol.1, no.1, 1997, pp. 53-66.
[13] M. Dorigo, T.Stützle (2004). Ant Colony Optimization, The MIT Press, Cambridge
[14] M. Dorigo, V. Maniezzo, A. Colorni (1991). “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy.