Kết quả thể hiện trong bảng cho thấy với tất cả cỏc bộ dữ liệu, thuật toỏn ACOGNA++ đều cho kết quả tốt hơn cỏc thuật toỏn cũn lại.
Datasets
ACOGNA
MAGNA++ ModuleAlign ACOGNA++ α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 ce-dm 0.1344 0.1123 0.1068 0.1338 0.1061 0.2597 0.1538 0.3655 ce-hs 0.1265 0.0993 0.0953 0.0939 0.0909 0.2639 0.1354 0.4165 ce-sc 0.1063 0.0953 0.0925 0.0911 0.0922 0.2573 0.1192 0.2795 dm-hs 0.1593 0.1559 0.156 0.1567 0.1555 0.1088 0.1117 0.1910 sc-dm 0.1446 0.1417 0.1415 0.1407 0.1406 0.1081 0.1059 0.1767 sc-hs 0.1501 0.1452 0.1484 0.1446 0.1433 0.1166 0.1174 0.2096
110
3.5.4.2. So sỏnh thời gian chạy
Cỏc thuật toỏn FASTAN, Spinal và ModuleAlign là cỏc thuật toỏn heuristic nờn cú thời gian chạy nhanh hơn, nhưng lại khụng cải thiện được chất lượng khi tăng thời gian chạy, vỡ vậy luận ỏn khụng so sỏnh thời gian chạy với 3 thuật toỏn này. Khi so sỏnh thời gian chạy của 2 thuật toỏn ACOGNA++ và MAGNA++ ta cú kết quả thể hiện trờn hỡnh 3.2:
Hỡnh 3.2. So sỏnh thời gian chạy tớnh theo giõy của 2 thuật toỏn ACOGNA++ và MAGNA++
Qua biểu đồ so sỏnh ta thấy trong 6 bộ test thỡ cú 5 bộ test là thời gian chạy của ACOGNA++ nhanh hơn so với MAGNA++, chỉ cú 1 bộ test dm-hs là thời gian chạy của MAGNA++ nhanh hơn so với ACOGNA++.
3.6. Kết luận chương
Trong chương này chỳng tụi đó trỡnh bày về bài toỏn dúng hàng toàn cục mạng tương tỏc protein - protein và đề xuất cỏc thuật toỏn mới để giải quyết bài
0 5000 10000 15000 20000 25000 30000
ce-dm ce-hs ce-sc sc-dm dm-hs sc-hs
Thời
gian (s)
Bộ dữ liệu
MAGNA++ ACOGNA++
111
toỏn này. Cỏc thuật toỏn đề xuất dựa trờn 2 hướng tiếp cận. Hướng tiếp cận heuristic và hướng tiếp cận metaheuristic dựa trờn phương phỏp tối ưu đàn kiến. Với hướng tiếp cận heuristic, thuật toỏn FASTAN cú ưu điểm là cho lời giải nhanh và kết quả tốt hơn so với cỏc thuật toỏn trước đú. Tuy nhiờn nhược điểm của phương phỏp FASTAN là khi tăng thời gian chạy thỡ chất lượng lời giải được cải thiện khụng đỏng kể.
Để khắc phục nhược điểm trờn của FASTAN, chỳng tụi đề xuất cỏc thuật toỏn mới ACOGNA và ACOGNA++ dựa trờn phương phỏp tối ưu đàn kiến để xõy dựng cỏc dúng hàng.
Thuật toỏn ACOGNA bao gồm nhiều vũng lặp, trong mỗi vũng lặp của thuật toỏn, tất cả cỏc kiến xõy dựng lời giải, sau đú kiến cú chất lượng lời giải tốt nhất được lựa chọn để cập nhật vết mựi và ỏp dụng tỡm kiếm cục bộ để tăng chất lượng lời giải. Cỏc thực nghiệm trờn bộ dữ liệu chuẩn đó chỉ ra rằng thuật toỏn chỳng tụi đề xuất cho kết quả tốt hơn cỏc thuật toỏn gần đõy đối với 2 tiờu chuẩn GNAS và EC đối với tất cả cỏc trường hợp.
Mặc dự khụng sử dụng tiờu chuẩn S3 làm hàm mục tiờu, nhưng trong cỏc trường hợp mà đồ thị nguồn là đồ thị dày thuật toỏn ACOGNA cho kết quả S3 tốt hơn so với thuật toỏn MAGNA++ (Là thuật toỏn tốt nhất tới thời điểm đú tối ưu theo tiờu chuẩn S3).
Thuật toỏn ACOGNA++ sử dụng sơ đồ cấu trỳc giống với thuật toỏn ACOGNA nhưng cú nhiều điểm cải tiến trong cỏch xỏc định thụng tin heuristic, cỏch lưu trữ và cập nhật thụng tin vết mựi và sử dụng kiến trong cả 2 giai đoạn xỏc định đỉnh tiếp theo của đồ thị nguồn được dúng hàng và tỡm ảnh của nú trờn đồ thị đớch. Thuật toỏn ACOGNA++ cho phộp thay đổi cỏc tiờu chuẩn tối ưu để tối ưu theo cỏc hàm mục tiờu GNAS, EC và S3. Cỏc thực nghiệm đó cho thấy
112
thuật toỏn ACOGNA++ cho chất lượng lời giải tốt hơn so với cỏc thuật toỏn được so sỏnh theo cỏc tiờu chuẩn này.
Cỏc thuật toỏn đề xuất trong chương này tạo ra cỏc dúng hàng toàn cục giữa hai mạng PPI cú chất lượng dúng hàng tốt hơn so với cỏc thuật toỏn trước đú đồng nghĩa với việc xỏc định được cỏc vựng mạng được bảo tồn giữa cỏc mạng PPI chớnh xỏc hơn. Cỏc vựng mạng được bảo tồn này sẽ giỳp chuyển hiệu quả cỏc kiến thức về chức năng của tế bào từ mụ hỡnh cỏc loài đó được nghiờn cứu sõu, chẳng hạn như nấm men, ruồi giấm, hoặc sõu sang con người ớt được nghiờn cứu hơn [Guzzi & Milenković, 2018; R. Sharan & Ideker, 2006]. Ngoài ra, cỏc kết quả của bài toỏn dúng hàng hai mạng PPI cũn được sử dụng để phục vụ cho bài toỏn xõy dựng cõy phõn loài [O. Kuchaiev et al., 2010].
113
KẾT LUẬN
Luận ỏn đó trỡnh bày cỏc kiến thức chung về lĩnh vực tin sinh học và về 2 bài toỏn cú ý nghĩa quan trọng trong lĩnh vực tin sinh học là bài toỏn dúng hàng đồng thời nhiều mạng cỏc vị trớ liờn kết protein và là bài toỏn dúng hàng mạng tương tỏc protein-protein. Bờn cạnh đú luận ỏn cũng đó trỡnh bày về cỏc kỹ thuật tớnh toỏn mềm, trong đú tập trung trỡnh bày chi tiết về phương phỏp tối ưu húa đàn kiến và cỏc phương phỏp tớnh toỏn mềm khỏc được sử dụng để giải quyết 2 bài toỏn dúng hàng mạng protein. Với việc phõn tớch đặc điểm của cỏc thuật toỏn mới nhất giải quyết cỏc bài toỏn dúng hàng đồng thời nhiều mạng cỏc vị trớ liờn kết ptotein và bài toỏn dúng hàng toàn cục hai mạng tương tỏc protein-protein chỳng tụi đó đề xuất cỏc thuật toỏn mới giải quyết hiệu quả 2 bài toỏn này.
Với bài toỏn dúng hàng nhiều mạng cỏc vị trớ hoạt tớnh protein, luận ỏn đề xuất 3 thuật toỏn để giải bài toỏn này là thuật toỏn ACO-MGA, ACO-MGA2 và ACOTS-MGA. Thuật toỏn ACO-MGA dựa trờn phương phỏp tối ưu húa đàn kiến thuần tỳy để giải bài toỏn dúng hàng nhiều mạng. Cỏc kết quả thực nghiệm dựa trờn cỏc bộ dữ liệu mụ phỏng đó chứng minh hiệu quả nổi trội của thuật toỏn này so với cỏc thuật toỏn GAVEO và thuật toỏn heuristic để giải bài toỏn này. Nghiờn cứu đặc tớnh biến thiờn vết mựi của cỏc thuật toỏn ACO, trong thuật toỏn ACO-MGA2, chỳng tụi ỏp dụng lược đồ memetic cho thuật toỏn, trong đú vết mựi của thuật toỏn ACO được cập nhật theo 2 giai đoạn khỏc nhau. Giai đoạn đầu tham số bay hơi được thiết lập nhỏ để khai thỏc thụng tin học tăng cường và khụng ỏp dụng tỡm kiếm cục bộ. Giai đoạn 2 cú sử dụng tỡm kiếm cục bộ nờn tham số bay hơi được thiết lập lớn hơn để tăng tớnh khỏm phỏ của thuật toỏn. Cỏc kết quả thực nghiệm trờn cỏc bộ dữ liệu thực đó cho thấy những ưu điểm của thuật toỏn mới đề xuất này so với cỏc thuật toỏn trước đú.
114
Thuật toỏn ACO-MGA2 cú nhược điểm là khi ỏp dụng tỡm kiếm cục bộ, việc hoỏn đổi vị trớ giữa cỏc đỉnh bị lặp lại trong cỏc lần gọi khỏc nhau, vỡ vậy luận ỏn đề xuất thuật toỏn ACOTS-MGA sử dụng kết hợp phương phỏp ACO và tỡm kiếm Tabu theo lược đồ memetic. Thuật toỏn Tabu search sử dụng để thay thế cho thuật toỏn tỡm kiếm cục bộ trong ACO-MGA2 sử dụng danh sỏch cấm để trỏnh xột lại cỏc bước chuyển đó xột trước đú. Ngoài ra trong ACOTS- MGA, cũn cú sự cải tiến trong cỏch xỏc định thụng tin heuristic và thủ tục bước ngẫu nhiờn xõy dựng một dúng hàng. Cỏc thực nghiệm trờn bộ dữ liệu thực đó chứng minh những ưu điểm nổi trội của phương phỏp này so với cỏc phương phỏp đề xuất trước đú.
Đối với bài toỏn dúng hàng hai mạng tương tỏc protein, chỳng tụi đề xuất cỏc thuật toỏn mới theo hướng tiếp cận dúng hàng toàn cục. Thuật toỏn thứ nhất là thuật toỏn FASTAN cho phộp dúng hàng nhanh và cho chất lượng lời giải tốt so với cỏc thuật toỏn trước đú. Thuật toỏn này phự hợp với cỏc mạng tương tỏc protein-protein cú kớch thước lớn và yờu cầu thời gian giải bài toỏn nhanh. Tuy nhiờn khi tăng thời gian chạy thuật toỏn thỡ chất lượng của FASTAN được cải thiện khụng nhiều. Để khắc phục nhược điểm trờn của FASTAN, chỳng tụi tiếp tục đề xuất thuật toỏn giải bài toỏn dúng hàng toàn cục mạng tương tỏc protein-protein dựa trờn phương phỏp tối ưu húa đàn kiến cú tờn là ACOGNA. Cỏc kết quả thực nghiệm trờn cỏc bộ dữ liệu sinh học thực đó chứng minh những hiệu quả của phương phỏp ACOGNA tốt hơn so với cỏc thuật toỏn trước đú theo cỏc tiờu chuẩn GNAS, EC; tuy nhiờn với tiờu chuẩn S3 thuật toỏn ACOGNA cũn cho chất lượng lời giải kộm hơn so với thuật toỏn MAGNA++. Thuật toỏn ACOGNA++ được đề xuất sau đú cho phộp thay đổi hàm mục tiờu theo cỏc tiờu chuẩn dúng hàng khỏc nhau và sử dụng thuật toỏn kiến trong cả 2 giai đoạn xỏc định thứ tự cỏc đỉnh trờn đồ thị nguồn và xỏc định ảnh của nú trờn
115
đồ thị đớch. Vỡ vậy ACOGNA++ cho chất lượng lời giải tốt hơn ACOGNA, ModuleAlign, MAGNA++ đối với tất cả cỏc bộ dữ liệu.
Cỏc kết quả nghiờn cứu đó được cụng bố trong 5 bài bỏo cụng bố tại cỏc hội nghị quốc tế cũng như trong nước cú phản biện, trong đú cú 3 bài được đưa vào danh mục Scopus; một bài bỏo đăng tại tạp chớ VNU Journal of Science:
Computer Science and Communication Engineering.
Cỏc thuật toỏn đề xuất trong luận ỏn cho thấy hiệu quả tốt hơn hẳn so với cỏc thuật toỏn đề xuất trước đú để giải cỏc bài toỏn dúng hàng nhiều mạng cỏc vị trớ liờn kết protein và bài toỏn dúng hàng toàn cục hai mạng tương tỏc protein. Về thời gian chạy, cỏc thuật toỏn đề xuất cũng nhanh hơn cỏc thuật toỏn tớnh toỏn mềm khỏc được đề xuất trước đú trong phần lớn cỏc bộ dữ liệu. Cỏc thuật toỏn đề xuất đều dựa trờn phương phỏp tối ưu đàn kiến, vỡ vậy cú thể cải thiện thời gian chạy theo hướng song song húa cỏc thuật toỏn, bờn cạnh đú nghiờn cứu sõu hơn về cỏc phương phỏp tớnh toỏn mềm khỏc để cải tiến cỏc thuật toỏn đề xuất nhằm giảm thời gian chạy.
Đối với bài toỏn dúng hàng cỏc mạng cỏc vị trớ liờn kết protein. Thời gian gần đõy, người ta tập trung nghiờn cứu việc ứng dụng bài toỏn này vào việc nghiờn cứu thuốc [Borrel, 2016; Jukič, Konc, Gobec, & Janežič, 2017; Yuan et al., 2018]. Chỳng tụi dự kiến sẽ liờn hệ với cỏc cơ sở nghiờn cứu y-sinh để cựng phỏt triển cỏc nghiờn cứu mang tớnh ứng dụng.
Đối với bài toỏn dúng hàng mạng tương tỏc protein, thời gian tới chỳng tụi sẽ nghiờn cứu để mở rộng việc ỏp dụng cỏc thuật toỏn đề xuất cho bài toỏn dúng hàng đồng thời nhiều mạng tương tỏc protein-protein [Dohrmann & Singh, 2016; Vipin Vijayan & Milenkovic, 2018], hay bài toỏn dúng hàng cỏc mạng động [V Vijayan, Critchlow, & Milenković, 2017]. Bờn cạnh đú là việc nghiờn
116
cứu ứng dụng cỏc thuật toỏn đề xuất vào trong cỏc bài toỏn thời sự trong lĩnh vực mạng xó hội [J. Zhang & Yu, 2015; Y. Zhang, Tang, Yang, Pei, & Yu, 2015].
117
DANH MỤC CÁC CễNG TRèNH KHOA HỌC CỦA TÁC GIẢ LIấN QUAN ĐẾN LUẬN ÁN
1.Trần Ngọc Hà, Đỗ Đức Đụng, Hoàng Xuõn Huấn (2013), “An Efficient Ant Colony Optimization Algorithm for Multiple Graph Alignment”, Proceedings of International Conference on Computing, Management
and Telecommunications (ComManTel),Ho Chi Minh City, Vietnam,
pp.386-391. (Scopus)
2.Trần Ngọc Hà, Đỗ Đức Đụng, Hoàng Xuõn Huấn (2014), “A Novel Ant Based Algorithm for Multiple Graph Alignment”, Proceedings of the 2014 International Conference on Advanced Technologies for
Communications, pp. 181-186. (Scopus)
3.Đỗ Đức Đụng, Trần Ngọc Hà, Đặng Thanh Hải, Đặng Cao Cường, Hoàng Xuõn Huấn (2015), “An efficient algorithm for global alignment of protein-protein interaction networks”, Proceedings of the 2015
International Conference on Advanced Technologies for
Communications, pp. 332-336. (Scopus)
4.Trần Ngọc Hà, Hoàng Xuõn Huấn (2015), “Một thuật toỏn tối ưu đàn kiến dúng hàng toàn cục mạng tương tỏc protein”, Proceedings of
Fundamental and Applied IT Research Conference 2015 (FAIR 2015),
Ha Noi, Viet Nam, pp. 471-477.
5.Ha Tran Ngoc, Huan Hoang Xuan (2016), “ACOGNA: An Efficient Method for Protein-Protein Interaction Network Alignment”, Proceedings of the The Eighth International Conference on Knowledge and Systems
Engineering (KSE 2016), pp. 7-12.
6.Ha Tran Ngoc, Hien Le Nhu, Huan Hoang Xuan (2018), “A new memetic algorithm for multiple graph alignment”, VNU Journal of Science:
118
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Lờ Sỹ Vinh (2014), Nhập mụn Tin sinh học, NXB Đại học Quốc gia Hà Nội, Hà Nội.
Tiếng Anh
2. Aladag, A. E., & Erten, C. (2013). "SPINAL: scalable protein interaction network alignment". Bioinformatics, 29(7), pp. 917–924. 3. Alfửldi, J., & Lindblad-Toh, K. (2013). "Comparative genomics as a
tool to understand evolution and disease". Genome Res., 23(7), pp. 1063–1068.
4. Alkan, F., & Erten, C. (2014). "BEAMS: backbone extraction and merge strategy for the global many-to-many alignment of multiple PPI networks". Bioinformatics, 30(4), pp. 531–539.
5. Altschul, S. F., Gish, W., Miller, W., & Lipman, D. J. (1990). "Basic local alignment search tool". J. Mol. Biol., 215(3), pp. 403–410.
6. Altschul, S. F., Madden, T. L., Schffer, A. A., Zhang, J., Zhang, Z., Miller, W., & Lipman, D. J. (1997). "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs". Nucleic Acids Res., 25(17), pp. 3389–3402.
7. Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., … Sherlock, G. (2000). "Gene ontology: tool for the unification of biology". Nat. Genet., 25(1), pp. 25–29.
119
8. Berg, J., & Lassig, M. (2004). "Local graph alignment and motif search in biological networks". Proceedings of the National Academy of
Sciences, 101(41), pp. 14689–14694.
9. Berg, J., & Lassig, M. (2006). "Cross-species analysis of biological networks by Bayesian alignment". Proc. Natl. Acad. Sci., 103(29), pp. 10967–10972.
10. Berman, H. M., Battistuz, T., Bhat, T. N., Bluhm, W. F., Bourne, P. E., Burkhardt, K., … Zardecki, C. (2002). "The protein data bank". Acta
Crystallographica Section D: Biological Crystallography, 58(6 I), pp.
899–907.
11. Biesecker, L. G., Mullikin, J. C., Facio, F. M., Turner, C., Cherukuri, P. F., Blakesley, R. W., … Green, E. D. (2009). "The ClinSeq project: piloting large-scale genome sequencing for research in genomic medicine". Genome Res., 19, pp. 1665–1674.
12. Borrel, A. (2016). Development of Computational Methods to Predict
Pocket Druggability and Profile Ligands using Structural Data By.
Thesis Phd-penting. University of Helsinki, Faculty of Pharmacy,
Division of Pharmaceutical Chemistry and Technology Molộcules Thộrapeutiques in Silico (MTi), Inserm UMR-S 973, University Paris Diderot, France.
13. Brin, S., & Page, L. (1998). "The anatomy of a large-scale hypertextual web search engine". Comput. Net. ISDN Syst., 30(1–7), pp. 107–117. 14. Brownlee, J. (2011). Clever Algorithms: Nature Inspired Programming
120
15. Chindelevitch, L., Liao, C.-S., & Berger, B. (2010). "Local optimization for global alignment of protein interaction networks.".
Pacific Symposium On Biocomputing, 132, pp. 123–132.
16. Chindelevitch, L., Ma, C.-. Y., Liao, C.-. S., & Berger, B. (2013). "Optimizing a global alignment of protein interaction networks".
Bioinformatics, 29(21), pp. 2765–2773.
17. Ciriello, G., Mina, M., Guzzi, P. H., Cannataro, M., & Guerra, C. (2012). "AlignNemo: A local network alignment method to integrate homology and topology". PLoS ONE, 7(6), pp. e38107.
18. Clark, C., & Kalita, J. (2014). "A comparison of algorithms for the pairwise alignment of biological networks". Bioinformatics, 30(16), pp. 2351–2359.
19. CONTE, D., FOGGIA, P., SANSONE, C., & VENTO, M. (2004). "THIRTY YEARS OF GRAPH MATCHING IN PATTERN RECOGNITION". International Journal of Pattern Recognition and Artificial Intelligence, 18(03), pp. 265–298.
20. Correa, L., Borguesan, B., Farfan, C., Inostroza-Ponta, M., & Dorn, M. (2018). "A memetic algorithm for 3D protein structure prediction problem". IEEE/ACM Transactions on Computational Biology and
Bioinformatics, 15(3), pp. 690–704.
21. Do Duc, D., Dinh, H. Q., & Hoang Xuan, H. (2008). "On the pheromone update rules of ant colony optimization approaches for the job shop scheduling problem". In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in
121
22. Dohrmann, J., & Singh, R. (2016). "The SMAL web server: global multiple network alignment from pairwise alignments". Bioinformatics,
32(21), pp. 3330–3332.
23. Dorigo, M., & Gambardella, L. M. (1997). "Ant Colony System: A Cooperative Learning Approach to the Traveling Salesman Problem".
IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 1(1),
pp. 53.
24. Dorigo, M., & Stỹtzle, T. (2004). Ant Colony Optimization. Cambridge, Massachusetts, London England: MIT Press.
25. Edgar, R. C. (2004). "MUSCLE: multiple sequence alignment with high accuracy and high throughput". Nucleic Acids Research, 32(5), pp. 1792–1797.
26. El-Kebir, M., Heringa, J., & Klau, G. W. (2011). "Lagrangian relaxation applied to sparse global network alignment". In Lecture