1 Khám phá tương tác trội nhờ phương pháp tối ưu đàn kiến Detecting epistatic interactions using ant colony optimization method NXB H. : ĐHCN, 2014 Số trang 64 tr. + Nguyễn Thị Chi Đại học Công nghệ Luận văn ThS ngành: Hệ thống thông tin;Mã số: 60 48 05 Người hướng dẫn: TS. Đỗ Đức Đông Năm bảo vệ: 2014 Keywords: Hệ thống thông tin; Thuật toán; Phương pháp tối ưu đàn kiến; Bài toán tương tác gen Content Tin sinh học là một lĩnh vực khoa học liên ngành, trong đó sinh học phân tử và tin học đóng vai trò chủ đạo. Sinh học làm môi trường dữ liệu cơ sở, trên đó xây dựng và hoàn thiện các chương trình xử lý dữ liệu ứng dụng làm công cụ hỗ trợ hiệu quả cho việc nghiên cứu, thu nhận và sản xuất ra các sản phẩm sinh học mong muốn khác nhau phục vụ đời sống con người…Về cơ bản, tin sinh học tập trung vào nghiên cứu và áp dụng các phương pháp cũng như các kĩ thuật trong tin học để giải quyết các bài toán trong sinh học phân tử. Tin sinh học có tính ứng dụng cao trong cuộc sống, đặc biệt trong lĩnh vực nông nghiệp và lĩnh vực y-dược. Vấn đề về sức khỏe và bệnh tật của con người là những vấn đề rất được quan tâm và chú ý. Hiện nay có rất nhiều các căn bệnh như: Bệnh ung thư, bệnh thoái hóa điểm vàng, bệnh tim mạch… Tất cả đều là những căn bệnh di truyền. Có nhiều các tác nhân liên quan đến bệnh như: Tác nhân vật lý, chế độ ăn uống, tác nhân hóa học,…, nhưng yếu tố di truyền vẫn là tác nhân chính. Gen di truyền được công nhận rộng khắp rằng nhiều căn bệnh có thể là nguyên nhân bởi những tác động của nhiều loại gen biến đổi, trong mỗi gen của các cá thể, những gen đó chiếm số ít nhưng lại có tác động mạnh. Vấn đề đang được quan tâm hiện nay là tiến hành nghiên cứu về các gen di truyền: Xác định vị trí gen trên một bệnh chứng, gen xác định là nguyên nhân chính để dẫn đến các căn bệnh. Phần lớn trong số những biến thể di truyền là hàng triệu các điểm tại những vị trí nucleotide nhất định đã làm thay đổi mã di truyền do sự biến đổi của đơn nucleotide trong bộ gen. Khi xảy ra đột biến điểm làm cho một đơn nucleotide bị biến đổi hoặc ngược lại tạo ra một “single nucleotide polymorphism (SNP)” còn gọi là đa hình đơn nucleotide. Khi SNPs xảy ra trong gen hoặc trong một khu vực gần một gen quy định, nó có thể có vai trò trực tiếp đến sự xuất hiện bệnh bằng cách ảnh hưởng đến chức năng của gen. SNPs hiện đang được Dự án quốc tế HapMap tiến hành một cách hệ thống. Các nhà khoa học tin rằng SNP bản đồ sẽ giúp họ có nhiều gen liên quan tới các bệnh phức tạp. Đã có nhiều thuật toán được nghiên cứu và công bố giải quyết bài toán tương tác gen để đưa ra tập các vị trí nucleotide biến đổi (hay còn gọi là SNP) tương tác với nhau trội được dự đoán là có khả năng cao liên quan đến căn bệnh. Dựa trên đó, các nhà nghiên cứu có thể tìm kiếm ra vị trí các gen liên quan đến các căn bệnh cụ thể mà họ quan tâm. 2 Trong luận văn này, tôi sẽ trình bày khảo cứu lại của tác giả bài báo[22] về cách giải quyết bài toán tương tác gen sử dụng thuật toán Ant Colony Optimization (ACO) để giải quyết. Mục đích để chỉ ra thuật toán AntEpiSeeker có thể giải quyết bài toán với những bộ dữ liệu lớn và đưa ra được kết quả tối ưu hơn so với các thuật toán trước đó. Ngoài ra, trong luận văn tôi thực hiện xử lý song song hóa các tác vụ trong tính toán của Chi-square giúp đẩy nhanh trong quá trình việc cập nhật mùi của kiến mà vẫn đảm bảo tính đúng đắn của thuật toán, cài đặt thực nghiệm với quy tắc cập nhật mùi mới Max-Min trơn (Smoothed Max Min Ant System – SMMAS) được Đỗ Đức Đông đề xuất năm 2012[1]. Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương: Chương 1: Trình bày sơ lược các khái niệm về sinh học, phát biểu bài toán tương tác gen, hệ quả của tương tác gen và mục đích của việc phát hiện tương tác gen. Chương 2: Trình bày tổng quan về ACO và một vài thuật toán cập nhật mùi khác nhau trong ACO. Ví dụ về bài toán người chào hàng giải quyết bằng thuật toán ACO. Chương 3: Giới thiệu một vài thuật toán giải quyết bài toán tương tác gen với những ưu, nhược điểm. Trình bày lại thuật toán AntEpiSeeker và trình bày về hàm kiểm định thống kê Chi- square. Chương 4: Đưa ra kết quả mà bài báo công bố, giải thích ý nghĩa của các tham số và ý nghĩa đánh giá các thuật toán với nhau khi nào là tốt khi nào là xấu. Chạy thực nghiệm lại với một bộ dữ liệu mô phỏng để so sánh tốc độ của thuật toán ban đầu với tốc độ sau khi xử lý song song hóa các tác vụ của kiến và kiểm tra khả năng tìm ra tập các vị trí nucleotide biến đổi ở phương pháp cập nhật mùi mới. References Tiếng Việt [1] Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến và ứng dụng, Đại học Công nghệ- Đại học Quốc gia Hà Nội, luận án Tiến sĩ. [2] Hoàng Trọng Phán, Trương Thị Bích Phượng, Trần Quốc Dung (2005), Giáo trình di truyền học, Dự án Giáo dục Đại học- Đại học Huế. Tiếng Anh [3] W.Bateson (1909), “Mendel’s Principles of Heredity”, Cambridge University Press, Cambridge. [4] YM. Cho, MD. Ritchie, JH. Moore, JY. Park, KU. Lee, HD. Shin, HK. Lee, KS. Park (2004), “Multifactor-dimensionality reduction shows a two-locus interaction associated with type 2 diabetes mellitus”, Diabetologia, 47:549-554. [5] HJ. Cordell (2002), “ Epistasis: what it means, what it doesn't mean, and statistical methods to detect it in humans”, Hum Mol Genet, 11:2463-2468. [6] D. Corne, M. Dorigo, F. Glover (1999), New Ideas in Optimization, McGraw-Hill. [7] M. Dorigo, G. Di Caro, LM. Gambardella (1999), “Ant Algorithms for Discrete Optimization”, Artificial Life, 5:137-172. [8] M. Dorigo, T.Stützle (2004), Ant Colony Optimization, The MIT Press, Cambridge, Masachusetts, 2004. [9] M. Dorigo, L.M. Gambardella (1997), “Ant colony system: A cooperative learning approach to the traveling salesman problem”, IEEE Transon evolutionary computation, vol.1, no.1, 1997, pp. 53-66. [10] M. Dorigo, L.M. Gambardella (1997), “Ant colonies for the travelling salesman problem”, Biosystems, 43:73-81. 3 [11] M. Dorigo, V. Maniezzo, A. Colorni (1991), “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy. [12] RA. Fisher (1922), On the interpretation of χ2 from contingency tables, and the calculation of P, Journal of the Royal Statistical Society 1922; 85(1):87-94. [13] S. Goss, S. Aron, J.L. Deneubourg, J.M. Pasteels (1989), “Self-organized shortcuts in the Argentine ant”, Naturwissenschaften, 76, 579–581. [14] RJ. Klein, C. Zeiss, EY. Chew, JY. Tsai, RS. Sackler, C. Haynes, AK. Henning, JP. SanGiovanni, SM. Mane, ST. Mayne ST (2005), “Complement factor H polymorphism in age-related macular degeneration”, Science, 308:385-389. [15] V. Maniezzo, A. Carbonaro (2000), “An ANTS heuristic for the frequency assignment problem”, Future Generation Computer Systems, 16:927-935. [16] J. Marchini, P. Donnelly, LR. Cardon (2005), “Genome-wide strategies for detecting multiple loci that influence complex diseases”, Nat Genet, 37:413-417 [17] MD. Ritchie, LW. Hahn, N. Roodi N, LR. Bailey,WD. Dupont, FF. Parl, JH. Moore (2001), “Multifactor-dimensionality reduction reveals high-order interactions among estrogen metabolism genes in sporadic breast cancer”, Am J Hum Genet, 69:138-147. [18] KR. Robbins, W. Zhang, JK. Bertrand, R. Rekaya (2007), “The ant colony algorithm for feature selection in high-dimension gene expression data for disease classification”, Math Med Bio, 24:413-26. [19] T. Stützle, H. H. Hoos (2000), “Max-Min ant system”, Future Gene. Comput. Syst, vol. 26, no.8, 2000, pp. 889-914. [20] EG. Talbi, O. Roux, C. Fonlupt, D. Robillard (2001), “Parallel Ant Colonies for the quadratic assignment problem”, Future Generation Computer System, 17:441-449. [21] CT. Tsai, LP. Lai, JL. Lin, FT. Chiang, JJ. Hwang, MD. Ritchie, JH. Moore, KL. Hsu, CD.Tseng,CS. Liau, YZ.Tseng (2004), “Renin-angiotensin system gene polymorphisms and atrial fibrillation”, Circulation, 109:1640-1646. [22] Y. Wang, X. Liu, K. Robbins, R. Rekaya (2010), “AntEpiSeeker: detecting epistatic interactions for case-control studies using a two-stage ant cology optimization algorithm”, BMC Research Notes, 3:117. [23] C. Yang, Z. He, X. Wan, Q. Yang, H. Xue, W. Yu (2009), “SNPHarvester: a filtering-based approach for detecting epistatic interactions in genome-wide association studies”, Bioinformatics, 25:504-511. [24] Y. Zhang, JS. Liu (2007), “Bayesian inference of epistatic interactions in case-control studies”, Nat Genet, 39:1167-1173. Một số trang web [25] http://hoiyhoctphcm.org.vn/Data/pdf/1212Dunstan.pdf [26] http://vietsciences.free.fr/timhieu/khoahoc/ykhoa/ynghiacuatrisoP.htm [27] http://www.zsinhhoc.blogspot.com/2013/01/tuong-tac-at-che.html [28] http://math.hws.edu/javamath/ryan/ChiSquare.html [29] http://xacsuatthongkea.wikispaces.com/file/view/Chuong+6.pdf [30] http://timmachhoc.vn/y-hoc-thuc-chung/297-y-hc-thc-chng-sanofi.html [31] http://tudu.com.vn/vn/y-hoc-thuong-thuc/diem-bao/tac-dong-gen-de-tri-benh-huong-di- moi-trong-tuong-lai/ . 1 Khám phá tương tác trội nhờ phương pháp tối ưu đàn kiến Detecting epistatic interactions using ant colony optimization method. các tác vụ của kiến và kiểm tra khả năng tìm ra tập các vị trí nucleotide biến đổi ở phương pháp cập nhật mùi mới. References Tiếng Việt [1] Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến. Đỗ Đức Đông Năm bảo vệ: 2014 Keywords: Hệ thống thông tin; Thuật toán; Phương pháp tối ưu đàn kiến; Bài toán tương tác gen Content Tin sinh học là một lĩnh vực khoa học liên ngành, trong