Luận văn thạc sĩ lựa chọn tag SNP dựa vào phương pháp tối ưu đàn kiến

71 10 0
Luận văn thạc sĩ lựa chọn tag SNP dựa vào phương pháp tối ưu đàn kiến

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ ĐỨC ANH LỰA CHỌN TAG SNP DỰA VÀO PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN LUẬN VĂN THẠC SĨ KHOA HỌC Thái Nguyên - Năm 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ ĐỨC ANH LỰA CHỌN TAG SNP DỰA VÀO PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN Chuyên ngành: Khoa học máy tính Mã số: 60.48.0101 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS ĐỖ ĐỨC ĐƠNG Thái Ngun - Năm 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng tôi, dẫn TS Đỗ Đức Đông Các số liệu, kết nêu luận văn trung thực, bảo đảm tính khách quan, luận văn chưa bảo vệ hội đồng chưa công bố phương tiện khác Các tài liệu tham khảo có nguồn gốc xuất xứ rõ ràng Tác giả xin chịu trách nhiệm lời cam đoan Thái Nguyên, ngày 20 tháng năm 2016 Tác giả luận văn Vũ Đức Anh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo TS Đỗ Đức Đông trực tiếp giao cho em đề tài, tận tình hướng dẫn tạo điều kiện cho em hoàn thành luận văn Em xin chân thành cảm ơn thầy cô giáo, cán nhân viên phòng đào tạo, ban lãnh đạo Trường Đại học Công nghệ thông tin Truyền thông giúp đỡ tạo điều kiện cho em hoàn thành luận văn Cuối cùng, em xin chân thành cảm ơn quan tâm giúp đỡ gia đình, bạn bè tập thể lớp Cao học K13H cổ vũ động viên em hồn thành tốt luận văn Thái Nguyên, ngày tháng năm 2016 Học viên Vũ Đức Anh Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ TỐI ƯU ĐÀN KIẾN VÀ BÀI TOÁN LỰA CHỌN TAG SNP 1.1 Tìm hiểu SNP 1.1.1 SNP (Single Nucleotide Polymorphisms) 1.1.2 Phương pháp xác định SNP 1.1.3 Tính chất SNP 1.1.4 Ứng dụng triển vọng nghiên cứu SNP 1.2 Bài toán lựa chọn Tag SNPs cách tiếp cận 11 1.3 Tổng quan tối ưu đàn kiến 15 1.4 Mục tiêu nghiên cứu luận văn 21 1.5 Bố cục luận văn 21 CHƯƠNG 23 MỘT SỐ VẤN ĐỀ TRONG LỰA CHỌN TAG SNP BẰNG PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN 23 2.1 Tìm hiểu tốn tối ưu tổ hợp tổng quát 23 2.2 Tối ưu đàn kiến 25 2.2.1 Từ kiến tự nhiên đến kiến nhân tạo 25 a/ Kiến tự nhiên 26 b/ Kiến nhân tạo 28 2.2.2 Phương pháp ACO cho toán TƯTH tổng quát 30 a/ Đồ thị cấu trúc 30 b/ Mơ tả thuật tốn ACO tổng qt 32 2.2.3 Đánh giá ảnh hưởng tham số thuật toán ACO 35 a/ Thông tin heuristic 35 b/ Số lượng kiến 36 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii c/ Tham số bay 36 2.3 Bài toán lựa chọn tag SNPs 37 2.4 Phương pháp giải toán lựa chọn SNPs thuật tốn tối ưu hóa đàn kiến- Thuật tốn MACA 38 2.4.1 Thuật toán đàn kiến 38 2.4.2 Kiến định cập nhật mùi 39 2.4.3 Hiệu chỉnh quy tắc cập nhật mùi – áp dụng quy tắc SMMAS .40 2.4.4 Heuristic 41 2.4.5 Thuật giải MACA 42 CHƯƠNG 45 CHƯƠNG TRÌNH THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 45 3.1 Mô tả thực nghiệm 45 3.2 Kết thực nghiệm đánh giá 46 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 50 TÀI LIỆU THAM KHẢO 51 PHỤ LỤC 55 A Mã lệnh cho thuật toán ACA 55 B Mã lệnh sử dụng quy tắc SMASS để cập nhật mùi: 57 C Mã lệnh cho thuật toán MACA 57 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu chữ viết tắt Ý nghĩa Cận vết mùi Cận vết mùi Cận vết mùi Vết mùi khởi tạo ban đầu  Vết mùi cạnh  Vết mùi đỉnh Thông tin heuristic cạnh Thông tin heuristic đỉnh 3-LAS ACO Số vịng lặp thuật tốn ACO Số kiến sử dụng thuật toán ACO Tham số bay ACS AS G-best I-best Three-Level Ant System (Hệ kiến ba mức) Ant Colony Optimization (Tối ưu đàn kiến) Ant Colony System (Hệ đàn kiến) Ant System (Hệ kiến) Global-best (Lời giải tốt tính đến thời điểm tại) Iteration-best (Lời giải tốt bước lặp tại) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v MLAS MMAS SMMAS TSP Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC CÁC BẢNG Bảng Trang Bảng 2.1 Biểu diễn nhị phân haplotype SNP…………… 44 Bảng 3.1 Bảng kết thực nghiệm số lượng haplotype cố định số lượng SNP thay đổi…………………………………… 46 Bảng 3.2 Thời gian chạy thực nghiệm số lượng haplotype cố định số lượng SNP thay đổi…………………………………… 47 Bảng 3.3 Bảng kết số lượng SNP cố định số lượng haplotype thay đổi………………………………………………… 48 Bảng 3.4 Thời gian chạy thực nghiệm số lượng haplotype cố định số lượng SNP thay đổi…………………………………… 48 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC CÁC HÌNH Hình Hình 1.1 Một SNP (Single Nucleotide Polymorphisms) Hình 1.2 Ba bươc xây dưngg̣ HapMap …………………………… ́́ Hình 1.3 Hoạt động bầy kiến thực tế………………… Hình 1.4 Ví dụ đàn kiến nhân tạo… ……………………… Hình 2.1 Thực nghiệm cầu đơi…………………………… Hình 2.2 Thí nghiệm bổ sung…………………………………… Hình 2.3 Đồ thị cấu trúc tổng quát cho toán cực trị hàm Hình 2.4 Thuật tốn ACO……………………………………… Hình 2.5 Tổng quan thuật tốn MACA……………………… Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn viii Số lượng thẻ SNP lựa chọn thời gian chạy dùng để kiểm tra hiệu quy tắc cập nhật mùi Mỗi thay đổi số SNP (trường hợp thứ nhất) hay thay đổi số haplotype (trong trường hợp thứ hai), thuật toán chạy 10 lần, qua thơng số: kết tốt nhất, kết trung bình, độ lệch chuẩn 10 lần chạy thời gian thực trung bình đem so sánh 3.2 Kết thực nghiệm đánh giá Trường hợp thứ nhất: Số lượng haplotype cố định số lượng SNP thay đổi Kết tốt Số SNP 20 40 60 80 100 120 140 160 180 200 46 Bảng 3.1.Kết những test có 13 mẫu số lượng SNP từ 20 đến 200 (mỗi test chạy 10 lần) Số SNP 20 40 60 80 100 120 140 160 180 200 Bảng 3.2.Thời gian chạy những test có 13 mẫu số lượng SNP từ 20 đến 200 (mỗi test chạy 10 lần) 47 Trường hợp thứ hai: Số lượng SNP cố định số lượng haplotype thay đổi Số Haplotype 10 20 30 40 50 60 70 80 Bảng 3.3.Kết những test có những test có số SNP 200 số mẫu từ 10 đến 80 (mỗi test chạy 10 lần) Số Haplotyp 10 20 30 40 50 60 70 80 Bảng 3.4.Thời gian chạy những test có những test có số SNP 200 số mẫu từ 10 đến 80 (mỗi test chạy 10 lần) 48 Từ bảng 3.1 bảng 3.3, nhận thấy việc áp dụng phương pháp cập nhật mùi SMMAS vào thuật toán MACA mang lại hiệu tốt Căn vào tiêu chí so sánh: kết tốt kết trung bình, bảng 3.1, hầu hết thực nghiệm, nhận thấy MACA với SMMAS cho kết lần chạy tốt Thực nghiệm trường hợp SNP=180, MACA với SMMAS cho kết hơn, chênh lệch không đáng kể không đủ đưa quy luận MACA với SMMAS thực hiệu Còn bảng 3.3, tất thực nghiệm, MACA với SMMAS cho kết tốt Hơn nữa, việc áp dụng SMMAS vào thuật toán MACA khiến thuật toán ổn đỉnh hơn: hầu hết thực nghiệm độ lệch chuẩn thuật toán MACA với SMACA nhỏ So sánh thời gian chạy thuật toán cập nhật mùi, từ bảng 3.2 bảng 3.4 nhận thấy thời gian chạy thuật toán MACA với SMMAS ngắn hơn, nhiên chênh lệch lớn Điều hiểu sau, độ phức tạp thuật toán nhau, cho cơng thức: log(m) * Số vịng lặp * Số kiến * đó: m số haplotype n số SNP Số vòng lặp chọn 50 Số kiến chọn 49 ∗ nhiên thời gian chạy hai thuật toán phụ thuộc vào số đỉnh mà kiến lựa chọn vịng lặp, mà thuật tốn MACA với SMMAS tìm đỉnh nên thời gian chạy ngắn KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO Việc áp dụng phương pháp cập nhật mùi SMMAS vào thuật toán MACA mang lại hiệu rõ rệt, so với cách cập nhật mùi cũ SMMAS giúp thuật toán MACA ổn đỉnh mang lại kết tốt Trong thuật toán MACA, giá trị heuristic chưa thể tốt giá trị lời giải thành phần Chúng đề xuất hướng nghiên cứu tìm cách tính giá trị heuristic tốt cho thuật toán 50 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Đức Đơng Hồng Xn Huấn (2011) “Về biến thiên vết mùi phương pháp ACO thuật tốn mới”, Tạp chí Tin học điều khiển học, Tập 27, tr 263-275 [2] Đỗ Đức Đông “Phương pháp tối ưu đàn kiến ứng dụng”, luận án tiến sỹ tin học Đại học Công nghệ - Đại học quốc gia Hà Nội, 2012 Tiếng Anh [3] Dong Do Duc, Le Sy Vinh, and Huan Hoang Xuan “ACOHAP: an efficient ant colony optimization for the haplotype inference by pure parsimony problem”, Journal of Swarm Intelligence, pp.63-67, 2013 [4] M Dorigo, V Maniezzo and A Colorni (1991) “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy [5] M Dorigo (1992) “Optimization, learning and natural algorithms”, PhD dissertation, Milan Polytechnique, Italy [6] M Dorigo, and T Stützle (2004) “Ant Colony Optimization”, The MIT Press, Cambridge, Masachusetts [7] “What Is the HapMap?” The International HapMap Project Url: http://hapmap.ncbi.nlm.nih.gov/whatishapmap.html Web 28 Mar 2014 Last viewed: 23 Agust 2016 51 [8] Gusfield, Dan "Haplotyping as perfect phylogeny: conceptual framework and efficient solutions." Proceedings of the sixth annual international conference on Computational biology ACM, 2002 [9] Liang Kelemen, Arpad, Athanasios V Vasilakos, and Yulan "Computational intelligence in bioinformatics: SNP/haplotype data in genetic association study for common diseases." Information Technology in Biomedicine, IEEE Transactions on 13.5 (2009): 841-847 [10] Gabriel, Stacey B., et al "The structure of haplotype blocks in the human genome." Science 296.5576 (2002): 2225-2229 [11] Zhang, Kui et al "A dynamic programming algorithm for haplotype block partitioning." Proceedings of the National Academy of Sciences 99.11 (2002): 7335-7339 [12] Chang, Chia-Jung, Yao-Ting Huang, and Kun-Mao Chao "A greedier approach for finding tag SNPs." Bioinformatics 22.6 (2006): 685-691 [13] Mahdevar, Ghasem, et al "Tag SNP selection via a genetic algorithm." Journal of biomedical informatics 43.5 (2010): 800-804 [14] He, Jingwu, and Alexander Zelikovsky "Informative SNP selection methods based on SNP prediction." NanoBioscience, IEEE Transactions on 6.1 (2007): 60-67 [15] Chuang, Li‐Yeh, et al "Tag SNP selection using particle swarm optimization." Biotechnology progress 26.2 (2010): 580-588 [16] Liao, Bo, et al "Multiple ant colony algorithm method for selecting tag SNPs."Journal of biomedical informatics 45.5 (2012): 931-937 52 [17] Ting, Chuan-Kang, Wei-Ting Lin, and Yao-Ting Huang "Multi-objective tag SNPs selection using evolutionary algorithms." Bioinformatics 26.11 (2010): 1446-1452 [18] Do Duc, Dong, Huy Q Dinh, and Huan Hoang Xuan "On the pheromone update rules of ant colony optimization approaches for the job shop scheduling problem." Intelligent Agents and Multi-Agent Systems Springer Berlin Heidelberg, 2008 153-160 [19] Hudson RR “Generating samples under a Wright–Fisher neutral model of genetic variation”, Bioinformatics 2002; 18:337–8 [20] V Bafna, D Gusfield, G Lancia, S Yooseph “Haplotyping as perfect phylogeny: a direct approach” [21] Tran Ngoc Ha, Do Duc Dong, Huan Hoang Xuan “An Efficient Ant Colony Optimization Algorithm for Multiple Graph Alignment”, January 2013 [22] O.Dror, H.Benyamini, R.Nussinov, and H.Wolfson(2003) “MASS: Multiple Structural Alignment bySecondary Structures” Bioinformatics, Vol 19 No.1, 95-104 [23] J F.Gibrat, T.Madej and S.H.Bryant (1996) “Surprising similarities in structurecomparison, CurrentOpinion in Structural Biology”, Vol 6, No 3, 377-385 [24] W.Gutjahr, “ACO algorithm with guaranteed convergence to the optimal solution”, Information Processing Letters, 82(3): 145-153, 2002 [25] W.J.Gutjahr, “A generalized convergence result for the graph-based And System metaheuristic”, Technical Report 99-09, Department of Statistics and Decision Support Systems, University of Vienna, Austria, 1999 53 [26] T.Stutzle and M.Dorigo, “A Short convergence proof for a class of ant colony Optimization Algorithms”, IEEE Transactions on Evolutionary Computation, 2002 [27] Marco Dorigo, “The Ant System: Optimization by acolony of cooperating agents” [28] Manglam Arya: “Single Nucleotide Polymorphism Genotyping Using Kompetitive Allele Specific PCR (KASP)” CPBMB, COH 54 PHỤ LỤC A Mã lệnh cho thuật toán ACA //Source code for ACA algorithm : void ACA(int t) { bool s1[MAX_SNP] , s2[MAX_SNP] , IBest[MAX_SNP] ; bool lastS[MAX_SNP]; bool ok; int ht = (GBest.size()-1) / t + 1; double h[ht] , sumH; T_node = vector (ht,Tmax); int nc = nc_max , re = re_max; trie pTrie; while (nc > 0) { memset(IBest,true,sizeof(IBest)); for (int i = 0; i < ant_pr; ++i) { memset(s1,false,sizeof(s1)); pTrie.New(); for (int jj = 0; jj < ht; ++jj) { for (int j = 0; j < ht; ++j) if (s1[GBest[j*t]] == false) { memset(s2,false,sizeof(s2)); for (int ii = j*t; (ii < (j+1) * t) && (ii < GBest.size()); ++ii) s2[GBest[ii]] = true; h[j] = heuristic(pTrie,s2); h[j] *= T_node[j]; } else h[j] = 0; int p = pick(ht,h); 55 memset(s2,false,sizeof(s2)); for (int ii = p*t; (ii < (p+1) * t) && (ii < GBest.size()); ++ii) { s1[GBest[ii]] = true; s2[GBest[ii]] = true; } pTrie.add_SNP(s1); if (pTrie.coverage == M) { break; } } if (number_of_SNPs(s1) < number_of_SNPs(IBest)) { for (int ii = 0; ii < N; ++ii) IBest[ii] = s1[ii]; } } update_pheromone(IBest,t); if (number_of_SNPs(IBest) < number_of_SNPs(GBest_grid)) for (int i = 0; i < N; ++i) GBest_grid[i] = IBest[i]; ok = true; for (int i = 0; i < N; ++i) if (lastS[i] != IBest[i]) { ok = false; cout

Ngày đăng: 09/06/2021, 06:49

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan