Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
1,14 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HÀO BÀI TOÁN CẤU TRÚC CHUỖI NGUỒN (Founder Sequences Reconstruction Problem) LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HÀO BÀI TOÁN CẤU TRÚC CHUỖI NGUỒN (Founder Sequences Reconstruction Problem) Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Đỗ Đức Đông PGS.TS Hoàng Xuân Huấn HÀ NỘI, 2015 LỜI CẢM ƠN Trước hết, xin gửi lời biết ơn sâu sắc đến hai người thầy TS Đỗ Đức Đông thầy PGS.TS Hoàng Xuân Huấn, hai thầy dành nhiều thời gian tâm huyết hướng dẫn nghiên cứu giúp hoàn thành tốt luận văn tốt nghiệp Thầy mở cho vấn đề khoa học lý thú, định hướng nghiên cứu lĩnh vực thiết thực vô bổ ích, đồng thời tạo điều kiện thuận lợi tốt cho học tập nghiên cứu Tôi xin bày tỏ lòng biết ơn tới thầy cô trường Đại học Công nghệ tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể cá nhân nói riêng Tôi xin cảm ơn tới thầy anh chị thường xuyên giúp đỡ, trao đổi, góp ý vấn đề khoa học liên quan tới luận văn Cuối bày tỏ lòng biết ơn giúp đỡ anh, chị đồng nghiệp Bộ môn Tin học trường Đại học Công Đoàn, quan nơi công tác tạo điệu kiện tốt cho thời gian động viên hoàn thành luận văn Một lần nữa, xin chân thành cảm ơn! Hà Nội, tháng năm 2015 Học viên Lê Thị Hào LỜI CAM ĐOAN Những kiến thức trình bày luận văn tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tôi xin cam đoan công trình nghiên cứu không chép Hà Nội, tháng năm 2015 Học viên Lê Thị Hào MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƢƠNG I BÀI TOÁN CẤU TRÚC CHUỖI NGUỒN 10 1.1 Một số khái niệm sinh học 10 1.1.1 Một số khái niệm di truyền 10 1.1.2 Quá trình đột biến DNA 11 1.1.3 Khái quát Haplotype tạo từ tái tổ hợp 13 1.2 Phát biểu toán cấu trúc chuỗi nguồn 15 1.3 Mô hình toán 15 1.3.1 Bài toán 1: tìm số điểm ngắt nhỏ 15 1.3.2 Bài toán 2: tìm chuỗi nguồn 16 1.4 Các phƣơng pháp tiếp cận để giải toán cấu trúc chuỗi nguồn 17 1.4.1 Phương pháp giải toán tìm số điểm ngắt nhỏ 18 1.4.2 Phương pháp giải toán tìm số chuỗi nguồn 18 CHƢƠNG II GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) 21 2.1 Giới thiệu thuật toán ACO 21 2.2 Mô hình mô thuật toán 21 2.2.1 Kiến tự nhiên 21 2.2.2 Kiến nhân tạo 23 2.3 Trình bày giải thuật 23 2.3.1 Đồ thị cấu trúc 24 2.3.2 Trình bày thuật toán ACO 25 2.3.3 Thông tin Heuristic 27 2.3.4 Quy tắc cập nhật vết mùi 27 2.3.4.1 Thuật toán AS 27 2.3.4.2 Thuật toán ACS 27 2.3.4.3 Thuật toán Max-Min 28 2.3.4.4 Thuật toán Max- Min trơn 28 2.4 Ứng dụng thuật toán ACO việc giải toán Ngƣời chào hàng Sale Man 29 2.4.1 Bài toán người chào hàng thực tế 29 2.4.2 Phát biểu toán người đưa hàng mô hình hóa đồ thị 29 2.4.3 Áp dụng thuật toán ACO giải toán người chào hàng 29 CHƢƠNG III THUẬT TOÁN MỚI 32 3.1 Thuật toán tối ƣu đàn kiến ACO 32 3.2 Xây dựng đồ thị cấu trúc 32 3.3 Xây dựng lời giải 33 3.4 Thông tin heuristic 34 3.5 Cập nhật mùi 34 3.5.1 Thuật toán Max – Min 35 3.5.2 Thuật toán Max – Min trơn 36 3.5.3 So sánh hai cách cập nhật mùi 36 3.6 Mô tả thuật toán tối ƣu đàn kiến ACO tổng quát giải toán cấu trúc chuỗi nguồn 37 3.7 Số lƣợng kiến 41 3.8 Tham số bay 41 CHƢƠNG IV KẾT QUẢ THỰC NGHIỆM 42 4.1 Mô tả thực nghiệm 42 4.1.1 Các thông số cài đặt 42 4.1.2 Kết thực nghiệm 42 4.2 So sánh kết thực nghiệm 43 4.2.1 So sánh kết với RecBlock 43 4.2.2 So sánh kết với hai thuật toán cập nhật mùi khác 48 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 51 TÀI LIỆU THAM KHẢO 52 DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT STT Từ viết tắt Từ cụm từ Ant Colony Optimization ACO AS ACS DNA Axit Deoxyribo Nucleic NST Nhiễm sắc thể MMAS SMMAS 3-LAS TSP 10 TƯTH (Tối ưu hóa đàn kiến) Ant System (Hệ kiến AS) Ant Colony System (Hệ kiến ACS) Max-Min Ant System (Hệ kiến MMAS) Smooth-Max Min Ant System (Hệ kiến MMAS trơn) Three level ant system (Hệ kiến đa mức 3-LAS) Travelling Salesman Problem (Bài toán người chào hàng) Tối ưu tổ hợp DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Tập HAP tương đương với haplotype C 14 Bảng 2.1 Một số thuật toán ACO 30 Bảng 4.1 So sánh thực nghiệm với RecBlock liệu Random 44 Bảng 4.2 So sánh thực nghiệm với RecBlock liệu evo 45 Bảng 4.3 So sánh thực nghiệm với RecBlock liệu ms 47 Bảng 4.4 Kết thực nghiệm so sánh hai phương pháp MMAS SMMAS với liệu rnd_30_60 49 Bảng 4.5 Kết thực nghiệm so sánh ba phương pháp ACS, MMAS SMMAS với liệu evo_50_250 49 Bảng 4.6 Kết thực nghiệm so sánh ba phương pháp ACS, MMAS SMMAS với liệu ms_50_250 50 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Cấu trúc nhiễm sắc thể 10 Hình 1.2 Minh họa gen nhiễn sắc thể 10 Hình 1.3 Một đột biến điểm xảy phân tử DNA thay cặp nucleotide A-T cặp nucleotide G-C 11 Hình 1.4 Minh họa trình tiến hóa loài từ tổ tiên chung 12 Hình 1.5 Quá trình đột biến hai trình tự DNA 12 Hình 1.6 Ví dụ gen tái tổ hợp tạo từ chuỗi nguồn 16 Hình 1.7 Minh họa đầu vào toán 17 Hình 1.8 Minh họa đầu toán 17 Hình 1.9 Đặc tả thuật toán Recblock 19 Hình 2.1 Một ví dụ hoạt động bầy kiến thực tế 22 Hình 2.2 Một ví dụ đàn kiến nhân tạo 23 Hình 2.3 Đồ thị cấu trúc tổng quát cho toán cực trị hàm 25 Hình 2.4 Đặc tả thuật toán ACO 26 Hình 2.5 Minh họa hình ảnh toán người đưa hàng 29 Hình 2.6 Đặc tả thuật toán ACO cho toán TSP 31 Hình 3.1 Đồ thị xây dựng thuật toán ACO toán cấu trúc chuỗi nguồn 33 Hình 3.2 Lựa chọn đỉnh 34 Hình 3.3 Đặc tả thuật toán ACO 38 Hình 3.4 Đồ thị cấu trúc cho liệu với n= 5, m= 39 Hình 3.5 Mô tả hành trình kiến 40 Hình 3.6 Lời giải kiến 40 Hình 3.7 Phân tích điểm ngắt cho lời giải kiến 41 Hình 4.1 Mô tả INPFILE với liệu rnd_30_90 42 Hình 4.2 Mô tả OUTFILE tìm k =5 liệu rnd_30_90 43 Hình 4.3 Mô tả OUTFILE tìm điểm ngắt liệu rnd_30_90 43 MỞ ĐẦU Tin sinh học lĩnh vực khoa học liên ngành, sinh học phân tử tin học đóng vai trò chủ đạo Sinh học làm môi trường liệu sở, xây dựng hoàn thiện chương trình xử lý liệu ứng dụng làm công cụ hỗ trợ hiệu cho việc nghiên cứu, thu nhận sản xuất sản phẩm sinh học mong muốn khác phục vụ đời sống người…Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phương pháp kĩ thuật tin học để giải toán sinh học phân tử Tin sinh học có tính ứng dụng cao sống, đặc biệt lĩnh vực y-dược lĩnh lực di truyền Di truyền tượng chuyển tính trạng cha mẹ cho thông qua gen bố mẹ Trong sinh học, di truyền chuyển đặc trưng sinh học từ sinh vật cha mẹ đến đồng nghĩa với di chuyển, gen thừa nhận mang thông tin sinh học Chính mà ngày xã hội ngày phát triển, người có nhu cầu tìm hiểu nguồn gốc tổ tiên xa xưa Bài toán cấu trúc chuỗi nguồn toán cho thông tin dạng chuỗi nhiễm sắc thể tại, tìm thông tin nhiễm sắc thể tổ tiên Đó toán lớn sinh học, nhiều người quan tâm nghiên cứu Đã có nhiều thuật toán nghiên cứu công bố giải toán cấu trúc chuỗi nguồn để tìm thông tin di truyền Trong luận văn này, trình bày khảo cứu lại phương pháp giải toán cấu trúc chuỗi nguồn Tôi khảo cứu cài đặt lại thuật toán RecBlock Andrea Roli and Christian Blum đề xuất năm 2009 thuật toán coi hoàn chỉnh đến thời điểm để giải toán cấu trúc chuỗi nguồn Sử dụng ý tưởng xây dựng lời giải RecBlock, luận văn đề xuất thuật toán thuật toán tối ưu đàn kiến Ant colony optimization (ACO) để giải toán cấu trúc chuỗi nguồn mục đích để tìm chuỗi nhiễm sắc thể tổ tiên dựa số lần lai ghép Đây thuật toán lần đưa vào để giải toán cấu trúc chuỗi nguồn Và thực nghiệm thuật toán ACO tối ưu nhiều so với thuật toán RecBlock Luận văn cài đặt với thuật toán cập nhật mùi khác thuật toán ACO kết trả tối ưu thuật toán trước Ngoài phần kết luận, cấu trúc nội dung luận văn bao gồm: 39 Bước 1: Xây dựng đồ thị, đồ thị gồm cột 23 = hàng, hàng gồm bít hoán vị giá trị Hình 3.4 Đồ thị cấu trúc cho liệu với n= 5, m= Bước 2: Mỗi kiến xây dựng cho lời giải cách qua hết cột đồ thị Mỗi cột chọn đỉnh để 40 Hình 3.5 Mô tả hành trình kiến Mỗi hành trình kiến đưa lời giải Hình 3.6 Lời giải kiến Bước 3: Sử dụng để tìm số điểm ngắt lời giải 41 Hình 3.7 Phân tích điểm ngắt cho lời giải kiến Số lƣợng kiến 3.7 Như trình bày chương 1, không sử dụng tìm kiếm địa phương thông tin heuristic không có, giai đoạn đầu vết mùi giúp kiến tìm đường dẫn tới lời giải tốt Nếu sử dụng số lượng kiến ít, giai đoạn đầu không tìm lời giải tốt việc cập nhật mùi cập nhật dựa lời giải không tốt Khi đó, hướng việc tìm kiếm xung quanh lời giải không tốt thuật toán không hiệu Có thể khắc phục phần nhược điểm cách tăng số kiến, để tăng khả tìm lời giải tốt vòng lặp Trong luận văn, cài đặt sử dụng đàn kiến 10 kiến Tham số bay 3.8 Ở vòng lặp, xây dựng lời giải tốt (sử dụng tìm kiếm địa phương thông tin heuristic mạnh), tham số bay xác lập có giá trị lớn, điều giúp kiến quên lời giải xây dựng, tập trung công việc tìm kiếm xung quanh lời giải tốt xây dựng Trong trường hợp ngược lại, vòng lặp, khả kiến tìm lời giải tốt không cao tham số bay phải thiết lập với giá trị nhỏ Trong luận văn cài đặt thực nghiệm chọn thông số bay 42 CHƢƠNG IV KẾT QUẢ THỰC NGHIỆM 4.1 Mô tả thực nghiệm Dựa giải thuật mô tả chương II chương III, luận văn cài đặt toán cấu trúc chuỗi nguồn thuật toán RecBlock thuật toán ACO Cả hai thuật toán xây dựng ngôn ngữ C#, chạy thực nghiệm Intel (R) Core (TM) i3 CPU 2.50GHz Các kết chạy thử nghiệm ba liệu random, evo, ms Bộ random tạo ngẫu nhiên dãy bít và hai liệu chuẩn tạo dựa mô hình tiến hóa evo ms tác giả trước dùng để thực nghiệm [6] Mỗi liệu gồm n tái tổ hợp có độ dài m với n {30, 50}, m {2n, 3n, 5n}, với tập nguồn k = {5, 6, 7, 8, 9, 10} 4.1.1 Các thông số cài đặt Các thông số cần thiểt để chạy thuật toán ACO bao gồm: NumberSeeker, NumberLoop, Tmax, Tmin, α, , ρ, τ0, Break, SumPheromone, Number, Column, MinBreack Trong đó: + NumberSeeker: Tổng số kiến + NumberLoop: Tổng số vòng lặp + Breack: Điểm ngắt + MinBreack: Điểm ngắt nhỏ + SumPheromone: Tổng mật độ mùi + Number: Số hàng đồ thị tương ứng với 2k + Column: Số cột đồ thị 4.1.2 Kết thực nghiệm Thực nghiệm trường hợp với n = {30}, m = {3n}, k = {5} với thông số NumberLoop = 100; NumberSeeker = 10, α = 1, =1, ρ = 0.05 Hình 4.1 Mô tả INPFILE với liệu rnd_30_90 43 Mỗi hàng tái tổ hợp, tái tổ hợp biểu diễn dạng hoán vị hai ký tự File OUTFILE: Là file đầu thị dạng bảng ma trận gồm m cột k hàng Mỗi hàng chuỗi nguồn, ký hiệu chuỗi nguồn theo thứ tự a, b, c, d, e “result.txt” file chứa kết OUTFILE liệu rnd_30_90 với k = Hình 4.2 Mô tả OUTFILE tìm k =5 liệu rnd_30_90 Việc phân tích ma trận gen tái tổ hợp thành phân mảnh từ chuỗi nguồn hiển thị file kết “result1.txt” Điểm ngắt đánh dấu gạch thẳng đứng Đây phân tích với 635 điểm ngắt liệu Hình 4.3 Mô tả OUTFILE tìm điểm ngắt liệu rnd_30_90 4.2 So sánh kết thực nghiệm 4.2.1 So sánh kết với RecBlock Luận văn tiến hành thực nghiệm toán cấu trúc chuỗi nguồn để so sánh thuật toán RecBlock thuật toán ACO Luận văn tiến hành thực nghiệm cho tất liệu random, evo ms 44 Với liệu luận văn thực chạy lần, lấy kết trung bình lần chạy Trong bảng cột thể giá trị tập nguồn với k = {5, 6, 7, 8, 9, 10}, cột thứ thể kết điểm ngắt thuật toán RecBlock, cột thứ thể kết điểm ngắt thuật toán ACO với quy tắc cập nhật mùi SMMAS liệu ngẫu nhiên Bảng 4.1 So sánh thực nghiệm với RecBlock liệu Random Chuỗi nguồn (k) RecBlock ACO rnd - 30 - 60 435.8 415.6 381.5 369.3 344.3 335.2 340.8 314.2 321.3 294.7 10 283.4 274.3 rnd - 30 - 90 672.3 635.5 590.2 578.1 562.5 535.3 500.7 489.6 469.3 455.2 10 441.2 432.8 rnd - 30 - 150 1072.3 1066 975.6 947 899.8 871.2 826.3 801.8 776 743.3 10 711.2 696.5 rnd - 50 - 100 1299.7 1291.4 45 1181.5 1170.2 1106.6 1076.3 1016.4 1006.1 964.1 953 10 927.2 907 rnd - 50 - 150 1932.5 1923.6 1740.4 1722 1637.8 1610.7 1528.5 1509.3 1443.2 1435.2 10 1368.4 1343.6 rnd - 50 - 250 3251.4 3230.8 2987.6 2946.2 2759.3 2708.6 2673.3 2545.3 2415.9 2375.3 10 2282 2280.7 Bảng 4.2 So sánh thực nghiệm với RecBlock liệu evo Chuỗi nguồn (k) RecBlock ACO evo - 30 - 60 202.7 182.4 185.4 113.2 95.3 85.6 71.6 68.7 69.9 66.3 10 67.1 64 evo - 30 - 90 46 251.4 236.6 159.6 159.8 135.4 130 129.6 110 123 101.6 10 97.7 78.4 evo - 30 - 150 450.4 440.3 285.3 272.6 173.5 160 101.6 85.8 88.2 76 10 74.1 67,3 evo - 50 - 100 463.3 442 325.9 314.1 288 272.5 227.3 215 197 193.2 10 157 147.6 evo - 50 - 150 638.3 623 426.4 411 267.8 253.2 206.2 196.1 172 157.3 10 159 149.4 evo - 50 - 250 1312 1296.4 897.3 877 623.4 608.1 47 461 429.5 344 321.8 10 295 273.2 Bảng 4.3 So sánh thực nghiệm với RecBlock liệu ms Chuỗi nguồn (k) RecBlock ACO ms - 30 - 60 137.4 127.3 121.3 110.6 111.7 101 98 90.2 91.4 79 10 78 72.4 ms - 30 - 90 195 174.2 169.4 152.6 135.7 130.2 125.8 117 118.9 100 10 96 90.7 ms - 30 - 150 266.8 257.4 221.5 216.3 181.9 179.6 164.7 159.8 149.2 146.3 10 131.6 130 ms - 50 - 100 463.5 442.3 325.7 314 48 276.4 272.4 217.8 215.6 193 190.1 10 163.2 151.4 ms - 50 - 150 638.4 623.4 426 411.7 253.6 253 196.7 196.3 172 157.6 10 149.1 149.2 ms - 50 - 250 1312.5 1296.7 877.6 877.6 613.9 608.2 461 429.8 344.2 320.1 10 295.8 281.3 Nhận xét: Qua kết thực nghiệm cho thấy thuật toán ACO cho kết tốt RecBlock tất liệu random, evo ms Với liệu thuật toán ACO cho kết tốt thuật toán RecBlock khoảng 5% giá trị Điều giải thích sau, với RecBlock sử dụng thông tin Heuristic nên chạy lần cho kết với ACO vừa sử dụng thông tin Heuristic vừa sử dụng thông tin học tăng cường nên chắn cho kết tốt 4.2.2 So sánh kết với hai thuật toán cập nhật mùi khác Dưới giới thiệu kết thực nghiệm so sánh hai phương pháp MMAS SMMAS với liệu rnd_30_60, evo_50_250 ms_50_250 49 Với thực nghiệm thực nghiệm có giá trị tập nguồn k = {5, 6, 7, 8, 9, 10}, giá trị tập nguồn luận văn thực chạy lần, chọn kết trung bình kết tốt lần chạy Kết phương pháp với liệu nằm ô giao cột dòng tương ứng, số biểu thị kết trung bình, hai số kết tốt kết tồi lần chạy Kết trung bình phản ánh chất lượng thuật toán, kết tốt tồi để tham khảo tính khám phá Các kết tô đậm kết tốt phương pháp Bảng 4.4 Kết thực nghiệm so sánh hai phƣơng pháp MMAS SMMAS với liệu rnd_30_60 Chuỗi nguồn (k) 10 MMAS SMMAS 428.3 415.6 435 422 374.5 369.3 378 370 335.2 345 314.2 318 294.7 299 296 292 276.2 274.3 284 273 315 314 296.7 294 340 335 316.5 314 374 369 336.7 336 420 415 273 283 Bảng 4.5 Kết thực nghiệm so sánh ba phƣơng pháp ACS, MMAS SMMAS với liệu evo_50_250 Chuỗi nguồn (k) MMAS SMMAS 1296.6 1296.2 1303 1296 879.6 877 883 878 608.1 613 435.2 877 877 610.6 609 1301 1295 612 608 429.5 50 436 430 327.2 10 321.8 336 324 328 320 278.7 273.2 285 273 432 429 283 270 Bảng 4.6 Kết thực nghiệm so sánh ba phƣơng pháp ACS, MMAS SMMAS với liệu ms_50_250 Chuỗi nguồn (k) 10 MMAS SMMAS 1306.7 1296.7 1311 1296 880.3 877.6 883 876 608.2 612 429.8 441 320.1 333 324 319 287.4 281 431 426 327.4 320 611 605 436.2 429 881 873 610 607 1308 1294 281.3 288 280 283 Nhận xét: So sánh kết trung bình Thực nghiệm liệu nhỏ liệu random hai liệu lớn liệu chuẩn với tập nguồn k ={5,6,7,8,9,10} nhận thấy SMMAS cho kết trung bình tốt Kết tốt Trong liệu với số tập nguồn khác nhau, thuật toán SMMAS cho kết tốt MMAS hai thuật toán cho kết tối ưu thuật toán RecBlock 51 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN KẾT LUẬN Bài toán cấu trúc chuỗi nguồn toán lớn có ý nghĩa sinh học, giúp giải thích thông tin di truyền tìm thông tin di truyền tổ tiên, gần gũi loài với Trong luận văn, khảo cứu cài đặt lại thuật toán RecBlock dựa ý tưởng RecBlock đề xuất thuật toán ACO để giải toán Sử dụng với hai quy tắc cập nhật mùi khác So sánh thực nghiệm quy tắc cập nhật mùi quy tắc cập nhật mùi Max – Min trơn (SMMAS) tốt với toán cấu trúc chuỗi nguồn So sánh thực nghiệm với thuật toán RecBlock, cho thấy sử dụng thông tin heuristic thuật toán RecBlock đưa vào thuật toán ACO cho kết tốt nhiều HƢỚNG PHÁT TRIỂN Luận văn đề xuất thuật toán ACO để giải toán cấu trúc chuỗi nguồn cho lời giải tối ưu Tuy nhiên với toán có số tập nguồn số tái tổ hợp có độ dài lớn thuật toán chưa giải Trong tương lai nghiên cứu áp dụng vào kỹ thuật trình độ cao để giải toán cấu trúc chuỗi với với kích thước lớn Hơn sử dụng toán cấu trúc chuỗi nguồn để tìm bệnh di truyền để có hướng giải 52 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Đức Đông Hoàng Xuân Huấn (2011), “Về biến thiên vết mùi phương pháp ACO thuật toán mới”, Tạp chí Tin học điều khiển học, T.27, tr 263-275 Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến ứng dụng, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận án Tiến sĩ [3] Hoàng Trọng Phán, Trương Thị Bích Phượng, Trần Quốc Dung (2005), Giáo trình di truyền học, Dự án Giáo dục Đại học- Đại học Huế [4] Lê Sỹ Vinh (2013), Giáo trinh Nhập môn Tin sinh tr.12-tr.23 – trường Đại học Công nghệ - Đại học Quốc gia Hà Nội [2] Tiếng Anh [5] V Bafna and V Bansal The number of recombination events in a sample history: Conict graph and lower bounds IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1:78- 90, 2004 [6] Andrea Roli and Christian Blum.Tabu Search for the Founder Sequence Reconstruction Problem: A Preliminary Study (2009) [7] Andrea Roli, Christian Blum Large Neighbourhood Search Algorithms for the Founder Sequences Reconstruction Problem (2012) [8] C Blum and A Roli Metaheuristics in combinatorial optimization: Overview and conceptual comparison ACM Computing Surveys, 35(3):268 - 308, 2003 [9] E Ukkonen Finding founder sequences from a set of recombinants In R Guig o and D Gus-eld, editors, Proceedings of the 2nd Workshop on Algorithms in Bioinformatics { WABI2002, volume 2452 of Lecture Notes in Computer Science, pages 277- 286 Springer, Heidelberg, Germany, 2002 [10] G W Thyson, J Chapman, P Hugenholtz E Allen, R Ram, P Richardson, V Solovyev, E Rubin, D Rokhsar, and J Baneld Community structure and metabolism through reconstruction of microbial genomes from the environment Nature, 428:37- 43, 2004 [11] Jingliwu, Huawang A Parthenogenetic Algorithm for the Founder Sequence Reconstruction Problem (2013) [12] M Dorigo, L.M Gambardella (1997) “Ant colony system: A cooperative learning approach to the traveling salesman problem”, IEEE Transon evolutionary computation, vol.1, no.1, 1997, pp 53-66 [13] M Dorigo, T.Stützle (2004) Ant Colony Optimization, The MIT Press, Cambridge [14] M Dorigo, V Maniezzo, A Colorni (1991) “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy 53 [15] N El-Mabrouk and D Labuda Haplotypes histories as pathways of recombinations Bioinformatics, 20(12):1836-1841, 2004 [16] Nadia El-Mabrouk, and Damian Labuda Haplotypes histories as pathways of recombinations [17] P Rastas and E Ukkonen Haplotype inference via hierarchical genotype parsing In R Giancarlo and S Hannenhalli, editors, Proceedings of the 7th Workshop on Algorithms in Bioinformatics { WABI2007, volume 4645 of Lecture Notes in Computer Science, pages 85- 97 Springer, Heidelberg, Germany, 2007 [18] R.R Hudson and N.L Kaplan Statistical properties of the number of recombination events in the history of a sample of dna sequences Genetics, 111:147- 164, 1985 [19] R.R Hudson and N.L Kaplan Statistical properties of the number of recombination events in the history of a sample of dna sequences Genetics, 111:147- 164, 1985 [20] S Benedettini, C Blum, and A Roli A randomized iterated greedy algorithm for the founder sequence reconstruction problem In C Blum and R Battiti, editors, Proceedings of the Fourth Learning and Intelligent OptimizatioN Conference { LION 4, volume 6073 of Lecture Notes in Computer Science, pages 37{51 Springer, Heidelberg, Germany, 2010 [21] S.R Myers and R.C Griths Bounds on the minimum number of recombination events in a sample history Genetics, 163(1):375 - 394, 2003 [22] T Stützle, H H Hoos (2000) An analytical upper bound on the minimum number of recombinations in the historyof SNP sequences in populations Information Processing Letters, 109(9):427- 431, 2009 [23] Y Wu An analytical upper bound on the minimum number of recombinations in the historyof SNP sequences in populations Information Processing Letters, 109(9):427- 431, 2009 [...]... đã phân tích b i < /b> toán < /b> cấu < /b> trúc < /b> chuỗi < /b> nguồn < /b> được chia làm hai b i < /b> toán < /b> nhỏ B i < /b> toán < /b> thứ nhất là tìm ra số điểm ngắt nhỏ nhất, b i < /b> toán < /b> thứ hai là tìm ra số chuỗi < /b> nguồn < /b> sao cho số tái tổ hợp con được tạo ra từ các chuỗi < /b> nguồn < /b> là nhỏ nhất B i < /b> toán < /b> 1 dùng để làm hàm mục tiêu cho b i < /b> toán < /b> 2 B i < /b> toán < /b> 2 là b i < /b> toán < /b> chính để giải quyết b i < /b> toán < /b> cấu < /b> trúc < /b> chuỗi < /b> nguồn < /b> 18 1.4.1 Phƣơng pháp giải b i < /b> toán < /b> tìm ra... tiêu của b i < /b> toán < /b> là tìm ra chuỗi < /b> gen di truyền thích hợp được thiết lập để đạt được chuỗi < /b> di truyền của cá thể Việc thiết lập các chuỗi < /b> gen này được xem là mô hình của b i < /b> toán < /b> cấu < /b> trúc < /b> chuỗi < /b> nguồn,< /b> trong đó phải tìm ra b chuỗi < /b> gen mà mỗi cá thể của nó đều đạt được từ việc tái tạo chuỗi < /b> gen và giảm thiểu số lượng lai ghép B i < /b> toán < /b> mang tên b i < /b> toán < /b> cấu < /b> trúc < /b> chuỗi < /b> nguồn < /b> Tìm ra lời giải của b i < /b> toán < /b> này... hợp C Chuỗi < /b> nguồn < /b> F 010 01000 011 01110 (a) 0011 1000 1 0010 011 (b) 1 0011 100 1011 1000 (c) Phân rã (Decomposition) 1011 1010 011 01110 1011 0011 Trong ví dụ trên lấy tái tổ hợp C1 đi so sánh với 3 chuỗi < /b> nguồn < /b> a, b, c => < /b> Tìm ra được chuỗi < /b> nguồn < /b> a phân tích tái tổ hợp C1 thành độ dài nhất là 2 => < /b> xác định 1 điểm ngắt B ớc 2: Xét các vị trí còn lại trong C1: tiến hành xét với vị trí còn lại từ các chuỗi < /b> nguồn.< /b> .. với cij , = < /b> {0,1} 16 Cho tập F gồm k chuỗi < /b> nguồn < /b> F= {F1,…, Fk} Mỗi chuỗi < /b> nguồn < /b> Fi có chiều dài m trên chữ cái : Fi f i1 f i 2 f im với f ij , = < /b> {0,1} Output Tìm ra số điểm ngắt là nhỏ nhất Ví dụ 1: B gen tái tổ hợp C Chuỗi < /b> nguồn < /b> F 010 01000 011 01110 (a) 0011 1000 1 0010 011 (b) 1 0011 100 1011 1000 (c) Phân rã (Decomposition) 1011 1010 011 01110 1011 0011 Hình 1.6 Ví dụ về b gen tái tổ... Trình b y sơ lược các khái niệm sinh học, phát biểu b i < /b> toán < /b> cấu < /b> trúc < /b> chuỗi < /b> nguồn < /b> Giới thiệu một vài thuật toán < /b> giải quyết b i < /b> toán,< /b> trình b y lại thuật toán < /b> RecBlock Chương 2: Giới thiệu thuật toán < /b> Ant colony optimization (ACO) và một vài thuật toán < /b> cập nhật mùi khác nhau trong ACO Ví dụ về b i < /b> toán < /b> người chào hàng giải quyết b ng thuật toán < /b> ACO Chương 3: Đề xuất thuật toán < /b> mới, đó là thuật toán < /b> Ant... một lần B i < /b> toán < /b> TSP chính là b i < /b> toán < /b> tìm chu trình Hamilton có độ dài ngắn nhất trên đồ thị đầy đủ có trọng số 2.4.3 Áp dụng thuật toán < /b> ACO giải quyết b i < /b> toán < /b> ngƣời chào hàng B i < /b> toán < /b> TSP được nêu ra trong thế kỉ thứ XIX b i nhà toán < /b> học Ireland William Roman Hamilton và nhà toán < /b> học Anh Thomas Kirkman B i < /b> toán < /b> TSP là một trong 30 những b i < /b> toán < /b> nghiên cứu sâu nhất trong tối ưu hóa B i < /b> toán < /b> thường... của b i < /b> toán)< /b> ; Until (điều kiện kết thúc); Đưa ra lời giải tốt nhất (chu trình với tổng độ dài ngắn nhất); End Hình 2.6 Đặc tả thuật toán < /b> ACO cho b i < /b> toán < /b> TSP 32 CHƢƠNG III THUẬT TOÁN MỚI Ở chương I, luận văn đã trình b y về b i < /b> toán < /b> cấu < /b> trúc < /b> chuỗi < /b> nguồn < /b> và một số cách tiếp cận để giải b i < /b> toán,< /b> trong chương III chúng tôi đề xuất phương pháp tối ưu đàn kiến (ACO) để giải quyết b i < /b> toán < /b> 3.1 Thuật toán.< /b> .. cij , = < /b> {0,1} Một số k là cố định 17 Ví dụ: Đầu vào của b i < /b> toán < /b> được biểu diễn dưới dạng ma trận như sau: Hình 1.7 Minh họa đầu vào của b i < /b> toán < /b> Output Tìm giải pháp hợp lý F* đưa ra k chuỗi < /b> nguồn < /b> mà có số điểm ngắt là nhỏ nhất Đầu ra của b i < /b> toán < /b> được biểu diễn dưới dạng sau: Hình 1.8 Minh họa đầu ra của b i < /b> toán < /b> 1.4 Các phƣơng pháp tiếp cận để giải b i < /b> toán < /b> cấu < /b> trúc < /b> chuỗi < /b> nguồn < /b> Như ở... nhất 2.3 Trình b y giải thuật Khi áp dụng ACO cho các b i < /b> toán < /b> cụ thể, có b n yếu tố quyết định hiệu quả của thuật toán:< /b> - Xây dựng đồ thị cấu < /b> trúc < /b> thích hợp: Tùy thuộc vào đặc thù của b i < /b> toán < /b> - Xây dựng lời giải tuần tự: Tùy thuộc vào đặc thù của b i < /b> toán < /b> 24 - Chọn thông tin heuristic: Thông tin heuristic tốt sẽ làm tăng hiệu quả của thuật toán < /b> Tuy nhiên có nhiều b i < /b> toán < /b> không có thông tin này thì... optimization (ACO) để giải quyết b i < /b> toán < /b> cấu < /b> trúc < /b> chuỗi < /b> nguồn < /b> Đưa ba quy tắc cập nhật mùi khác nhau đó là ACS, MMAS, SMMAS để giải quyết b i < /b> toán < /b> Chương 4: Đưa ra kết quả thực nghiệm của luận văn, so sánh kết quả của thuật toán < /b> ACO với các quy tắc cập nhật mùi khác nhau, so sánh kết quả của thuật toán < /b> ACO với thuật toán < /b> RecBlock 10 CHƢƠNG I B I TOÁN CẤU TRÚC CHUỖI NGUỒN 1.1 Một số khái niệm trong ... HỌC CÔNG NGHỆ LÊ THỊ HÀO B I TOÁN CẤU TRÚC CHUỖI NGUỒN (Founder Sequences Reconstruction Problem) Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 604 8010 4 LUẬN VĂN THẠC SĨ CÔNG... hợp C Chuỗi nguồn F 010 01000 011 01110 (a) 0011 1000 1 0010 011 (b) 1 0011 100 1011 1000 (c) Phân rã (Decomposition) 1011 1010 011 01110 1011 0011 Hình 1.6 Ví dụ gen tái tổ hợp đƣợc tạo từ chuỗi nguồn. .. từ chuỗi nguồn dài tiến hành chọn chuỗi nguồn Nếu tồn chuỗi nguồn trùng với tái tổ hợp C1 => chuyển sang b ớc Ví dụ: B gen tái tổ hợp C Chuỗi nguồn F 010 01000 011 01110 (a) 0011 1000 1 0010 011 (b)