Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
1,43 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ ĐỨC ĐÔNG ĐẶNG THỊ THU HIỀN PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN VÀ ỨNG DỤNG I TOÁN NỘI SUY VÀ MẠNG NƠRON RBF LUẬN ÁNÁN TIẾN SĨSĨ CÔNG LUẬN TIẾN CÔNGNGHỆ NGHỆTHÔNG THÔNG TIN TIN Hà nội - 2009 Hà nội – 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐỖ ĐỨC ĐÔNG PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hoàng Xuân Huấn Hà nội – 2012 MỤC LỤC Lời cam đoan Lời cảm ơn Mục lục Danh mục ký hiệu chữ viết tắt Danh mục bảng 12 Danh mục hình vẽ, đồ thị 13 MỞ ĐẦU 15 Chương TỐI ƯU TỔ HỢP 20 1.1 Bài toán tối ưu tổ hợp tổng quát 20 1.2 Các ví dụ 22 1.2.1 Bài toán người chào hàng 22 1.2.2 Bài tốn quy hoạch tồn phương nhị phân khơng ràng buộc 23 1.3 Các cách tiếp cận 24 1.3.1 Heuristic cấu trúc 24 1.3.2 Tìm kiếm cục 25 1.3.3 Phương pháp metaheuristic 26 1.4 Kết luận chương 27 Chương PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN 28 2.1 Từ kiến tự nhiên đến kiến nhân tạo 28 2.1.1 Kiến tự nhiên 28 2.1.2 Kiến nhân tạo 31 2.2 Phương pháp ACO cho toán TƯTH tổng quát 32 2.2.1 Đồ thị cấu trúc 32 2.2.2 Mơ tả thuật tốn ACO tổng quát 34 2.3 Phương pháp ACO giải toán người chào hàng 37 2.3.1 Bài toán TSP đồ thị cấu trúc 38 2.3.2 Các thuật toán ACO cho toán TSP 39 2.4 Một số vấn đề liên quan 49 2.4.1 Đặc tính hội tụ 49 2.4.2 Thực song song 50 2.4.3 ACO kết hợp với tìm kiếm cục 50 2.4.4 Thông tin heuristic 51 2.4.5 Số lượng kiến 51 2.4.6 Tham số bay 52 2.5 Kết luận chương 52 Chương TÍNH BIẾN THIÊN CỦA VẾT MÙI VÀ CÁC THUẬT TOÁN MỚI 53 3.1 Thuật toán tổng quát 53 3.1.1 Quy tắc chuyển trạng thái 54 3.1.2 Cập nhật mùi 54 3.2 Phân tích tốn học xu vết mùi 55 3.2.1 Ước lượng xác suất tìm thấy phương án 55 3.2.2 Đặc tính vết mùi 58 3.3 Thảo luận 60 3.3.1 Tính khai thác khám phá 61 3.3.2 Các thuật toán cập nhật mùi theo quy tắc ACS 63 3.3.3 Các thuật toán cập nhật mùi theo quy tắc MMAS 63 3.4 Đề xuất phương pháp cập nhật mùi 63 3.5 Nhận xét thuật toán 65 3.5.1 Ưu điểm sử dụng SMMAS 3-LAS 65 3.5.2 Tính bất biến 66 3.6 Kết thực nghiệm cho hai toán TSP UBQP 67 3.6.1 Thực nghiệm toán TSP 67 3.6.2 Thực nghiệm tốn quy hoạch tồn phương nhị phân không ràng buộc 71 3.7 Kết luận chương 80 Chương THUẬT TOÁN ACOHAP GIẢI BÀI TOÁN SUY DIỄN HAPLOTYPE 81 4.1 Bài toán suy diễn haplotype tiêu chuẩn pure parsimony 81 4.1.1 Giải thích genotype 81 4.2.2 Suy diễn haplotype theo tiêu chuẩn pure parsimony 83 4.2 Thuật toán ACOHAP 84 4.2.1 Mơ tả thuật tốn 84 4.2.2 Đồ thị cấu trúc 85 4.2.3 Thủ tục xây dựng lời giải kiến 86 4.2.4 Thông tin heuristic 89 4.2.5 Cập nhật vết mùi 91 4.2.6 Hoán vị thứ tự xử lý vị trí genotype 91 4.2.7 Sử dụng tìm kiếm cục 92 4.2.8 Độ phức tạp thuật toán 92 4.3 Kết thực nghiệm 93 4.3.1 Thực nghiệm liệu chuẩn 94 4.3.2 Thử nghiệm liệu thực 95 4.4 Kết luận chương 96 Chương THUẬT TOÁN AcoSeeD TÌM TẬP HẠT GIỐNG CĨ CÁCH TỐI ƯU 97 5.1 Bài tốn tìm tập hạt giống có cách tối ưu số vấn đề liên quan 97 5.1.1 Bài tốn tìm tập hạt giống tối ưu 97 5.1.2 Các cách tiếp cận 99 5.2 Thuật toán AcoSeeD giải tốn tìm tập hạt giống tối ưu 101 5.2.1 Mơ tả thuật tốn 101 5.2.2 Thuật toán xác định độ dài hạt giống 102 5.2.3 Thuật toán xây dựng hạt giống 103 5.2.4 Tìm kiếm cục 105 5.2.5 Cập nhật mùi 106 5.3 Kết thực nghiệm 106 5.3.1 Dữ liệu thực nghiệm 107 5.3.2 Kết thực nghiệm liệu nhỏ với độ dài hạt giống xác định 107 5.3.3 Kết thực nghiệm liệu trung bình 108 5.3.4 Kết thực nghiệm liệu lớn 109 5.4 Kết luận chương 111 Chương ỨNG DỤNG PHƯƠNG PHÁP ACO CẢI TIẾN HIỆU QUẢ DỰ ĐOÁN HOẠT ĐỘNG ĐIỀU TIẾT GEN 112 6.1 Bài toán dự đoán hoạt động điều tiết gen 112 6.1.1 Mối liên kết yếu tố phiên mã phát triển phôi ruồi giấm Drosophila 113 6.1.2 Dự đoán hoạt động điều tiết gen phương pháp học máy SVM 114 6.2 Thuật tốn di truyền tìm tham số cho SVM dùng dự đoán hoạt động điều tiết gen 116 6.2.1 Mã hóa tham số cần tìm 117 6.2.2 Các phép toán di truyền 117 6.2.3 Lược đồ thuật toán di truyền 118 6.3 Thuật toán tối ưu đàn kiến tìm tham số cho SVM dùng dự đoán hoạt động điều tiết gen 119 6.3.1 Đồ thị cấu trúc ma trận mùi 119 6.3.2 Thủ tục xây dựng lời giải kiến cập nhật mùi 120 6.4 Kết thực nghiệm 121 6.5 Kết luận chương 122 KẾT LUẬN 123 DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ CỦA TÁC GIẢ 125 TÀI LIỆU THAM KHẢO 126 MỞ ĐẦU Tính cấp thiết luận án Trong thực tế xây dựng hệ thơng tin, ta thường gặp tốn tối ưu tổ hợp (TƯTH) Trong phải tìm giá trị cho biến rời rạc để làm cực trị hàm mục tiêu Đa số tốn thuộc lớp NP-khó Trừ tốn cỡ nhỏ tìm lời giải cách tìm kiếm vét cạn, cịn lại thường khơng thể tìm lời giải tối ưu Đối với toán cỡ lớn khơng có phương pháp giải đúng, đến người ta dùng cách tiếp cận sau: 1) Tìm kiếm heuristic để tìm lời giải đủ tốt; 2) Tìm kiếm cục để tìm lời giải tối ưu địa phương; 3) Tìm lời giải gần nhờ thuật tốn mô tự nhiên như: mô luyện kim, giải thuật di truyền, tối ưu bầy đàn,… Hai cách tiếp cận đầu thường cho lời giải nhanh cải thiện thêm lời giải tìm được, nên cách tiếp cận thứ ba sử dụng rộng rãi cho tốn cỡ lớn Trong phương pháp mơ tự nhiên, tối ưu đàn kiến (Ant Colony Optimization - ACO) cách tiếp cận m tah uristic tương đối mới, giới thiệu b i origo n m 1 nghiên cứu ứng dụng rộng rãi cho tốn TƯTH khó Các thuật tốn ACO sử dụng kết hợp thông tin kinh nghiệm (h uristic) học t ng cường qua vết mùi kiến nhân tạo để giải tốn TƯTH cách đưa tốn tìm đường tối ưu đồ thị cấu trúc tương ứng toán Phương pháp áp dụng rộng rãi để giải nhiều tốn khó hiệu trội chúng so với phương pháp mô tự nhiên khác chứng tỏ thực nghiệm Khi áp dụng thuật toán tối ưu đàn kiến thông dụng ACS MMAS, người ta phải tìm lời giải đủ tốt, s xác định tham số cho cận cận vết mùi Điều gây nhiều khó kh n áp dụng thuật toán cho toán Ngoài ra, lượng mùi cập nhật cho thành phần đồ thị tỷ lệ với giá trị hàm mục tiêu lời giải chứa liệu có phản ánh thông tin học t ng cường hay thảo luận Việc nghiên cứu sâu thuật tốn ACO ứng dụng nhiều người quan tâm Từ n m đến nay, n m có hội nghị quốc tế phương pháp tổ chức Brussels Mục tiêu luận án 1) Phân tích xu biến thiên vết mùi thuật tốn ACO, s đề xuất quy tắc cập nhật mùi dễ sử dụng hiệu 2) Đề xuất thuật toán giải số tốn thời Các đóng góp luận án ựa phân tích tốn học, luận án đề xuất quy tắc cập nhật mùi: Đa mức (MLAS), Max Min trơn (SMMAS) Ưu điểm trội thuật toán kiểm định thực nghiệm toán chuẩn như: lập lịch sản xuất (Job Shop Scheduling - JSS), người chào hàng (Traveling Salesman Problem - TSP), quy hoạch tồn phương nhị phân khơng ràng buộc (Unconstrained Binary Quadratic Programming - UBQP) Trường hợp thơng tin h uristic có ảnh hư ng nhiều tới kết tìm kiếm, luận án đề xuất quy tắc mức (3-LAS) kiểm định hiệu qua tốn người chào hàng Thực nghiệm cho thấy hiệu quy tắc quy tắc SMMAS đơn giản dễ sử dụng hơn, thích hợp cho ứng dụng rộng rãi Nhờ quy tắc cập nhật mùi SMMAS, luận án đề xuất thuật toán ứng dụng cho toán suy diễn haplotyp , tốn tìm tập hạt giống tối ưu Ngoài ra, luận án đưa lược đồ ứng dụng ACO, thuật toán di truyền xác định tham số dùng phương pháp SVM (Support Vector Machine - SVM) cho tốn dự báo hoạt động điều hịa g n Ưu điểm trội đề xuất kiểm nghiệm thực nghiệm liệu tin cậy Bố cục luận án Ngoài phần kết luận, luận án tổ chức sau Chương 1: Luận án giới thiệu phát biểu toán tối ưu tổ hợp dạng tổng quát để tiện dụng sau Chương 2: Những nét phương pháp tối ưu đàn kiến giới thiệu chương Chương 3: Dựa phân tích tốn học biến thiên vết mùi, luận án đề xuất thuật toán MLAS, SMMAS 3-LAS, hiệu thuật toán kiểm nghiệm hai toán cổ điển TSP UBQP Chương 4: Trình bày thuật tốn ACOHAP giải tốn suy diễn haplotype Chương 5: Trình bày thuật tốn AcoS giải tốn tìm tập hạt giống tối ưu ứng dụng tìm kiếm tương đồng chuỗi sinh học Chương 6: Giới thiệu thuật toán GASVM ACOSVM để cải tiến dự báo hoạt động điều tiết g n Quá trình m rộng tiếp tục kiến tìm lời giải chấp nhận ( ) với độ dài không Chú ý Quy tắc khác so với quy tắc chuyển trạng thái thuật tốn ACS cơng thức 2.1, không ảnh hư ng tới kết phân tích tốn học sau Ký hiệu ( ) lời giải tốt kiến tìm lần lặp thứ ( ) lời giải tốt bước lặp thứ , ( ) khơng tốt ( ) ta có ( ) ( ) Ta quan tâm tới lời giải gần ( ) 3.1.2 Cập nhật mùi Ở luận án xét hai quy tắc điển hình sử dụng phổ biến xuất phát từ ACS MMAS Giả sử hàm giá trị thực xác định cho ( ) ( ) ( ) ( ) ( ) (trong toán TSP ( ) nghịch đảo độ dài đường tương ứng), bước lặp cường độ vết mùi thay đổi th o quy tắc sau Quy tắc ACS: Quy tắc th o ACS, bao gồm cập nhật địa phương toàn cục Cập nhật mùi địa phương Nếu kiến th m cạnh ( ), tức ( ) ( ) cạnh thay đổi mùi th o công thức: ( ) (3.2) Cập nhật mùi toàn cục Cập nhật mùi toàn cục cho cạnh thuộc ( ): ( ) (3.3) ( ( )) Quy tắc MMAS Quy tắc thực th o MMAS Sau kiến xây dựng xong lời giải bước lặp, vết mùi thay đổi th o cơng thức: ( ) (3.4) Trong đó, ( ) ( ) ( ( )) { (3.5) ( ) ( ) { }( ) >0 tham số 3.2 Phân tích tốn học xu vết mùi Mục nghiên cứu tính hội tụ thuật toán ACS MMAS, sau ước lượng xác suất tìm thấy phương án bước lặp , luận án khảo sát thay đổi vết mùi 3.2.1 Ước lượng xác suất tìm thấy phương án Mệnh đề 3.1 Các khẳng định sau a) Bài toán tổng qt ln có lời giải tối ưu 10 b) Với kết thực nghiệm, giá trị ( ( )) hội tụ cho lần chạy dần vơ hạn c) Ta có đánh giá sau { ( ( ))} (3.6) { ( ( ))} Về sau ta giả thiết ( ( )) Định nghĩa Với thuộc , đại lượng () { } gọi { () } gọi là hệ số lệch heuristic đỉnh đại lượng hệ số lệch h uristic toán Với , ta ký hiệu ( ) xác suất để kiến tìm bước lặp , mệnh đề sau cho ta ước lượng cận Định lý 3.1 Với với , ta ln có: ( ) (3.7) ( xác định b i cơng thức: Định lý 3.2 Với có: ( ) bé tuỳ ý, tồn cho với ) ta 3.2.2 Đặc tính vết mùi Ta thấy thực tế, bước lặp đủ lớn khả n ng ( ( )) ( ( )) (và ( ) ( )) bé nên từ bước lặp có cạnh ( ) không thuộc vào ( ) ln thuộc vào Ta khảo sát đặc điểm trường hợp Định lý 3.3 Giả sử cạnh ( ) thuộc vào lời giải chấp nhận tồn ( ) cho ( ) ) khẳng định sau a) ( ) hội tụ th o xác suất tới dùng quy tắc cập nhật mùi ACS b) ( ) với ( ) dùng quy tắc cập nhật mùi MMAS Định lý 3.4 Giả sử cạnh ( ) ( ) a) Nếu cập nhật mùi th o ACS thì: lim t i, j (t ) khẳng định sau g ( w(T )) 1 (1 ) m1 (3.13) b) Nếu cập nhật mùi th o MMAS thì: lim t i, j (t ) g ( w(T )) (3.14) 3.3 Thảo luận Ta thấy chất lượng thông tin h uristic tốt nâng cao hiệu thuật toán, nhiên quy tắc khơng phải ln có khó can thiệp để thay đổi chất 11 lượng o ta quan tâm tới cách cập nhật mùi để nâng cao chất lượng thuật toán ưới đây, sau nhận xét chung đặc tính khai thác khám phá thuật toán, luận án nhận xét quy tắc cập nhật mùi nêu đưa số đề xuất Tính khai thác việc tập trung tìm kiếm lời giải quanh phạm vi cạnh ( ) thuộc lời giải tốt biết tới thời điểm xét cịn tính khám phá tìm kiếm phạm vi khác Trong cách cập nhật mùi G-b st, ta biết ( ) nên việc tìm kiếm quanh hạn chế nhiều tính khám phá cịn cập nhật th o Ib st m rộng miền Vì thực hành cập nhật th o I-b st tốt G-best Trong toán tối ưu tổ hợp, thường xác suất để phương án cho trước kiến tìm phép lặp bé Vì sau số bước lặp cường độ vết mùi cạnh không thuộc ( ) bé giảm khả n ng khám phá chúng chúng hứa hẹn thuộc lời giải tốt Chẳng hạn, với tốn TSP ta có mệnh đề sau Mệnh đề 3.2 Trong tốn TSP khơng định hướng, chu trình Hamilton (đường liền) qua cạnh ( ) khơng qua cạnh ( ) đổi nhiều cạnh để có chu trình qua cạnh ( ) mà không qua ( ) Các điểm hạn chế ACO Mệnh đề cho thấy thuật toán bắt đầu, vết mùi kh i tạo cạnh ( ) “tốt hơn” cạnh ( ), thuộc chu trình dài đảo ngược cách ngẫu nhiên Khi cạnh ngẫu nhiên mà không cập nhật mùi sau số bước cường độ mùi nhanh chóng bị giảm xuống khó kiến chọn sau “chất lượng” chưa “xấu” Nếu kh i tạo mùi khơng dùng thơng tin h uristic xác suất cạnh kiến cho sử dụng lần lặp đầu , xác suất bé lớn Như tùy th o loại toán mà tỷ lệ có ý nghĩa để cân tính khám phá khai thác thuật toán Các lượng mùi cập nhật ACS MMAS phụ thuộc vào giá trị hàm mục tiêu lời giải mà kiến xây dựng bược lặp Việc xác định giá trị , hay phụ thuộc vào tương quan với giá trị chưa xác định trước tốn thuật tốn tốt 3.4 Đề xuất phương pháp cập nhật mùi ựa phân tích trên, luận án đề xuất quy tắc cải tiến ACS MMAS a) Phương pháp cập nhật mùi đa mức: MLAS 12 ựa vào nhận xét mục trước, thay cho việc bay vết mùi thành phần không thuộc lời giải kiến lần cập nhật mùi bước lặp ta cho t ng dần Độ lệch cho phép ta điều khiển tính hội tụ khám phá Nếu thấy lời giải tốt thay đổi cho gần để t ng tính khám phá ngược lại cho dịch xa lời giải tập trung tìm kiếm quanh lời giải tốt tìm Quy tắc thử nghiệm cho toán TSP JSS cho kết khả quan so với MMAS Tuy nhiên việc điều khiển độ lệch khó cho tốn cụ thể nên thay b i phương pháp 3-LAS trình bày phần c) b) Phương pháp Max-Min trơn: SMMAS ựa vào nhận xét mục trên, ta thấy không nên giảm vết mùi cạnh không thuộc lời giải tốt nhanh quy tắc MMAS mà nên dùng quy tắc Max-Min trơn sau: ( ) ( ) ( ) với (3.16) { ( ) ( ) Khi cài đ t, lấy c) Phương pháp 3-LAS Đối với tốn mà thơng tin h uristic ảnh hư ng nhiều tới chất lượng tìm kiếm lời giải, chẳng hạn tốn TSP phương pháp 3-LAS tương tự ACS dễ dùng hiệu tốt Phương pháp dùng thêm tham số thuộc khoảng ( ) cập nhật mùi tương tự SMMAS cho cạnh có kiến sử dụng thuộc ( ), cụ thể là: ( ) ( với { ( )̅ ( ) ) ( ) (3.17) 3.5 Nhận xét thuật toán Trong ba phương pháp cập nhật mùi trên, hai phương pháp SMMAS 3LAS đơn giản dễ sử dụng nên luận án nêu ưu điểm hai thuật tốn sử dụng nhận xét tính bất biến chúng Ưu điểm sử dụng Ta thấy thuật tốn SMMAS 3-LAS có số ưu điểm trội sau so với ACS MMAS 13 1) Với ACS MMAS, để xác định hay người ta cần tìm lời giải th o phương pháp h uristic dựa vào giá trị hàm mục tiêu Vì giá trị hàm mục tiêu nhận ngẫu nhiên, nên khó xác định tốt tham số cho học t ng cường Quy tắc cập nhật cho phép ta xác định tham số đơn giản hợp lý hơn, cụ thể: SMMAS 3-LAS ta khơng cần xác định xác giá trị mà cần xác định tỉ lệ Trong thực nghiệm, luận án thiết đặt xác định qua tỉ lệ Cần nhấn mạnh rằng, việc cần lựa chọn tỉ lệ đơn giản thời gian thực nghiệm nhiều so với việc lựa chọn cụ thể hai tham số 2) Việc thêm mùi cho cạnh thuộc lời giải tốt bước lặp thuật toán ACS MMAS, ta phải xây dựng hàm để tính lượng mùi thêm dựa chất lượng lời giải kiến xây dựng Ví dụ, tốn TSP, ACS MMAS sử dụng hàm nghịch đảo độ dài đường kiến xác định Điều khó kh n áp dụng ACS (hoặc MMAS) toán Tuy nhiên, SMMAS 3-LAS không cần phải xây dựng hàm 3) ễ dàng kiểm tra thuật toán có độ phức tạp MMAS ACS, phép tốn MMAS khơng phải tính hàm mục tiêu lượng mùi cập nhật so sánh để giới hạn vết mùi khoảng Th o cách cập nhật SMMAS 3-LAS, vết mùi ln khoảng Tính bất biến Hai tốn TƯTH ( ) ( ), ta gọi chúng hai thể tương ứng toán ( ) ( ( )) với thuộc hàm đơn điệu t ng chặt Với giả thiết tính lặp máy tạo số giả ngẫu nhiên ta có kết luận Định lý 3.5 Giả sử hai thể toán TƯTH tùy ý giải hai thuật toán SMMAS 3-LAS với số lần lặp nhờ dùng máy phát lặp cho ta dãy lời giải v ctơ vết mùi 3.6 Kết thực nghiệm cho hai toán TSP UBQP Luận án thực nghiệm thuật toán cho tốn TSP so sánh với MMAS Ngồi ra, luận án so sánh SMMAS với MMAS cho toán UBQP Thực nghiệm cho thấy SMMAS đơn giản mà tốt MLAS, 3-LAS phương pháp đề xuất tốt MMAS 14 Chương Thuật toán ACOHAP giải toán suy diễn haplotype Suy diễn haplotyp giúp ta hiểu cấu trúc di truyền quần thể dựa liệu kiểu g n (g notyp ) tổ chức lưỡng bội Th o tiêu chuẩn tìm tập haplotyp nhỏ (pur parsimony), toán suy diễn haplotyp tr thành toán tối ưu tổ hợp thuộc lớp NP-khó Chương này, luận án đề xuất thuật tốn hiệu có tên ACOHAP giải toán suy diễn haplotyp th o tiêu chuẩn pur parsimony Thực nghiệm liệu chuẩn liệu thực cho thấy ưu điểm trội so với phương pháp tốt thời 4.1 Bài toán suy diễn haplotype tiêu chuẩn pure parsimony Trong tổ chức lưỡng bội, hầu hết nhiễm sắc thể có hai “bản sao” khơng giống Một haplotyp g notyp tổ chức lưỡng bội, mang thơng tin cho phép nghiên cứu triệu chứng tác nhân gây bệnh di truyền Bài toán suy diễn haplotype từ tập g notyp có độ dài , xác định tập haplotyp cho cặp kết hợp từ chúng tạo nên tập g notyp xét Hiện nay, toán suy diễn haplotp thách thức quan trọng nghiên cứu di truyền sinh vật lưỡng bội nói chung người nói riêng Trong biễu diễn dạng toán học toán suy diễn haplotyp , genotype biễu diễu xâu độ dài ký tự thuộc tập {0, 1, 2} Các ký tự thể hiển all n g notyp vị trí tương ứng đồng hợp tử, ký tự biểu thị all n dạng tự nhiên (wild typ ) ký tự biểu thị all n dạng biến dị (mutant), ký tự biểu thị cặp allen vị trí tương ứng dị hợp tử Mỗi haplotype xâu độ dài ký tự thuộc tập {0,1} Tại vị trí dị hợp tử, g notyp kết hợp từ hai haplotyp mà vị trí có dạng tự nhiên có dạng biến dị Với g notyp , ta cần tìm cặp khơng thứ tự haplotyp giải thích th o định nghĩa sau: Định nghĩa 4.1 (Giải thích g notyp ) Cho genotype , nói cặp haplotyp khơng thứ tự giải thích (hay giải thích b i ) ký hiệu chúng thỏa mãn điều kiện sau với vị trí : , , ( ) ( ) Với g notyp , ký tự cặp haplotype vị trí đồng hợp tử hồn tồn xác định cịn ký tự vị trí dị hợp tử có hai khả n ng nhận giá trị Nếu 15 genotype có vị trí dị hợp tử có cặp khơng thứ tự haplotyp giải thích Với danh sách genotype ( ) có độ dài cho, ( ) { } với , ta định nghĩa haplotyp giải thích sau Định nghĩa 4.2 (giải thích tập g notyp ) Cho danh sách genotype ( ) có độ dài , ta nói danh sách haplotype ( ) giải thích giải thích b i cặp haplotyp với Suy diễn haplotype theo tiêu chuẩn pure parsimony Như vậy, với danh sách genotype ( ) có độ dài , tốn suy diễn haplotype tìm danh sách haplotype ( ) giải thích hợp lý genotype Hiện có hai cách tiếp cận cho tốn phương pháp tổ hợp thống kê Lời giải cho tốn tùy thuộc vào mơ hình di truyền tiêu chuẩn cho xác định tập haplotyp Trong phương pháp tổ hợp, tiêu chuẩn pure parsimony nhằm tìm tập hap lotyp nhỏ giải thích Gusfi ld đề xuất nhiều người sử dụng Bài toán th o tiêu chuẩn ký hiệp HIPP (Haplotype Inference by Pure Parsimony) 4.2 Thuật toán ACOHAP giải toán HIPP Trong thuật tốn ACO truyền thống, kiến xây dựng lời giải theo thủ tục bước ngẫu nhiên đường liên tục Ở thuật toán đồ thị cấu trúc đồ thị nhị phân độ sâu Chúng xác định động th o kiến bước lặp Mỗi mức đồ thị biểu thị cho vị trí haplotyp mà kiến xây dựng lời giải 4.2.1 Đồ thị cấu trúc Về hình thức, đồ thị cấu trúc nhị phân đầy đủ có độ sâu Tuy nhiên để tránh bùng nổ tổ hợp lớn, kiến bước ta thị nhị phân đầy đủ trích nhờ q trình xây dựng lời giải với nút gốc mức nút mức Các biểu thị khác (động) phù hợp với trình xây dựng lời giải kiến lần lặp có đặc điểm sau - Mỗi nút mức có hai nút mức Nhánh từ sang bên trái có nhãn (gọi nhánh 0) Tương tự, nhánh từ sang bên phải có nhãn (gọi nhánh 1) 16 - Nhãn nhánh đường từ nút gốc đến nút tạo thành nhãn nút Nhãn nút mức ký tự haplotype (nhãn nút haplotyp độ dài ) - Mỗi nút có danh sách kết hợp haplotyp xây dựng nhờ đường đến nút Như nút gốc ln có danh sách kết hợp , nút đường từ gốc đến có danh sách tương ứng giảm dần - Mỗi đường từ gốc đến xác định haplotyp có danh sách tương ứng nút nhãn nút xác định nội dung haplotyp Như đồ thị có nhiều nút biểu thị haplotyp cần tìm khơng phải có nút nhị phân đầy đủ Đồ thị không xác định từ đầu mà hiển thị dần th o trình xây dựng lời giải (sẽ nói rõ phần dưới) Hình 4.2 mơ tả độ dài giúp xây dựng cặp haplotype giải thích genotype Thủ tục xây dựng lời giải kiến giúp hiểu rõ tính mềm dẻo đồ thị cấu trúc cách xây dựng Hình 4.2 Đồ thị cấu trúc giải toán HIPP 4.2.2 Thủ tục xây dựng lời giải kiến Thuật toán xây dựng đồng thời haplotype kiến theo vị trí để suy diễn genotype Để thực xây dựng lời giải, nút có danh sách haplotyp kết hợp có ý nghĩa haplotyp danh sách nhận giá trị nhãn nút cho vị trí từ trước Ban đầu, nút gốc kh i tạo có danh sách kết hợp gồm haplotype ( ) thực lần lặp, lần lặp thứ xác định giá trị vị trí thứ cho tất haplotype tạo danh sách kết hợp cho nút mức (trước danh sách rỗng) Mỗi lần lặp, kiến thực hai bước: bước thứ xử lý đồng hợp tử bước thứ hai xử lý dị hợp tử 17 Bước thứ nhất: xử lý đồng hợp tử Các genotype mà vị trí thứ đồng hợp tử cặp haplotyp tương ứng vị trí thứ nhận giá trị giá trị vị trí thứ g notyp mà chúng giải thích Cụ thể, nhận giá trị 0/1 Khi đó, thêm vào danh sách nút th o nhánh 0/1 tương ứng Bước thứ hai: xử lý dị hợp tử Các genotype mà vị trí thứ dị hợp tử giá trị hai haplotyp tương ứng vị trí thứ có giá trị khác nhau, xác định giá trị thứ haplotype thứ tính giá trị thứ haplotyp thứ hai Cụ thể, lựa chọn 1, Nếu danh sách nút mức ( ) chứa kiến lựa chọn ngẫu nhiên th o xác suất sau: ( ) ( ) ( ) ( ) ( ) ( ) ( ) Trong α hai tham số dương cho trước điều khiển ảnh hư ng thông tin vết mùi thông tin h uristic Thơng tin heuristics Ý tư ng để xác định thông tin h uristic cho nút xét ước lượng số nút có danh sách kết hợp khác rỗng mức tương thích với haplotyp xét Cập nhật vết mùi Sử dụng quy tắc SMMAS Sử dụng tìm kiếm cục Để t ng hiệu thuật toán, lần lặp luận án sử dụng thuật toán tìm kiếm cục cho lời giải tìm th o chiến lược tốt lân cận khoảng cách 1-Hamming (1-Hamming distance neighborhood) Gasp ro Roli đề xuất 4.3 Kết thực nghiệm Luận án tiến hành làm thực nghiệm liệu chuẩn (gồm 32 t st) liệu thực CEU (nhiễm sắc thể 20 người da trắng châu Âu Utah) để so sánh với phương pháp RPoly phương pháp CollHap RPoly phương pháp giải tốt CollHap phương pháp xấp xỉ tốt Kết thực nghiệm cho thấy ACOHAP cho kết tối ưu RPoly nhiều trường hợp ACOHAP hiệu trội hẳn CollHap Chương Thuật tốn AcoSeeD tìm tập hạt giống tối ưu Tìm kiếm đoạn tương tự chuỗi sinh học công việc thường gặp quan trọng tin sinh học Sử dụng tập hạt giống có cách nâng cao chất lượng tìm kiếm Tuy nhiên, tìm tập hạt giống có cách tối ưu tốn thuộc lớp NP-khó Chương này, luận án đề xuất thuật tốn AcoS có đồ thị cấu trúc hợp lý, dùng quy tắc cập nhật mùi SMMAS kỹ thuật tìm kiếm 18 cục định hướng hàm mục tiêu xấp xỉ nhanh thay cho hàm mục tiêu phương pháp ACO Kết thực nghiệm cho thấy AcoS cải thiện đáng kể hiệu so với thuật toán tốt nay: SpEE fast 5.1 Bài tốn tìm tập hạt giống có cách tối ưu số vấn đề liên quan 5.1.1 Bài tốn tìm tập hạt giống tối ưu Việc so khớp địa phương hai hay nhiều chuỗi sinh học đưa xét toán miền tương đồng (homologous region) biểu diễn xâu nhị phân có độ dài , ký tự vị trí R biểu thị khơng khớp (mismatch) cịn ký tự biểu thị khớp (match) Chuỗi gọi chuỗi so khớp Ta xét hạt giống biểu diễn xâu ký tự gồm ký tự *, ký tự biểu thị khớp ký tự * biểu thị khớp khơng khớp vị trí tướng ứng hạt giống đối sánh với R Định nghĩa 5.1 (Tính hợp hạt giống) Với miền tương đồng biểu thị b i chuỗi so khớp cho, hạt giống ( độ dài hạt giống) gọi hợp được(hit) tồn vị trí R cho với ta có: { (5.1) Số lượng ký tự hạt giống gọi trọng số Một tập hạt giống gồm hạt giống có trọng số gọi hợp tồn hạt giống hợp Bây ta xét chuỗi so khớp hai chuỗi sinh học có xác suất khớp vị trí chuỗi , tức ký tự vị trí i chuỗi nhận giá trị với xác suất : P( ) , (5.2) gọi mức tương tự (similarity level) Bài tốn tìm tập giống tối ưu sau: Với chuỗi so khớp có mức tương tự cho, tìm tập gồm hạt giống có trọng số cho xác suất mà tập hợp chuỗi lớn (xác suất để tập hạt giống S hợp chuỗi gọi độ nhạy S) Bài tốn tìm tập hạt giống tối ưu xét hai trường hợp: độ dài hạt giống biết chưa biết Trong hai trường hợp, Li cộng chứng minh toán thuộc lớp NP-khó, đặc biệt việc tính hàm mục tiêu thuộc lớp NP-khó 5.1.2 Các cách tiếp cận Bài tốn tìm tập hạt giống tối ưu có nhiều thuật tốn giải cơng bố Trong phải kể đến thuật tốn h uristic tham n Li cộng đề xuất n m 19 2004, thuật toán l o đồi Sun Buhl r đề xuất n m 2005 Do đặc điểm tốn thời gian tính độ nhạy tập hạt giống lớn nên Ili cộng đề xuất thuật toán l o đồi sử dụng cách tính hàm mục tiêu xấp xỉ nhanh OC (Overlap Compl xity) thay cho tính độ nhạy bước tính tốn N m 2011, Ili cộng cơng bố phần mềm SpEE cho phần mềm thể thuật tốn tìm tập hạt giống tốt Phiên phần mềm SpEE fast công bố n m 2012 Nhược điểm thuật tốn SpEE (hay SpEE fast) sử dụng thuật toán l o đồi đơn giản sử dụng hàm mục tiêu OC tìm kiếm 5.2 Thuật tốn AcoSeeD giải tốn tìm tập hạt giống 5.2.1 Mơ tả thuật tốn Thuật tốn AcoS áp dụng phương pháp ACO th o lược đồ có sử dụng tìm kiếm cục cho lời giải tìm bước lặp Vì thuật tốn tính độ nhạy tốn nhiều thời gian chạy nên dùng để đánh giá chất lượng lời giải sau áp dụng tìm kiếm cục bộ, cịn q trình tìm kiếm cục hàm OC áp dụng để định hướng tìm kiếm Với tham số cho số vòng lặp thời gian chạy xác định trước, thuật toán AcoS xác định tập hạt giống tối ưu cho trường hợp chưa biết độ dài mô tả hình 5.2 Trong trường hợp độ dài hạt giống xác định thủ tục xác định độ dài hạt giống bỏ qua Procedure AcoSeeD; Dữ liệu vào: , độ dài hạt giống biết Kết ra: tập hạt giống độ nhạy; Begin Kh i tạo tập A gồm kiến, ma trận mùi, tham số while (chưa kết thúc) for =1 to Kiến thứ xác định độ dài hạt giống; Kiến thứ xây dựng tập hạt giống; Cải tiến lời giải tìm kiến cục nhờ hàm mục tiêu OC; Tính độ nhạy tập hạt giống kiến xây dựng; end-for Cập nhật mùi dựa lời giải có độ nhạy lớn tìm được; Cập nhật lời giải tốt nhất; end-while Đưa lời giải tốt nhất; End; Hình 5.1: Thuật tốn AcoSeeD 20 5.2.2 Thuật toán xác định độ dài hạt giống Trong trường hợp, độ dài hạt giống chưa biết thuộc khoảng [ ] cho kiến phải thực thủ tục xác định độ dài hạt giống tập nhờ đồ thị cấu trúc mô tả hình 5.2 Ngồi hai đỉnh đồ thị gồm cột xếp từ phải sang trái, cột có nút gán nhãn từ đến biểu thị cho độ dài hạt giống có thứ tự cột tương ứng Như vậy, nút xếp thành ( ) hàng cột Ta xếp hạt giống theo thứ tự t ng dần độ dài, đường xuất phát từ đỉnh , qua cột (chỉ sang ngang lên đỉnh cột tiếp theo) kết thúc đỉnh cho phương án xác định độ dài tập giống Hình 5.3: Đồ thị cấu trúc để xác định độ dài hạt giống 5.2.3 Thuật toán xây dựng hạt giống Đồ thị cấu trúc để xây dựng lời giải tìm tập giống mơ tả hình 5.3.A, gồm hình chữ nhật kích thước ( ) Kiến xây dựng hạt giống cách xuất phát từ đỉnh (đỉnh trái hình chữ nhật thứ nhất) có toạ độ ( ), số thứ số thứ tự hình chữ nhật, số thứ hai số cột hình chữ nhật (đánh số từ trái qua phải), số thứ ba số hàng hình chữ nhật (đánh số từ lên trên) di chuyển qua phải ) (đỉnh phải hình lên đến đỉnh có toạ độ ( chữ nhật thứ thứ ) 5.2.4 Cập nhật mùi Sau tất kiến xây dựng xong lời giải lời giải áp dụng kỹ thuật tìm kiếm cục sử dụng hàm mục tiêu OC lời giải có độ nhạy lớn dùng để cập nhật mùi cho hai giai đoạn xác định độ dài hạt giống giai đoạn xây dựng hạt giống AcoS sử dụng cách cập nhật mùi SMMAS 21 Hình 5.3: Đồ thị cấu trúc xây dựng hạt giống Hình (A) Đồ thị cấu trúc xây dựng hạt giống có trọng số Hình (B) Hướng kiến di chuyển đỉnh (C) Ví dụ xây dựng hạt giống trọng số độ dài 5.3 Kết thực nghiệm Hiệu AcoS so sánh thực nghiệm với hai phương pháp tốt SpEE SpEE fast Để khách quan với SpEE SpEE fast, AcoS chạy liệu số lời giải Ili làm Kết thực nghiệm cho thấy AcoS tốt SpEE , SpEEDfast AcoS tìm tập hạt giống có độ nhạy cao SpEE fast tìm Chương Ứng dụng phương pháp ACO cải tiến hiệu dự đoán hoạt động điều tiết gen 6.1 Bài toán dự đoán hoạt động điều tiết gen Hiểu chế điều chỉnh biểu gen qua yếu tố phiên mã (Transcription Factors-TFs) nhiệm vụ trung tâm sinh học phân tử Người ta biết trạng thái biểu g n thành lập thơng qua tích hợp mạng tín hiệu phiên mã hội tụ thành phần t ng cường, gọi mô-đun điều tiết (Cis-Regulatory Module – CRM) Các mô-đun điều tiết đoạn NA, 22 liên kết yếu tố phiên mã để điều tiết biểu diễn g n liên quan Mỗi mơ-đun điều tiết nhiều g n Gần đây, Zinz n cộng giới thiệu mơ hình dự báo điều tiết ruồi dấm Drosophila Ruồi giấm rosophila mẫu sinh vật dùng để nghiên cứu phát triển phôi thai sinh học Zinz n cộng đề xuất sử dụng phương pháp ChIP (Chromatin Immunoprecipitation) để thu liệu yếu tố phiên mã quan trọng ruồi giấm rosophila (Twist, TinMan, M f2, Bagpip Biniou) thời điểm q trình phát triển phơi Bài tốn dự đốn đưa tốn học có giám sát với đối tượng có 15 đặc trưng nhận giá trị tập nhãn gồm giá trị 6.2 Thuật tốn di truyền tối ưu đàn kiến tìm tham số cho SVM dùng dự đoán hoạt động điều tiết gen Zinz n sử dụng phương pháp tìm kiếm lưới để xác định tham hai tham ‖ ‖ số phát hàm nhân dạng Gauss phương pháp SVM (Support Vector Machine - SVM) để áp dụng cho toán dự đoán điều tiết Luận án dùng mã nhị phân 51 bit để biễu diễn hai tham số Tham số nhận giá trị từ 10-2 đến 105 biểu diễn dãy 24 bit, γ nhận giá trị 10-6 đến 102 biểu diễn dãy 27 bit Hình 6.3: Một nhiễm sắc thể biểu diễn C ựa cách mã hóa này, luận án xây dựng áp dụng phương pháp ACO thuật toán di truyền cổ điển cho xác định hai tham số thu tương ứng hai hệ dự đoán ACOSVM GASVM Thực nghiệm cho thấy hai hệ có hiệu phương pháp Zinz n ACO tốt so với GA Kết luận Các tốn TƯTH khó có nhiều ứng dụng quan trọng thực tiễn, đặc biệt toán sinh học Phương pháp ACO kết hợp thông tin h uristic thông tin học t ng cường nhờ mô hoạt động đàn kiến có ưu điểm trội sau: 1) Việc tìm kiếm ngẫu nhiên dựa thơng tin h uristic cho phép tìm kiếm linh hoạt mềm dẻo miền rộng phương pháp h uristic sẵn có, cho ta lời giải tốt tìm lời giải tối ưu 23 2) Sự kết hợp học t ng cường thông qua thông tin cường độ vết mùi cho phép ta bước thu hẹp khơng gian tìm kiếm mà khơng loại bỏ lời giải tốt, nâng cao chất lượng thuật toán Thực nghiệm chứng tỏ khả n ng trội phương pháp ACO ứng dụng cho nhiều toán phương pháp sử dụng rộng rãi Khi dùng phương pháp ACO, quy tắc cập nhật mùi đóng vai trị quan trọng, định hiệu thuật toán dùng Luận án đề xuất quy tắc cập nhật mùi mới: SMMAS, MLAS 3-LAS Các thuật toán bất biến phép biến đổi đơn điệu hàm mục tiêu, thực nghiệm toán TSP, UBQP, lập lịch sản xuất với liệu chuẩn cho thấy thuật tốn đề xuất có hiệu dễ sử dụng so với thuật tốn thơng dụng ACS MMAS Trong thuật toán này, SMMAS đơn giản, dễ sử dụng nên dùng rộng rãi Thuật toán MLAS cho phép điều tiết linh hoạt khả n ng khám phá t ng cường thuật toán th o thời điểm Tuy thực nghiệm toán TSP cho kết hứa hẹn khó áp dụng Thuật tốn 3-LAS thích hợp với tốn có thơng tin h uristic tốt, sử dụng chúng ảnh hư ng nhiều tới chất lượng kết tìm kiếm, chẳng hạn toán TSP Bên cạnh phát triển thuật toán mới, luận án đề xuất giải pháp cho ba toán quan trọng sinh học phân tử: suy diễn haplotyp , tìm tập hạt giống tối ưu dự báo hoạt động điều tiết g n Đối với toán suy diễn haplotyp , luận án đề xuất thuật toán ACOHAP Kết thực nghiệm cho thấy ACOHAP cho kết tối ưu RPoly (phương pháp xác tốt nay) nhiều trường hợp, nữa, ACOHAP hiệu trội hẳn CollHap (phương pháp xấp xỉ tốt nay) Đối với tốn tìm tập hạt giống tối ưu, luận án đề xuất thuật toán AcoS Kết thực nghiệm cho thấy AcoS cho kết tốt hai phương pháp tốt SpEE SpEE fast Đối với toán dự báo hoạt động điều tiết g n, dựa phương pháp đề xuất Zinz n cộng sự, luận án đề xuất hai thuật toán m tah uristic: GASVM ACOSVM Các thuật toán tương ứng sử dụng phương pháp GA ACO để tìm tham số tốt cho học SVM Thực nghiệm cho thấy hiệu cách tiếp cận áp dụng phương pháp tìm kiếm lưới Zinz n Hiện hệ ACOHAP, AcoS , GASVM ACOSVM có ích cho nhà nghiên cứu sinh học người quan tâm Trong tương lai, chúng tơi với nhóm nghiên cứu Tin-Sinh Đại học Công nghệ ứng dụng đề xuất cho toán khác 24 ... Chương Phương pháp tối ưu đàn kiến Tối ưu đàn kiến (ACO) phương pháp m tah uristic dựa ý tư ng mơ cách tìm đường từ tổ tới nguồn thức n kiến tự nhiên Đến cải tiến đa dạng có nhiều ứng dụng Trước... 25 1.3.3 Phương pháp metaheuristic 26 1.4 Kết luận chương 27 Chương PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN 28 2.1 Từ kiến tự nhiên đến kiến nhân tạo 28 2.1.1 Kiến tự... thực nghiệm phát triển, ứng dụng phong phú với tên gọi chung phương pháp ACO 2.2 Phương pháp ACO cho toán TƯTH tổng quát Mục giới thiệu tóm lược phương pháp tối ưu đàn kiến Trước mơ tả thuật tốn