Cấu trúc nội dung của luận văn bao gồm 4 chương như sau: Chương 1) Trình bày sơ lược các khái niệm về tin sinh học, bài toán tối ưu tổ hợp và phát biểu bài toán (ℓ,d) motif. Chương 2) Giới thiệu thuật toán Ant colony optimization (ACO) và một vài thuật toán cập nhật mùi khác nhau trong ACO. 2 Chương 3) Đề xuất thuật toán, đó là thuật toán Ant colony optimization (ACO) để giải quyết bài toán (ℓ,d) motif. Chương 4) Đưa ra kết quả thực nghiệm của luận văn, so sánh kết quả của thuật toán ACO với các thuật toán PairMotif+ và thuật toán MEME.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG BÀI TỐN TÌM KIẾM MOTIF VÀ PHƢƠNG PHÁP TỐI ƢU ĐÀN KIẾN Ngành Chuyên ngành Mã số : Công nghệ thông tin : Hệ thống thông tin : 60480104 TĨM TẮT LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN Hà Nội - 2016 MỤC LỤC MỞ ĐẦU Chƣơng 1: TIN SINH HỌC VÀ BÀI TỐN TÌM KIẾM (l,d) MOTIF 1.1 Tin sinh học 1.1.1 Giới thiệu tin sinh học 1.1.2 Khái niệm sinh học 1.1.2.1 DNA 1.1.2.2 RNA 1.1.2.3 Protein 1.1.2.4 Quá trình tổng hợp protein 1.1.2.5 Một số toán tin sinh học 1.1.3 Motif 1.1.3.1 Q trình điều hòa gen 1.1.3.2 Ý nghĩa Motif 1.1.3.3 Biểu diễn Motif 1.2 Bài toán tối ƣu tổ hợp tốn tìm kiếm (l,d) motif 1.2.1 Bài toán tối ƣu tổ hợp 1.2.1.1 Giới thiệu toán tối ƣu tổ hợp 1.2.1.2 Giới thiệu toán ngƣời chào hàng 1.2.1.3 Các cách tiếp cận giải toán tối ƣu tổ hợp 1.2.2 Phát biểu tốn tìm kiếm (l,d) motif CHƢƠNG Giới thiệu thuật toán ant colony optimization (ACO) 10 2.1 Giới thiệu thuật toán ACO 10 2.2 Mơ hình mơ thuật toán 10 2.2.1 Kiến tự nhiên 10 2.2.2 Kiến nhân tạo (Artificial Ant) 11 2.3 Trình bày giải thuật 11 2.3.1 Đồ thị cấu trúc 11 2.3.2 Trình bày thuật tốn ACO 12 2.3.3 Thông tin Heuristic 12 2.3.4 Quy tắc cập nhật vết mùi 13 2.3.4.1 Thuật toán AS 13 2.3.4.2 Thuật toán ACS 13 2.3.4.3 Thuật toán Max-Min 13 2.3.4.4 Thuật toán Max- Min trơn 13 2.3.5 ACO kết hợp với tìm kiếm địa phƣơng 13 2.3.6 Số lƣợng kiến 13 2.3.7 Tham số bay 13 Chƣơng 3: THUẬT TOÁN ĐỀ XUẤT 14 3.1 Thuật toán tối ƣu đàn kiến 14 3.2 Xây dựng đồ thị cấu trúc 14 3.3 Thông tin heuristic 14 3.4 Xây dựng lời giải 14 3.5 Quy tắc cập nhật mùi (pheromone update rule) 15 3.6 Tìm kiếm địa phƣơng (local search) 15 Chƣơng 4: KẾT QUẢ THỰC NGHIỆM, SO SÁNH VÀ ĐÁNH GIÁ KẾT QUẢ 17 4.1 Bộ liệu chuẩn 17 4.2 Tiến hành chạy thực nghiệm hệ điều hành ubuntu 17 Kết chạy thực nghiệm đánh giá 17 4.3.1 Kết thực nghiệm 17 4.3.2 So sánh đánh giá 19 4.3.2.1 So sánh với MEME 19 4.3.2.2 Kết so sánh F-ACOMotif với Pairmotif+ MEME tập liệu thực 19 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 21 MỞ ĐẦU Tin sinh học có ứng dụng cao sống, đặc biệt lĩnh vực y – dƣợc Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phƣơng pháp nhƣ kĩ thuật tin học để giải toán sinh học phân tử Tìm kiếm motif chuỗi gene toán quan trọng tin sinh học thuộc loại NP-khó Các thành phần điều hòa gene (gene regulatory elements) đƣợc gọi DNA motif (về sau gọi motif cho gọn), chúng chứa nhiều thông tin sinh học quan trọng Vì việc nhận dạng DNA motif toán quan trọng tin sinh học thuộc loại NP-khó Chủ yếu, có cách tiếp cận để tìm kiếm motif: phƣơng pháp thực nghiệm phƣơng pháp tính tốn Vì chi phí cao tốn thời gian nên phƣơng pháp thực nghiệm hiệu Phƣơng pháp tính tốn đƣợc dùng rộng rãi cho dự đoán motif Ngƣời ta đƣa nhiều phát biểu cho tốn tìm kiếm motif, có nhiều thuật tốn nghiên cứu cơng bố giải tốn tìm kiếm motif Trong luận văn này, tơi trình bày tốn (ℓ,d) motif Có nhiều thuật toán đƣa để giải toán (ℓ,d) motif, thuật tốn chia thành loại thuật tốn xác thuật tốn xấp xỉ Các thuật tốn xác ln ln tìm motif chuỗi DNA đầu vào nhƣng hiệu với liệu có kích thƣớc nhỏ thực nhiều thời gian Các thuật tốn xấp xỉ khơng tìm đƣợc tất motif nhƣng chạy hiệu với liệu lớn Luận văn đề xuất giải toán (ℓ,d) motif theo thuật toán xấp xỉ, việc đề xuất thuật toán tối ƣu đàn kiến Ant colony optimization (ACO) để giải toán (ℓ,d) motif Đây thuật toán lần đầu đƣợc đƣa vào để giải toán (ℓ,d) motif Thuật toán đƣợc đặt tên F-ACOMotif Và thực nghiệm đƣợc thuật toán F-ACOMotif tối ƣu thuật toán PairMotif+ MEME độ xác tìm (ℓ,d) motif Ngoài phần kết luận, cấu trúc nội dung luận văn bao gồm chƣơng nhƣ sau: Chƣơng 1: Trình bày sơ lƣợc khái niệm tin sinh học, toán tối ƣu tổ hợp phát biểu toán (ℓ,d) motif Chƣơng 2: Giới thiệu thuật toán Ant colony optimization (ACO) vài thuật toán cập nhật mùi khác ACO 2 Chƣơng 3: Đề xuất thuật tốn, thuật tốn Ant colony optimization (ACO) để giải toán (ℓ,d) motif Chƣơng 4: Đƣa kết thực nghiệm luận văn, so sánh kết thuật toán ACO với thuật toán PairMotif+ thuật toán MEME 3 CHƢƠNG 1: TIN SINH HỌC VÀ BÀI TỐN TÌM KIẾM (L,D) MOTIF 1.1 Tin sinh học 1.1.1 Giới thiệu tin sinh học “Tin sinh học sử dụng toán học, thống kê khoa học máy tính để giải vấn đề sinh học với DNA, chuỗi axit amin thơng tin có liên quan” 1.1.2 Khái niệm sinh học 1.1.2.1 DNA Hình 1.1: DNA phân tử sống DNA phân tử đƣợc cấu tạo đƣờng, photphat bốn nitrogenous bases: adenine, cytosine, guanine thiamine, đƣợc lần lƣợt viết tắt A, C, G, T 1.1.2.2 RNA Hình 1.2: Hình ảnh RNA RNA (Ribonucleic Acid) loại acid nucleic (nhƣ DNA), RNA có cấu trúc đa phân mà đơn phân loại nucleotide, nhiên RNA nucleotide loại T (pyrimidine thymine) đƣợc thay U (uracil) 4 1.1.2.3 Protein Hình 1.3: Cấu trúc Protein Các nucleotide gene mã hóa cho protein Các protein cần thiết cho cấu trúc, chức điều chỉnh tế bào, mơ tổ chức, protein có vai trò đặc biệt 1.1.2.4 Q trình tổng hợp protein Gồm ba giai đoạn : (1) Transcription (phiên mã) (2) Splipcing (ghép mã) (3) Translation (dịch mã) [1] đƣợc mơ tả nhƣ hình dƣới: Hình 1.4: Q trình tổng hợp Protein [1] 1.1.2.5 Một số toán tin sinh học Luận văn tập trung nghiên cứu “Bài tốn tìm kiếm motif sử dụng phƣơng pháp tối ƣu đàn kiến” 1.1.3 Motif 1.1.3.1 Quá trình điều hòa gen Hình 1.5: Q trình tổng hợp Protein Motif đoạn trình tự có kích thƣớc ngắn, lặp lặp lại mang ý nghĩa sinh học Hình 1.6: Ví dụ Motif 1.1.3.2 Ý nghĩa Motif Có ý nghĩa việc kiểm sốt biểu gen 1.1.3.3 Biểu diễn Motif 1.1.3.3.1 Chuỗi hợp ma trận đặc trƣng (Consensus sequence) Hình 1.7: Chuỗi hợp Nhƣ ví dụ „ACGTACGT‟ chuỗi hợp 1.1.3.3.2 Ma trận Hình 1.8: Biểu diễn Motif 1.1.3.3.3 Biểu tƣợng Biểu tƣợng cách dùng hình ảnh biểu diễn cho Motif Hình 1.9: Biểu diễn Motif dạng sequence 1.2 Bài toán tối ƣu tổ hợp tốn tìm kiếm (l,d) motif 1.2.1 Bài tốn tối ƣu tổ hợp 1.2.1.1 Giới thiệu toán tối ƣu tổ hợp Mỗi toán tối ƣu tổ hợp ứng với ba trạng thái (lời giải tiềm hay phƣơng án), tập ràng buộc , tập hữu hạn hàm mục tiêu xác định 1.2.1.2 Giới thiệu toán ngƣời chào hàng Bài tốn đƣợc phát biểu nhƣ sau: Có tập gồm thành phố (hoặc điểm tiêu thụ) độ dài đường trực tiếp từ ci đến cj di,j Một người chào hàng muốn tìm hành trình ngắn từ nơi ở, qua thành phố lần để giới thiệu sản phẩm cho khách hàng, sau trở thành phố xuất phát 1.2.1.3 Các cách tiếp cận giải toán tối ƣu tổ hợp 1.2.1.3.1 Heuristic cấu trúc Chúng ta khái qt hóa để mơ dƣới dạng thuật toán nhƣ sau: Procedure Heuristic cấu trúc; Begin chọn thành phần ; While (chƣa xây dựng xong lời giải) GreedyComponent( ); ; end-while ; Đƣa lời giải ; End; Hình 1.10: Phƣơng pháp heuristic cấu trúc 1.2.1.3.2 Tìm kiếm địa phƣơng Hình 1.11: Lời giải nhận đƣợc thơng qua tìm kiếm địa phƣơng 1.2.1.3.3 Phƣơng pháp metaheuristic Phƣơng pháp metaheuristic phƣơng pháp heuristic tổng quát đƣợc thiết kế, định hƣớng cho thuật toán cụ thể (bao gồm heuristic cấu trúc tìm kiếm địa phƣơng) 1.2.1.3.4 Phƣơng pháp Memetic Proedure Thuật toán memetic-EC; Begin Initialize: Tạo quần thể đầu tiên; while điều kiện dừng chƣa thỏa mãn Đánh giá cá thể quần thể; Thực tiến hóa quần thể nhờ toán tử cho trƣớc; Chọn tập để cải tiến nhờ thủ tục tìm kiếm địa phƣơng; for cá thể Thực tìm kiếm địa phƣơng; end-for Chọn phần tử tốt nhất; end-while; Đƣa lời giải tốt nhất; End; Hình 1.12: Thuật tốn memetic sử dụng EC 1.2.2 Phát biểu tốn tìm kiếm (l,d) motif Trƣớc đƣa toán, luận văn đƣa định nghĩa sau: Định nghĩa: (Haming distance) Cho x y tƣơng ứng hai xâu độ dài l n, khoảng cách Hamming dH(x,y) đƣợc xác định nhƣ sau: a) dH(x,y) = số vị trí khác x y l=n b) dH(x,y) = min{dH( x,m)/ m xâu độ dài l y} l < n Hình 1.13: Ví dụ khoảng cách hamming Có nhiều phát biểu cho tốn tìm kiếm motif Điển hình kể đến tốn tìm kiếm motif nhƣ sau [14]: Simple Motif Search, (l,d) Motif Search (Planted Motif Search) Edited Motif Search Trong luận văn này, tập trung nghiên cứu tốn (l,d) Motif Search (LDMS) toán Planted Motif Search (PMS) từ gọi toán PMS Bài toán PMS đƣợc phát biểu nhƣ sau: Cho tập hợp N chuỗi S ={S1, S2, ,SN}, phần tử lấy từ tập ={A, C, G, T} hai số nguyên không âm ℓ d, thỏa mãn ≤d