Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
1,31 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG BÀI TOÁN TÌM KIẾM MOTIF VÀ PHƢƠNG PHÁP TỐI ƢU ĐÀN KIẾN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội, năm 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG BÀI TOÁN TÌM KIẾM MOTIF VÀ PHƢƠNG PHÁP TỐI ƢU ĐÀN KIẾN Ngành Chuyên ngành Mã số : Công nghệ thông tin : Hệ thống thông tin : 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS TS Hoàng Xuân Huấn Hà Nội, năm 2016 LỜI CẢM ƠN Trƣớc tiên, xin gửi lời cảm ơn chân thành lòng biết ơn sâu sắc tới thầy giáo, PGS.TS Hoàng Xuân Huấn, ngƣời thầy đáng kính tận tình bảo, hƣớng dẫn, động viên giúp đỡ suốt trình tìm hiểu, nghiên cứu hoàn thiện luận văn Thầy đƣa góp ý chi tiết, tỉ mỉ quý báu giúp cho hoàn thành luận văn Thứ hai, xin đƣợc gửi lời cảm ơn sâu sắc tới em Dƣơng Thị Ánh Tuyết, ngƣời giúp đỡ giải khúc mắc trình viết chƣơng trình để chạy thực nghiệm Thứ ba, xin gửi lời cảm ơn tới thầy cô trƣờng Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – ngƣời tận tình giúp đỡ, cổ vũ góp ý cho suốt thời gian học tập nghiên cứu trƣờng Thứ tƣ, xin gửi lời cảm ơn tới bạn học viên học tập nghiên cứu trƣờng Đại học Công nghệ hỗ trợ nhiều trình học tập nhƣ thực luận văn Thứ năm, xin gửi lời cảm ơn tới gia đình bạn bè, ngƣời thân yêu bên cạnh, quan tâm, động viên giúp vƣợt qua khó khăn trình học tập thực luận văn tốt nghiệp Cuối bày tỏ lòng biết ơn giúp đỡ lãnh đạo trƣờng, khoa Công nghệ thông tin – Trƣờng cao đẳng Thống Kê quan nơi công tác tạo điệu kiện tốt cho thời gian nhƣ động viên sớm hoàn thành luận văn Hà Nội, tháng 10 năm 2016 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu cá nhân dƣới hƣớng dẫn giúp đỡ PGS.TS Hoàng Xuân Huấn Các kết đƣợc viết chung với tác giả khác đƣợc đồng ý tác giả trƣớc đƣa vào luận văn Trong toàn nội dung nghiên cứu luận văn, vấn đề đƣợc trình bày tìm hiểu nghiên cứu cá nhân đƣợc trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Trong luận văn, có tham khảo đến số tài liệu số tác giả đƣợc liệt kê mục tài liệu tham khảo Hà nội, tháng 10 năm 2016 Nguyễn Thu Trang MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH SÁCH CÁC HÌNH VẼ MỞ ĐẦU Chƣơng 1: TIN SINH HỌC VÀ BÀI TOÁN TÌM KIẾM (l,d) MOTIF 10 1.1 Tin sinh học 10 1.1.1 Giới thiệu tin sinh học .10 1.1.2 Khái niệm sinh học .10 1.1.2.1 DNA 10 1.1.2.2 RNA .11 1.1.2.3 Protein .12 1.1.2.4 Quá trình tổng hợp protein 13 1.1.2.5 Một số toán tin sinh học 13 1.1.3 Motif .14 1.1.3.1 Quá trình điều hòa gen 14 1.1.3.2 Ý nghĩa Motif 15 1.1.3.3 Biểu diễn Motif .16 1.2 Bài toán tối ƣu tổ hợp toán tìm kiếm (ℓ,d) motif .18 1.2.1 Bài toán tối ƣu tổ hợp 18 1.2.1.1 Giới thiệu toán tối ƣu tổ hợp .18 1.2.1.2 Giới thiệu toán ngƣời chào hàng 18 1.2.1.3 Các cách tiếp cận giải toán tối ƣu tổ hợp 19 1.2.2 Phát biểu toán tìm kiếm (ℓ,d) motif 22 CHƢƠNG GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) 25 2.1 Giới thiệu thuật toán ACO 25 2.2 Mô hình mô thuật toán .25 2.2.1 Kiến tự nhiên 25 2.2.2 Kiến nhân tạo (Artificial Ant) 28 2.3 Trình bày giải thuật .29 2.3.1 Đồ thị cấu trúc 29 2.3.2 Trình bày thuật toán ACO 31 2.3.3 Thông tin Heuristic .33 2.3.4 Quy tắc cập nhật vết mùi 33 2.3.4.1 Thuật toán AS 33 2.3.4.2 Thuật toán ACS .34 2.3.4.3 Thuật toán Max-Min .34 2.3.4.4 Thuật toán Max- Min trơn .35 2.3.5 ACO kết hợp với tìm kiếm địa phƣơng 35 2.3.6 Số lƣợng kiến 35 2.3.7 Tham số bay 36 Chƣơng 3: THUẬT TOÁN ĐỀ XUẤT 37 3.1 Thuật toán tối ƣu đàn kiến 37 3.2 Xây dựng đồ thị cấu trúc 38 3.3 Thông tin heuristic 38 3.4 Xây dựng lời giải 38 3.5 Quy tắc cập nhật mùi (pheromone update rule) 39 3.6 Tìm kiếm địa phƣơng (local search) 40 Chƣơng 4: KẾT QUẢ THỰC NGHIỆM, SO SÁNH VÀ ĐÁNH GIÁ KẾT QUẢ 42 4.1 Bộ liệu chuẩn 42 4.2 Tiến hành chạy thực nghiệm hệ điều hành ubuntu .42 Kết chạy thực nghiệm đánh giá 43 4.3.1 Kết thực nghiệm 43 4.3.2 So sánh đánh giá 45 4.3.2.1 So sánh với MEME 45 4.3.2.2 Kết so sánh F-ACOMotif với Pairmotif+ MEME tập liệu thực 47 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT STT Từ viết tắt Từ cụm từ Ant Colony Optimization ACO AS (Tối ƣu hóa đàn kiến) Ant System (Hệ kiến AS) Ant Colony System ACS (Hệ kiến ACS) Max-Min Ant System MMAS (Hệ kiến MMAS) Smooth-Max Min Ant System SMMAS (Hệ kiến MMAS trơn) Travelling Salesman Problem TSP TƢTH Tối ưu tổ hợp PMS Planted Motif Search (Bài toán ngƣời chào hàng) DANH MỤC CÁC BẢNG Bảng 1: Các tham số chạy F-ACOMotif cho thực nghiệm 44 Bảng 2: Kết thực nghiệm sở liệu TRANSFAC 45 Bảng 4.3: Tham số chạy F-ACOMotif 46 Bảng 4.4: Kết so sánh F-ACOMotif với thuật toán MEME 46 Bảng 4.5: Kết so sánh F-ACOMotif với MEME PairMotif+ 47 Bảng 4.6: So sánh độ xác motif dự đoán 48 DANH SÁCH CÁC HÌNH VẼ Hình 1.1: DNA phân tử sống 10 Hình 1.2: Hình ảnh RNA 11 Hình 1.3: Cấu trúc Protein 12 Hình 1.4: Quá trình tổng hợp Protein [1] 13 Hình 1.5: Quá trình tổng hợp Protein 14 Hình 1.6: Ví dụ Motif 15 Hình 1.7: Chuỗi hợp 16 Hình 1.8: Biểu diễn Motif 17 Hình 1.9: Biểu diễn Motif dạng sequence 17 Hình 1.10: Phương pháp heuristic cấu trúc 20 Hình 1.11: Lời giải nhận thông qua tìm kiếm địa phương 21 Hình 1.12: Thuật toán memetic sử dụng EC 22 Hình 1.13: Ví dụ khoảng cách hamming 23 Hình 2.1: Thể hành vi kiến tự nhiên 26 Hình 2.2: Thực nghiệm cầu đôi 27 Hình 2.3: Thí nghiệm bổ xung 28 Hình 2.4: Đồ thị cấu trúc tổng quát cho toán cực trị hàm 31 Hình 2.5: Đặc tả thuật toán ACO 32 Hình 3.1: Đồ thị cấu trúc tìm motif độ dài l 38 Hình 3.2: Cách xây dựng đường kiến 39 Hình 4.1: Đồ thị so sánh độ xác F-ACOMotif so với PairMotif+ MEME 48 MỞ ĐẦU Tin sinh học có ứng dụng cao sống, đặc biệt lĩnh vực y – dƣợc Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phƣơng pháp nhƣ kĩ thuật tin học để giải toán sinh học phân tử Tìm kiếm motif chuỗi gene toán quan trọng tin sinh học thuộc loại NP-khó Các thành phần điều hòa gene (gene regulatory elements) đƣợc gọi DNA motif (về sau gọi motif cho gọn), chúng chứa nhiều thông tin sinh học quan trọng Vì việc nhận dạng DNA motif toán quan trọng tin sinh học thuộc loại NP-khó Chủ yếu, có cách tiếp cận để tìm kiếm motif: phƣơng pháp thực nghiệm phƣơng pháp tính toán Vì chi phí cao tốn thời gian nên phƣơng pháp thực nghiệm hiệu Phƣơng pháp tính toán đƣợc dùng rộng rãi cho dự đoán motif Ngƣời ta đƣa nhiều phát biểu cho toán tìm kiếm motif, có nhiều thuật toán nghiên cứu công bố giải toán tìm kiếm motif Trong luận văn này, trình bày toán (ℓ,d) motif Có nhiều thuật toán đƣa để giải toán (ℓ,d) motif, thuật toán chia thành loại thuật toán xác thuật toán xấp xỉ Các thuật toán xác luôn tìm motif chuỗi DNA đầu vào nhƣng hiệu với liệu có kích thƣớc nhỏ thực nhiều thời gian Các thuật toán xấp xỉ không tìm đƣợc tất motif nhƣng chạy hiệu với liệu lớn Luận văn đề xuất giải toán (ℓ,d) motif theo thuật toán xấp xỉ, việc đề xuất thuật toán tối ƣu đàn kiến Ant colony optimization (ACO) để giải toán (ℓ,d) motif Đây thuật toán lần đầu đƣợc đƣa vào để giải toán (ℓ,d) motif Thuật toán đƣợc đặt tên F-ACOMotif Và thực nghiệm đƣợc thuật toán F-ACOMotif tối ƣu thuật toán PairMotif+ MEME độ xác tìm (ℓ,d) motif Ngoài phần kết luận, cấu trúc nội dung luận văn bao gồm chƣơng nhƣ sau: Chƣơng 1: Trình bày sơ lƣợc khái niệm tin sinh học, toán tối ƣu tổ hợp phát biểu toán (ℓ,d) motif 37 CHƢƠNG 3: THUẬT TOÁN ĐỀ XUẤT Ở chƣơng 1, luận văn trình bày toán (ℓ,d)-motif số cách tiếp cận để giải toán, chƣơng luận văn đề xuất phƣơng pháp tối ƣu đàn kiến (ACO) để giải toán 3.1 Thuật toán tối ƣu đàn kiến Tối ƣu đàn kiến (ACO) phƣơng pháp metaheuristic dựa ý tƣởng mô cách tìm đƣờng từ tổ tới nguồn thức ăn kiến tự nhiên Phƣơng pháp đến có nhiều cải tiến ứng dụng Trong chƣơng luận văn giới thiệu thuật toán tối ƣu đàn kiến (ACO) để giải toán (ℓ,d)-motif Trên sở, cải tiến thuật toán tối ƣu đàn kiến ACOMotif để áp dụng giải toán (ℓ,d) – motif Thuật toán ACO nhƣ trình bày chƣơng II gồm công việc nhƣ sau: +) Xây dựng đồ thị cấu trúc +) Xây dựng lời giải +) Xác định thông tin Heuristic +) Chọn quy tắc cập nhật mùi Trong việc xây đồ thị cấu trúc xây dựng lời giải cho kiến tùy vào đặc thù toán Việc xác định thông tin Heuristic giúp làm tăng hiệu thuật toán Việc chọn quy tắc cập nhật mùi áp dụng chung cho toán, có nhiều quy tắc cập nhật mùi đƣợc đề xuất Kỹ thuật tìm kiếm địa phƣơng đƣợc áp dụng sau kiến xây dựng xong lời giải, để nhận đƣợc lời giải tối ƣu địa phƣơng Trong luận văn này, đề xuất thuật toán (đƣợc đặt tên F-ACOMotif) áp dụng phƣơng pháp tối ƣu đàn kiến để giải toán (ℓ,d)-motif sử dụng đồ thị cấu trúc nhƣ MFACO[15], quy tắc cập nhật mùi nhƣ SMMAS, thông tin heuristic, lời giải tuần tự, kỹ thuật tìm kiếm địa phƣơng nhƣ ACOMotif[19] F-ACOMotif hoạt động theo lƣợc đồ đƣợc mô tả hình 3.1, cho đầu tập motif có độ dài ℓ xâu độ dài chuỗi DNA có khoảng cách hamming từ motif tới chuỗi DNA nhỏ d (d tham số cho trƣớc) làm instance Các thành tố F-ACOMotif nhƣ sau: 38 3.2 Xây dựng đồ thị cấu trúc Đồ thị cấu trúc G(V, E) đƣợc dùng nhƣ MFACO [18] Để tìm motif có độ dài ℓ, đồ thị có 4*ℓ đỉnh đƣợc xếp thành hàng ℓ cột Mỗi đỉnh vị trí (u, j) đƣợc gán nhãn loại nucleotide tƣơng ứng nhƣ hình 2, nhãn đỉnh hàng đƣợc dùng để hàng Từ trái sang phải cạnh nối từ đỉnh cột trƣớc tới đỉnh cột sau Ta ký hiệu cạnh nối đỉnh (u, j) với (v, j+1) Vết mùi thông tin heuristics để đỉnh cột đầu cạnh Hình 3.1: Đồ thị cấu trúc tìm motif độ dài ℓ 3.3 Thông tin heuristic Nhƣ trình bày mục 2.3.3, thông tin heuristic cần thiết để có đƣợc lời giải tốt Trên thực tế, giai đoạn đầu vết mùi đƣợc khởi tạo nhƣ Khi vết mùi giúp kiến tìm đƣờng dẫn tới lời giải tốt, chƣa khác nhiều Vai trò thông tin heuristic để khắc phục điều giúp kiến xây dựng đƣợc hành trình tốt giai đoạn đầu Thông tin gồm hai loại: đỉnh cột đầu cạnh Ở đỉnh cột đầu, thông tin heuristics tần số (frequency) xuất nucleotide tƣơng ứng tập liệu S Thông tin heuristics cạnh tần số xuất thành phần uv tập S Chúng gồm 16 đại lƣợng , (u,v) ∑x∑ 3.4 Xây dựng lời giải Trong lần lặp, kiến chọn ngẫu nhiên nút xuất phát u cột đầu với xác suất 39 𝑢 ∑𝑣 Trong đó, 𝑢 𝐴𝐶𝐺𝑇 𝑣 (3.1) 𝑣 thông tin heuristic đƣợc tính theo tần số nucleotide u liệu vết mùi đƣợc cập nhật đỉnh Ngoài ra, kiến di chuyền từ đỉnh (u, j) tới đỉnh (v, j+1) theo xác xuất sau: 𝑢𝑣 ∑𝑟 Trong đó, 𝐴𝐶𝐺𝑇 𝑢𝑣 𝑢𝑟 (3.2) 𝑢𝑟 thông tin heuristic canh (u, v) Chúng đếm số lƣợng loại cặp base liệu, từ tính đƣợc xác xuất xuất Khi kiến di chuyên cột đồ thị, xác xuất từ đỉnh (u, j) tới (v, j+1) xác xuất xuất cặp base (u,v) liệu u, v 𝐴 Sau kiến xây dựng xong đƣờng trƣớc cập nhật mùi, kết đƣợc cải thiện cách áp dụng thuật toán tìm kiếm địa phƣơng Hình 3.2: Cách xây dựng đƣờng kiến 3.5 Quy tắc cập nhật mùi (pheromone update rule) Sử dụng công thức cập nhật mùi SMMAS-Smooth Max-Min Ant System (H Hoang Xuan 2012) Các vết mùi ( ) cho trƣớc Sau vòng lặp, vết mùi đỉnh u cột đầu ban đầu đƣợc khởi tạo cạnh đỉnh u cột đầu đƣợc cập nhật mùi theo Eq (3.3): , (3.3) 40 Trong đó: gi i pháp tốt gi i pháp khác { Trong Vết mùi cạnh ( tham số chọn trƣớc ) đƣợc cập nhật theo Eq (3.4) , Trong đó: { (3.4) gi i pháp tốt gi i pháp khác 3.6 Tìm kiếm địa phƣơng (local search) Sau kiến tìm đƣợc lời giải vòng lặp, lời giải có hàm mục tiêu ∑ nhỏ đƣợc áp dụng tìm kiếm địa phƣơng thủ tục lặp Thuật toán tìm kiếm địa phƣơng đƣợc áp dụng chƣơng trình giải thuật leo đồi Ta áp dụng kỹ thuật leo đồi nhƣ sau để tìm kiếm tăng cƣờng Với motif tiềm ( potemtial motif) Sm, dùng tập Q(Sm ) để chứa kết tìm kiếm (), thủ tục lặp thực nhƣ sau: Bước 1: khởi tạo Q(Sm) = {Sm}; Bước Thực lặp: For i=1,…,l thực hiện: 2.1 Thay ký tự (letter) vị trí thứ i Sm lần lƣơt ba ký tự lại tập ∑ để có Sp; 2.2 Tính ( ); 2.3 Nếu ( )≤ Sm Sp Q(Sm) = {Sp}; Until cải thiện đƣợc hàm mục tiêu Trong đó: ( ) Sau áp dụng tìm kiếm địa phƣơng cho motif tiềm lần lặp, tập Q(Sm) có hàm mục tiêu nhỏ gần nhỏ đƣợc hợp lại thành tập Q lời giải đƣợc xem tốt sau lọc lời giải có vị trí liên kết (chỉ giữ lại motif) Dựa tập Q, vết mùi đồ thị đƣợc cập nhật theo Eq(3.3) (3.4) để dùng cho vòng lặp Sau có tập Q tập motif có điểm khoảng cách hamming nhỏ nhất, 41 ta tiến hành kiểm tra motif có dH(m,Si)