Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
1,15 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG BÀI TỐN TÌM KIẾM MOTIF VÀ PHƢƠNG PHÁP TỐI ƢU ĐÀN KIẾN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội, năm 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG BÀI TỐN TÌM KIẾM MOTIF VÀ PHƢƠNG PHÁP TỐI ƢU ĐÀN KIẾN Ngành Chuyên ngành Mã số : Công nghệ thông tin : Hệ thống thông tin : 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS TS Hoàng Xuân Huấn Hà Nội, năm 2016 LỜI CẢM ƠN Trƣớc tiên, xin gửi lời cảm ơn chân thành lòng biết ơn sâu sắc tới thầy giáo, PGS.TS Hồng Xn Huấn, ngƣời thầy đáng kính tận tình bảo, hƣớng dẫn, động viên giúp đỡ suốt q trình tìm hiểu, nghiên cứu hồn thiện luận văn Thầy đƣa góp ý chi tiết, tỉ mỉ quý báu giúp cho tơi hồn thành luận văn Thứ hai, xin đƣợc gửi lời cảm ơn sâu sắc tới em Dƣơng Thị Ánh Tuyết, ngƣời giúp đỡ tơi giải khúc mắc q trình viết chƣơng trình để chạy thực nghiệm Thứ ba, tơi xin gửi lời cảm ơn tới thầy cô trƣờng Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – ngƣời tận tình giúp đỡ, cổ vũ góp ý cho tơi suốt thời gian học tập nghiên cứu trƣờng Thứ tƣ, xin gửi lời cảm ơn tới bạn học viên học tập nghiên cứu trƣờng Đại học Công nghệ hỗ trợ nhiều trình học tập nhƣ thực luận văn Thứ năm, tơi xin gửi lời cảm ơn tới gia đình bạn bè, ngƣời thân yêu bên cạnh, quan tâm, động viên tơi giúp tơi vƣợt qua khó khăn trình học tập thực luận văn tốt nghiệp Cuối bày tỏ lòng biết ơn giúp đỡ lãnh đạo trƣờng, khoa Công nghệ thông tin – Trƣờng cao đẳng Thống Kê quan nơi công tác tạo điệu kiện tốt cho thời gian nhƣ động viên tơi sớm hồn thành luận văn Hà Nội, tháng 10 năm 2016 LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu cá nhân dƣới hƣớng dẫn giúp đỡ PGS.TS Hoàng Xuân Huấn Các kết đƣợc viết chung với tác giả khác đƣợc đồng ý tác giả trƣớc đƣa vào luận văn Trong toàn nội dung nghiên cứu luận văn, vấn đề đƣợc trình bày tìm hiểu nghiên cứu cá nhân tơi đƣợc trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Trong luận văn, tơi có tham khảo đến số tài liệu số tác giả đƣợc liệt kê mục tài liệu tham khảo Hà nội, tháng 10 năm 2016 Nguyễn Thu Trang MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH SÁCH CÁC HÌNH VẼ MỞ ĐẦU Chƣơng 1: TIN SINH HỌC VÀ BÀI TỐN TÌM KIẾM (l,d) MOTIF 10 1.1 Tin sinh học 10 1.1.1 Giới thiệu tin sinh học .10 1.1.2 Khái niệm sinh học .10 1.1.2.1 DNA 10 1.1.2.2 RNA .11 1.1.2.3 Protein .12 1.1.2.4 Quá trình tổng hợp protein 13 1.1.2.5 Một số toán tin sinh học 13 1.1.3 Motif .14 1.1.3.1 Q trình điều hịa gen 14 1.1.3.2 Ý nghĩa Motif 15 1.1.3.3 Biểu diễn Motif .16 1.2 Bài tốn tối ƣu tổ hợp tốn tìm kiếm (ℓ,d) motif .18 1.2.1 Bài toán tối ƣu tổ hợp 18 1.2.1.1 Giới thiệu toán tối ƣu tổ hợp .18 1.2.1.2 Giới thiệu toán ngƣời chào hàng 18 1.2.1.3 Các cách tiếp cận giải toán tối ƣu tổ hợp 19 1.2.2 Phát biểu tốn tìm kiếm (ℓ,d) motif 22 CHƢƠNG GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) 25 2.1 Giới thiệu thuật toán ACO 25 2.2 Mô hình mơ thuật tốn .25 2.2.1 Kiến tự nhiên 25 2.2.2 Kiến nhân tạo (Artificial Ant) 28 2.3 Trình bày giải thuật .29 2.3.1 Đồ thị cấu trúc 29 2.3.2 Trình bày thuật tốn ACO 31 2.3.3 Thông tin Heuristic .33 2.3.4 Quy tắc cập nhật vết mùi 33 2.3.4.1 Thuật toán AS 33 2.3.4.2 Thuật toán ACS .34 2.3.4.3 Thuật toán Max-Min .34 2.3.4.4 Thuật toán Max- Min trơn .35 2.3.5 ACO kết hợp với tìm kiếm địa phƣơng 35 2.3.6 Số lƣợng kiến 35 2.3.7 Tham số bay 36 Chƣơng 3: THUẬT TOÁN ĐỀ XUẤT 37 3.1 Thuật toán tối ƣu đàn kiến 37 3.2 Xây dựng đồ thị cấu trúc 38 3.3 Thông tin heuristic 38 3.4 Xây dựng lời giải 38 3.5 Quy tắc cập nhật mùi (pheromone update rule) 39 3.6 Tìm kiếm địa phƣơng (local search) 40 Chƣơng 4: KẾT QUẢ THỰC NGHIỆM, SO SÁNH VÀ ĐÁNH GIÁ KẾT QUẢ 42 4.1 Bộ liệu chuẩn 42 4.2 Tiến hành chạy thực nghiệm hệ điều hành ubuntu .42 Kết chạy thực nghiệm đánh giá 43 4.3.1 Kết thực nghiệm 43 4.3.2 So sánh đánh giá 45 4.3.2.1 So sánh với MEME 45 4.3.2.2 Kết so sánh F-ACOMotif với Pairmotif+ MEME tập liệu thực 47 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT STT Từ viết tắt ACO AS ACS MMAS SMMAS Từ cụm từ Ant Colony Optimization (Tối ƣu hóa đàn kiến) Ant System (Hệ kiến AS) Ant Colony System (Hệ kiến ACS) Max-Min Ant System (Hệ kiến MMAS) Smooth-Max Min Ant System (Hệ kiến MMAS trơn) Travelling Salesman Problem TSP TƢTH Tối ưu tổ hợp PMS Planted Motif Search (Bài toán ngƣời chào hàng) DANH MỤC CÁC BẢNG Bảng 1: Các tham số chạy F-ACOMotif cho thực nghiệm 44 Bảng 2: Kết thực nghiệm sở liệu TRANSFAC 45 Bảng 4.3: Tham số chạy F-ACOMotif 46 Bảng 4.4: Kết so sánh F-ACOMotif với thuật toán MEME 46 Bảng 4.5: Kết so sánh F-ACOMotif với MEME PairMotif+ 47 Bảng 4.6: So sánh độ xác motif dự đoán 48 DANH SÁCH CÁC HÌNH VẼ Hình 1.1: DNA phân tử sống 10 Hình 1.2: Hình ảnh RNA 11 Hình 1.3: Cấu trúc Protein 12 Hình 1.4: Quá trình tổng hợp Protein [1] 13 Hình 1.5: Quá trình tổng hợp Protein 14 Hình 1.6: Ví dụ Motif 15 Hình 1.7: Chuỗi hợp 16 Hình 1.8: Biểu diễn Motif 17 Hình 1.9: Biểu diễn Motif dạng sequence 17 Hình 1.10: Phương pháp heuristic cấu trúc 20 Hình 1.11: Lời giải nhận thơng qua tìm kiếm địa phương 21 Hình 1.12: Thuật toán memetic sử dụng EC 22 Hình 1.13: Ví dụ khoảng cách hamming 23 Hình 2.1: Thể hành vi kiến tự nhiên 26 Hình 2.2: Thực nghiệm cầu đôi 27 Hình 2.3: Thí nghiệm bổ xung 28 Hình 2.4: Đồ thị cấu trúc tổng quát cho tốn cực trị hàm 31 Hình 2.5: Đặc tả thuật toán ACO 32 Hình 3.1: Đồ thị cấu trúc tìm motif độ dài l 38 Hình 3.2: Cách xây dựng đường kiến 39 Hình 4.1: Đồ thị so sánh độ xác F-ACOMotif so với PairMotif+ MEME 48 MỞ ĐẦU Tin sinh học có ứng dụng cao sống, đặc biệt lĩnh vực y – dƣợc Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phƣơng pháp nhƣ kĩ thuật tin học để giải tốn sinh học phân tử Tìm kiếm motif chuỗi gene toán quan trọng tin sinh học thuộc loại NP-khó Các thành phần điều hịa gene (gene regulatory elements) đƣợc gọi DNA motif (về sau gọi motif cho gọn), chúng chứa nhiều thông tin sinh học quan trọng Vì việc nhận dạng DNA motif toán quan trọng tin sinh học thuộc loại NP-khó Chủ yếu, có cách tiếp cận để tìm kiếm motif: phƣơng pháp thực nghiệm phƣơng pháp tính tốn Vì chi phí cao tốn thời gian nên phƣơng pháp thực nghiệm hiệu Phƣơng pháp tính tốn đƣợc dùng rộng rãi cho dự đốn motif Ngƣời ta đƣa nhiều phát biểu cho tốn tìm kiếm motif, có nhiều thuật tốn nghiên cứu cơng bố giải tốn tìm kiếm motif Trong luận văn này, tơi trình bày tốn (ℓ,d) motif Có nhiều thuật tốn đƣa để giải tốn (ℓ,d) motif, thuật tốn chia thành loại thuật tốn xác thuật tốn xấp xỉ Các thuật tốn xác ln ln tìm motif chuỗi DNA đầu vào nhƣng hiệu với liệu có kích thƣớc nhỏ thực nhiều thời gian Các thuật tốn xấp xỉ khơng tìm đƣợc tất motif nhƣng chạy hiệu với liệu lớn Luận văn đề xuất giải toán (ℓ,d) motif theo thuật toán xấp xỉ, việc đề xuất thuật toán tối ƣu đàn kiến Ant colony optimization (ACO) để giải toán (ℓ,d) motif Đây thuật toán lần đầu đƣợc đƣa vào để giải toán (ℓ,d) motif Thuật toán đƣợc đặt tên F-ACOMotif Và thực nghiệm đƣợc thuật toán F-ACOMotif tối ƣu thuật tốn PairMotif+ MEME độ xác tìm (ℓ,d) motif Ngồi phần kết luận, cấu trúc nội dung luận văn bao gồm chƣơng nhƣ sau: Chƣơng 1: Trình bày sơ lƣợc khái niệm tin sinh học, toán tối ƣu tổ hợp phát biểu toán (ℓ,d) motif 37 CHƢƠNG 3: THUẬT TOÁN ĐỀ XUẤT Ở chƣơng 1, luận văn trình bày tốn (ℓ,d)-motif số cách tiếp cận để giải toán, chƣơng luận văn đề xuất phƣơng pháp tối ƣu đàn kiến (ACO) để giải toán 3.1 Thuật toán tối ƣu đàn kiến Tối ƣu đàn kiến (ACO) phƣơng pháp metaheuristic dựa ý tƣởng mơ cách tìm đƣờng từ tổ tới nguồn thức ăn kiến tự nhiên Phƣơng pháp đến có nhiều cải tiến ứng dụng Trong chƣơng luận văn giới thiệu thuật toán tối ƣu đàn kiến (ACO) để giải toán (ℓ,d)-motif Trên sở, cải tiến thuật toán tối ƣu đàn kiến ACOMotif để áp dụng giải toán (ℓ,d) – motif Thuật tốn ACO nhƣ trình bày chƣơng II gồm công việc nhƣ sau: +) Xây dựng đồ thị cấu trúc +) Xây dựng lời giải +) Xác định thông tin Heuristic +) Chọn quy tắc cập nhật mùi Trong việc xây đồ thị cấu trúc xây dựng lời giải cho kiến tùy vào đặc thù tốn Việc xác định thông tin Heuristic giúp làm tăng hiệu thuật toán Việc chọn quy tắc cập nhật mùi áp dụng chung cho tốn, có nhiều quy tắc cập nhật mùi đƣợc đề xuất Kỹ thuật tìm kiếm địa phƣơng đƣợc áp dụng sau kiến xây dựng xong lời giải, để nhận đƣợc lời giải tối ƣu địa phƣơng Trong luận văn này, chúng tơi đề xuất thuật tốn (đƣợc đặt tên F-ACOMotif) áp dụng phƣơng pháp tối ƣu đàn kiến để giải tốn (ℓ,d)-motif chúng tơi sử dụng đồ thị cấu trúc nhƣ MFACO[15], quy tắc cập nhật mùi nhƣ SMMAS, thông tin heuristic, lời giải tuần tự, kỹ thuật tìm kiếm địa phƣơng nhƣ ACOMotif[19] F-ACOMotif hoạt động theo lƣợc đồ đƣợc mơ tả hình 3.1, cho đầu tập motif có độ dài ℓ xâu độ dài chuỗi DNA có khoảng cách hamming từ motif tới chuỗi DNA nhỏ d (d tham số cho trƣớc) làm instance Các thành tố F-ACOMotif nhƣ sau: 38 3.2 Xây dựng đồ thị cấu trúc Đồ thị cấu trúc G(V, E) đƣợc dùng nhƣ MFACO [18] Để tìm motif có độ dài ℓ, đồ thị có 4*ℓ đỉnh đƣợc xếp thành hàng ℓ cột Mỗi đỉnh vị trí (u, j) đƣợc gán nhãn loại nucleotide tƣơng ứng nhƣ hình 2, nhãn đỉnh hàng đƣợc dùng để hàng Từ trái sang phải cạnh nối từ đỉnh cột trƣớc tới đỉnh cột sau Ta ký hiệu cạnh nối đỉnh (u, j) với (v, j+1) Vết mùi thông tin heuristics để đỉnh cột đầu cạnh Hình 3.1: Đồ thị cấu trúc tìm motif độ dài ℓ 3.3 Thơng tin heuristic Nhƣ trình bày mục 2.3.3, thông tin heuristic cần thiết để có đƣợc lời giải tốt Trên thực tế, giai đoạn đầu vết mùi đƣợc khởi tạo nhƣ Khi vết mùi khơng thể giúp kiến tìm đƣờng dẫn tới lời giải tốt, chƣa khác nhiều Vai trị thơng tin heuristic để khắc phục điều giúp kiến xây dựng đƣợc hành trình tốt giai đoạn đầu Thông tin gồm hai loại: đỉnh cột đầu cạnh Ở đỉnh cột đầu, thông tin heuristics tần số (frequency) xuất nucleotide tƣơng ứng tập liệu S Thông tin heuristics cạnh tần số xuất thành phần uv tập S Chúng gồm 16 đại lƣợng , (u,v) ∑x∑ 3.4 Xây dựng lời giải Trong lần lặp, kiến chọn ngẫu nhiên nút xuất phát u cột đầu với xác suất 39 ∑𝑣 𝑢 𝑢 𝐴𝐶𝐺𝑇 𝑣 (3.1) 𝑣 thông tin heuristic đƣợc tính theo tần số nucleotide u Trong đó, liệu vết mùi đƣợc cập nhật đỉnh Ngoài ra, kiến di chuyền từ đỉnh (u, j) tới đỉnh (v, j+1) theo xác xuất sau: ∑𝑟 Trong đó, 𝑢𝑣 𝐴𝐶𝐺𝑇 𝑢𝑣 𝑢𝑟 (3.2) 𝑢𝑟 thông tin heuristic canh (u, v) Chúng đếm số lƣợng loại cặp base liệu, từ tính đƣợc xác xuất xuất Khi kiến di chuyên cột đồ thị, xác xuất từ đỉnh (u, j) tới (v, j+1) xác xuất xuất cặp base (u,v) liệu u, v 𝐴 Sau kiến xây dựng xong đƣờng trƣớc cập nhật mùi, kết đƣợc cải thiện cách áp dụng thuật tốn tìm kiếm địa phƣơng Hình 3.2: Cách xây dựng đƣờng kiến 3.5 Quy tắc cập nhật mùi (pheromone update rule) Sử dụng công thức cập nhật mùi SMMAS-Smooth Max-Min Ant System (H Hoang Xuan 2012) Các vết mùi đỉnh u cột đầu ban đầu đƣợc khởi tạo cạnh ( cho trƣớc Sau vòng lặp, vết mùi đỉnh u cột đầu đƣợc cập nhật mùi theo Eq (3.3): , (3.3) ) 40 Trong đó: Trong { Vết mùi cạnh Trong đó: ( { gi i pháp tốt gi i pháp khác tham số chọn trƣớc ) đƣợc cập nhật theo Eq (3.4) , (3.4) gi i pháp tốt gi i pháp khác 3.6 Tìm kiếm địa phƣơng (local search) Sau kiến tìm đƣợc lời giải vịng lặp, lời giải có hàm nhỏ đƣợc áp dụng tìm kiếm địa phƣơng thủ mục tiêu ∑ tục lặp Thuật tốn tìm kiếm địa phƣơng đƣợc áp dụng chƣơng trình giải thuật leo đồi Ta áp dụng kỹ thuật leo đồi nhƣ sau để tìm kiếm tăng cƣờng Với motif tiềm ( potemtial motif) Sm, dùng tập Q(Sm ) để chứa kết tìm kiếm (), thủ tục lặp thực nhƣ sau: Bước 1: khởi tạo Q(Sm) = {Sm}; Bước Thực lặp: For i=1,…,l thực hiện: 2.1 Thay ký tự (letter) vị trí thứ i Sm lần lƣơt ba ký tự lại tập ∑ để có Sp; 2.2 Tính 2.3 Nếu ( ); ( )≤ Sm ( ) Sp Q(Sm) = {Sp}; Until cải thiện đƣợc hàm mục tiêu Trong đó: Sau áp dụng tìm kiếm địa phƣơng cho motif tiềm lần lặp, tập Q(Sm) có hàm mục tiêu nhỏ gần nhỏ đƣợc hợp lại thành tập Q lời giải đƣợc xem tốt sau lọc lời giải có vị trí liên kết (chỉ giữ lại motif) Dựa tập Q, vết mùi đồ thị đƣợc cập nhật theo Eq(3.3) (3.4) để dùng cho vòng lặp Sau có tập Q tập motif có điểm khoảng cách hamming nhỏ nhất, 41 ta tiến hành kiểm tra motif có dH(m,Si)