Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
1,82 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG BÀITOÁNTÌMKIẾMMOTIFVÀ PHƢƠNG PHÁPTỐI ƢU ĐÀNKIẾN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội, năm 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG BÀITOÁNTÌMKIẾMMOTIFVÀ PHƢƠNG PHÁPTỐI ƢU ĐÀNKIẾN Ngành Chuyên ngành Mã số : Công nghệ thông tin : Hệ thống thông tin : 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS TS Hoàng Xuân Huấn Hà Nội, năm 2016 LỜI CẢM ƠN Trƣớc tiên, xin gửi lời cảm ơn chân thành lòng biết ơn sâu sắc tới thầy giáo, PGS.TS Hoàng Xuân Huấn, ngƣời thầy đáng kính tận tình bảo, hƣớng dẫn, động viên giúp đỡ suốt trình tìm hiểu, nghiên cứu hoàn thiện luận văn Thầy đƣa góp ý chi tiết, tỉ mỉ quý báu giúp cho hoàn thành luận văn Thứ hai, xin đƣợc gửi lời cảm ơn sâu sắc tới em Dƣơng Thị Ánh Tuyết, ngƣời giúp đỡ giải khúc mắc trình viết chƣơng trình để chạy thực nghiệm Thứ ba, xin gửi lời cảm ơn tới thầy cô trƣờng Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – ngƣời tận tình giúp đỡ, cổ vũ góp ý cho suốt thời gian học tập nghiên cứu trƣờng Thứ tƣ, xin gửi lời cảm ơn tới bạn học viên học tập nghiên cứu trƣờng Đại học Công nghệ hỗ trợ nhiều trình học tập nhƣ thực luận văn Thứ năm, xin gửi lời cảm ơn tới gia đình bạn bè, ngƣời thân yêu bên cạnh, quan tâm, động viên giúp vƣợt qua khó khăn trình học tập thực luận văn tốt nghiệp Cuối bày tỏ lòng biết ơn giúp đỡ lãnh đạo trƣờng, khoa Công nghệ thông tin – Trƣờng cao đẳng Thống Kê quan nơi công tác tạo điệu kiện tốt cho thời gian nhƣ động viên sớm hoàn thành luận văn Hà Nội, tháng 10 năm 2016 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu cá nhân dƣới hƣớng dẫn giúp đỡ PGS.TS Hoàng Xuân Huấn Các kết đƣợc viết chung với tác giả khác đƣợc đồng ý tác giả trƣớc đƣa vào luận văn Trong toàn nội dung nghiên cứu luận văn, vấn đề đƣợc trình bày tìm hiểu nghiên cứu cá nhân đƣợc trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Trong luận văn, có tham khảo đến số tài liệu số tác giả đƣợc liệt kê mục tài liệu tham khảo Hà nội, tháng 10 năm 2016 Nguyễn Thu Trang MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH SÁCH CÁC HÌNH VẼ MỞ ĐẦU Chƣơng 1: TIN SINH HỌC VÀBÀITOÁNTÌMKIẾM (l,d) MOTIF 10 1.1 Tin sinh học 10 1.1.1 Giới thiệu tin sinh học .10 1.1.2 Khái niệm sinh học .10 1.1.2.1 DNA 10 1.1.2.2 RNA .11 1.1.2.3 Protein .12 1.1.2.4 Quá trình tổng hợp protein 13 1.1.2.5 Một số toán tin sinh học 13 1.1.3 Motif .14 1.1.3.1 Quá trình điều hòa gen 14 1.1.3.2 Ý nghĩa Motif 15 1.1.3.3 Biểu diễn Motif .16 1.2 Bàitoántối ƣu tổ hợp toántìmkiếm (ℓ,d) motif .18 1.2.1 Bàitoántối ƣu tổ hợp 18 1.2.1.1 Giới thiệu toántối ƣu tổ hợp .18 1.2.1.2 Giới thiệu toán ngƣời chào hàng 18 1.2.1.3 Các cách tiếp cận giải toántối ƣu tổ hợp 19 1.2.2 Phát biểu toántìmkiếm (ℓ,d) motif 22 CHƢƠNG GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) 25 2.1 Giới thiệu thuật toán ACO 25 2.2 Mô hình mô thuật toán .25 2.2.1 Kiến tự nhiên 25 2.2.2 Kiến nhân tạo (Artificial Ant) 28 2.3 Trình bày giải thuật .29 2.3.1 Đồ thị cấu trúc 29 2.3.2 Trình bày thuật toán ACO 31 2.3.3 Thông tin Heuristic .33 2.3.4 Quy tắc cập nhật vết mùi 33 2.3.4.1 Thuật toán AS 33 2.3.4.2 Thuật toán ACS .34 2.3.4.3 Thuật toán Max-Min .34 2.3.4.4 Thuật toán Max- Min trơn .35 2.3.5 ACO kết hợp với tìmkiếm địa phƣơng 35 2.3.6 Số lƣợng kiến 35 2.3.7 Tham số bay 36 Chƣơng 3: THUẬT TOÁN ĐỀ XUẤT 37 3.1 Thuật toántối ƣu đànkiến 37 3.2 Xây dựng đồ thị cấu trúc 38 3.3 Thông tin heuristic 38 3.4 Xây dựng lời giải 38 3.5 Quy tắc cập nhật mùi (pheromone update rule) 39 3.6 Tìmkiếm địa phƣơng (local search) 40 Chƣơng 4: KẾT QUẢ THỰC NGHIỆM, SO SÁNH VÀ ĐÁNH GIÁ KẾT QUẢ 42 4.1 Bộ liệu chuẩn 42 4.2 Tiến hành chạy thực nghiệm hệ điều hành ubuntu .42 Kết chạy thực nghiệm đánh giá 43 4.3.1 Kết thực nghiệm 43 4.3.2 So sánh đánh giá 45 4.3.2.1 So sánh với MEME 45 4.3.2.2 Kết so sánh F-ACOMotif với Pairmotif+ MEME tập liệu thực 47 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT STT Từ viết tắt ACO AS ACS MMAS SMMAS Từ cụm từ Ant Colony Optimization (Tối ƣu hóa đàn kiến) Ant System (Hệ kiến AS) Ant Colony System (Hệ kiến ACS) Max-Min Ant System (Hệ kiến MMAS) Smooth-Max Min Ant System (Hệ kiến MMAS trơn) Travelling Salesman Problem TSP TƢTH Tốiưu tổ hợp PMS Planted Motif Search (Bài toán ngƣời chào hàng) DANH MỤC CÁC BẢNG Bảng 1: Các tham số chạy F-ACOMotif cho thực nghiệm 44 Bảng 2: Kết thực nghiệm sở liệu TRANSFAC 45 Bảng 4.3: Tham số chạy F-ACOMotif 46 Bảng 4.4: Kết so sánh F-ACOMotif với thuật toán MEME 46 Bảng 4.5: Kết so sánh F-ACOMotif với MEME PairMotif+ 47 Bảng 4.6: So sánh độ xác motif dự đoán 48 DANH SÁCH CÁC HÌNH VẼ Hình 1.1: DNA phân tử sống 10 Hình 1.2: Hình ảnh RNA 11 Hình 1.3: Cấu trúc Protein 12 Hình 1.4: Quá trình tổng hợp Protein [1] 13 Hình 1.5: Quá trình tổng hợp Protein 14 Hình 1.6: Ví dụ Motif 15 Hình 1.7: Chuỗi hợp 16 Hình 1.8: Biểu diễn Motif 17 Hình 1.9: Biểu diễn Motif dạng sequence 17 Hình 1.10: Phươngpháp heuristic cấu trúc 20 Hình 1.11: Lời giải nhận thông qua tìmkiếm địa phương 21 Hình 1.12: Thuật toán memetic sử dụng EC 22 Hình 1.13: Ví dụ khoảng cách hamming 23 Hình 2.1: Thể hành vi kiến tự nhiên 26 Hình 2.2: Thực nghiệm cầu đôi 27 Hình 2.3: Thí nghiệm bổ xung 28 Hình 2.4: Đồ thị cấu trúc tổng quát cho toán cực trị hàm 𝒇(𝒙𝟏, … 𝒙𝒏) 31 Hình 2.5: Đặc tả thuật toán ACO 32 Hình 3.1: Đồ thị cấu trúc tìmmotif độ dài l 38 Hình 3.2: Cách xây dựng đường kiến 39 Hình 4.1: Đồ thị so sánh độ xác F-ACOMotif so với PairMotif+ MEME 48 MỞ ĐẦU Tin sinh học có ứng dụng cao sống, đặc biệt lĩnh vực y – dƣợc Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phƣơng pháp nhƣ kĩ thuật tin học để giải toán sinh học phân tử.Tìm kiếmmotif chuỗi gene toán quan trọng tin sinh học thuộc loại NP-khó Các thành phần điều hòa gene (gene regulatory elements) đƣợc gọi DNA motif (về sau gọi motif cho gọn), chúng chứa nhiều thông tin sinh học quan trọng Vì việc nhận dạng DNA motiftoán quan trọng tin sinh học thuộc loại NP-khó Chủ yếu, có cách tiếp cận để tìmkiếm motif: phƣơng pháp thực nghiệm phƣơng pháp tính toán Vì chi phí cao tốn thời gian nên phƣơng pháp thực nghiệm hiệu quả.Phƣơng pháp tính toán đƣợc dùng rộng rãi cho dự đoán motif Ngƣời ta đƣa nhiều phát biểu cho toántìmkiếm motif, có nhiều thuật toán nghiên cứu công bố giải toántìmkiếmmotif Trong luận văn này, trình bày toán (ℓ,d) motif Có nhiều thuật toán đƣa để giải toán (ℓ,d) motif, thuật toán chia thành loại thuật toán xác thuật toán xấp xỉ Các thuật toán xác luôn tìmmotif chuỗi DNA đầu vào nhƣng hiệu với liệu có kích thƣớc nhỏ thực nhiều thời gian Các thuật toán xấp xỉ không tìm đƣợc tất motif nhƣng chạy hiệu với liệu lớn Luận văn đề xuất giải toán (ℓ,d) motif theo thuật toán xấp xỉ, việc đề xuất thuật toántối ƣu đànkiến Ant colony optimization (ACO) để giải toán (ℓ,d) motif Đây thuật toán lần đầu đƣợc đƣa vào để giải toán (ℓ,d) motif Thuật toán đƣợc đặt tên F-ACOMotif Và thực nghiệm đƣợc thuật toán F-ACOMotif tối ƣu thuật toán PairMotif+ MEME độ xác tìm (ℓ,d) motif Ngoài phần kết luận, cấu trúc nội dung luận văn bao gồm chƣơng nhƣ sau: Chƣơng 1: Trình bày sơ lƣợc khái niệm tin sinh học, toántối ƣu tổ hợp phát biểu toán (ℓ,d) motif 37 CHƢƠNG 3: THUẬT TOÁN ĐỀ XUẤT Ở chƣơng 1, luận văn trình bày toán (ℓ,d)-motif số cách tiếp cận để giải toán, chƣơng luận văn đề xuất phƣơng pháptối ƣu đànkiến (ACO) để giải toán 3.1 Thuật toántối ƣu đànkiếnTối ƣu đànkiến (ACO) phƣơng pháp metaheuristic dựa ý tƣởng môphỏng cách tìm đƣờng từ tổ tới nguồn thức ăn kiến tự nhiên Phƣơng pháp đến có nhiều cải tiến ứng dụng Trong chƣơng luận văn giới thiệu thuật toántối ƣu đànkiến (ACO) để giải toán (ℓ,d)-motif Trên sở, cải tiến thuật toántối ƣu đànkiến ACOMotif để áp dụng giải toán (ℓ,d) – motif Thuật toán ACO nhƣ trình bày chƣơng II gồm công việc nhƣ sau: +) Xây dựng đồ thị cấu trúc +) Xây dựng lời giải +) Xác định thông tin Heuristic +) Chọn quy tắc cập nhật mùi Trong việc xây đồ thị cấu trúc xây dựng lời giải cho kiến tùy vào đặc thù toán.Việc xác định thông tin Heuristic giúp làm tăng hiệu thuật toán.Việc chọn quy tắc cập nhật mùi áp dụng chung cho toán, có nhiều quy tắc cập nhật mùi đƣợc đề xuất Kỹ thuật tìmkiếm địa phƣơng đƣợc áp dụng sau kiến xây dựng xong lời giải, để nhận đƣợc lời giải tối ƣu địa phƣơng Trong luận văn này, đề xuất thuật toán (đƣợc đặt tên F-ACOMotif) áp dụng phƣơng pháptối ƣu đànkiến để giải toán (ℓ,d)-motifchúng sử dụng đồ thị cấu trúc nhƣ MFACO[15], quy tắc cập nhật mùi nhƣ SMMAS, thông tin heuristic, lời giải tuần tự, kỹ thuật tìmkiếm địa phƣơng nhƣ ACOMotif[19] F-ACOMotif hoạt động theo lƣợc đồ đƣợc mô tả hình 3.1, cho đầu tập motif có độ dài ℓ xâu độ dài chuỗi DNA có khoảng cách hamming từ motiftới chuỗi DNA nhỏ d (d tham số cho trƣớc) làm instance Các thành tố F-ACOMotif nhƣ sau: 38 3.2 Xây dựng đồ thị cấu trúc Đồ thị cấu trúc G(V, E) đƣợc dùng nhƣ MFACO [18] Để tìmmotif có độ dài ℓ, đồ thị có 4*ℓ đỉnh đƣợc xếp thành hàng ℓ cột Mỗi đỉnh vị trí (u, j) đƣợc gán nhãn loại nucleotide tƣơng ứng nhƣ hình 2, nhãn đỉnh hàng đƣợc dùng để hàng Từ trái sang phải cạnh nối từ đỉnh cột trƣớc tới đỉnh cột sau Ta ký hiệu 𝑒𝑗 𝑢, 𝑣 cạnh nối đỉnh (u, j) với (v, j+1) Vết mùi thông tin heuristics để đỉnh cột đầu cạnh Hình 3.1: Đồ thị cấu trúc tìmmotif độ dài ℓ 3.3 Thông tin heuristic Nhƣ trình bày mục 2.3.3, thông tin heuristic cần thiết để có đƣợc lời giải tốt Trên thực tế, giai đoạn đầu vết mùi đƣợc khởi tạo nhƣ Khi vết mùi giúp kiếntìm đƣờng dẫntới lời giải tốt, chƣa khác nhiều Vai trò thông tin heuristic để khắc phục điều giúp kiến xây dựng đƣợc hành trình tốt giai đoạn đầu Thông tin gồm hai loại: đỉnh cột đầu cạnh Ở đỉnh cột đầu, thông tin heuristics tần số (frequency) xuất nucleotide tƣơng ứng tập liệu S Thông tin heuristics cạnh 𝑒𝑗 𝑢, 𝑣 tần số xuất thành phần uvtrong tập S Chúng gồm 16 đại lƣợng 𝜂𝑢,𝑣 , (u,v)∈∑x∑ 3.4 Xây dựng lời giải Trong lần lặp, kiến chọn ngẫu nhiên nút xuất phát uở cột đầu với xác suất 𝑃𝑢1 39 𝑃𝑢1 = 𝜏 𝑢1 ∗ 𝑢 (3.1) 𝑣 ∈ {𝐴 ,𝐶,𝐺 ,𝑇} 𝜏 𝑣 ∗ 𝑣 Trong đó, 𝜂𝑢 thông tin heuristic đƣợc tính theo tần số nucleotide utrong liệu 𝜏𝑢1 vết mùi đƣợc cập nhật đỉnh Ngoài ra, kiến di chuyền từ đỉnh (u, j) tới đỉnh (v, j+1)theo xác xuất sau: 𝑗 𝑃𝑢𝑣 𝑗 = 𝜏 𝑢𝑣 ∗ 𝑢 ,𝑣 (3.2) 𝑗 𝑟 ∈ {𝐴 ,𝐶,𝐺 ,𝑇} 𝜏 𝑢𝑟 ∗ 𝑢 ,𝑟 Trong đó, 𝜂𝑣,𝑗 thông tin heuristic canh 𝑒𝑗 (u, v) Chúng đếm số lƣợng loại cặp base liệu, từ tính đƣợc xác xuất xuất Khi kiến di chuyên cột đồ thị, xác xuất từ đỉnh (u, j) tới (v, j+1) xác xuất xuất cặp base (u,v) liệu u, v ∈ {𝐴, 𝑇, 𝐶, 𝐺}.Sau kiến xây dựng xong đƣờng trƣớc cập nhật mùi, kết đƣợc cải thiện cách áp dụng thuật toántìmkiếm địa phƣơng Hình 3.2: Cách xây dựng đƣờng kiến 3.5 Quy tắc cập nhật mùi (pheromone update rule) Sử dụng công thức cập nhật mùi SMMAS-Smooth Max-Min Ant System (H Hoang Xuan 2012) 𝑗 Các vết mùi 𝜏𝑢1 đỉnh u cột đầu 𝜏𝑢,𝑣 cạnh 𝑒𝑗 𝑢, 𝑣 ban đầu đƣợc khởi tạo 𝜏𝑚𝑎𝑥 cho trƣớc Sau vòng lặp, vết mùi 𝜏𝑢1 đỉnh u cột đầu đƣợc cập nhật mùi theo Eq (3.3): 𝜏𝑢1 ← (1 − 𝜌)𝜏𝑢1 + ∆1𝑢 , (3.3) 40 Trong đó: ∆1𝑢 = 𝜌𝜏𝑚𝑎𝑥 𝜌𝜏𝑚𝑖𝑛 𝑢 ∈ giải pháp tốt , giải pháp khác Trong 𝜏𝑚𝑎𝑥 , 𝜏𝑚𝑖𝑛 𝜌 tham số chọn trƣớc Vết mùi cạnh 𝑒𝑗 𝑢, 𝑣 đƣợc cập nhật theo Eq (3.4) 𝑗 𝑗 𝑗 𝜏𝑢,𝑣 ← (1 − 𝜌)𝜏𝑢,𝑣 + ∆𝑢,𝑣 , 𝑗 Trong đó: ∆𝑢,𝑣 = 𝜌𝜏𝑚𝑎𝑥 𝜌𝜏𝑚𝑖𝑛 (3.4) 𝑢𝑣 ∈ giải pháp tốt giải pháp khác 3.6 Tìmkiếm địa phƣơng (local search) Sau kiếntìm đƣợc lời giải vòng lặp, lời giải có hàm mục tiêu 𝑁 𝑖=1 𝑑𝐻 (𝑚, 𝑆𝑖 ) nhỏ đƣợc áp dụng tìmkiếm địa phƣơng thủ tục lặp Thuật toántìmkiếm địa phƣơng đƣợc áp dụng chƣơng trình giải thuật leo đồi Ta sẽáp dụng kỹ thuật leo đồi nhƣ sau để tìmkiếm tăng cƣờng Với motif tiềm ( potemtial motif) Sm, dùng tập Q(Sm ) để chứa kết tìmkiếm (), thủ tục lặp thực nhƣ sau: Bước 1: khởi tạo Q(Sm) = {Sm}; Bước Thực lặp: For i=1,…,l thực hiện: 2.1 Thay ký tự (letter) vị trí thứ i Sm lần lƣơt ba ký tự lại tập ∑ để có Sp; 2.2 Tính 𝐻𝑑 𝑆𝑝 ; 2.3 Nếu 𝐻𝑑 𝑆𝑝 ≤𝐻𝑑 𝑆𝑚 Sm←Spvà Q(Sm) = {Sp}; Until cải thiện đƣợc hàm mục tiêu Trong đó: 𝐻𝑑 𝑆𝑝 𝑙à 𝑘𝑜ả𝑛𝑔 𝑐á𝑐 𝑎𝑚𝑚𝑖𝑛𝑔 𝑐ủ𝑎 𝑆𝑝 Sau áp dụng tìmkiếm địa phƣơng cho motif tiềm lần lặp, tập Q(Sm) có hàm mục tiêu nhỏ gần nhỏ đƣợc hợp lại thành tập Q lời giải đƣợc xem tốt sau lọc lời giải có vị trí liên kết (chỉ giữ lại motif) Dựa tập Q, vết mùi đồ thị đƣợc cập nhật theo Eq(3.3) (3.4) để dùng cho vòng lặp Sau có tập Q tập motif có điểm khoảng cách hamming nhỏ nhất, 41 ta tiến hành kiểm tra motif có dH(m,Si)