Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
1,34 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG BÀI TỐN TÌM KIẾM MOTIF VÀ PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THƠNG TIN Người hướng dẫn khoa học: PGS TS Hồng Xuân Huấn Hà Nội, năm 2016 MỤC LỤC LỜI CẢM ƠN Error! Bookmark not defined LỜI CAM ĐOAN Error! Bookmark not defined DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH SÁCH CÁC HÌNH VẼ MỞ ĐẦU Chƣơng 1: TIN SINH HỌC VÀ BÀI TỐN TÌM KIẾM (l,d) MOTIF 12 1.1 Tin sinh học 12 1.1.1 Giới thiệu tin sinh học 12 1.1.2 Khái niệm sinh học 12 1.1.2.1 DNA 13 1.1.2.2 RNA .14 1.1.2.3 Protein .15 1.1.2.4 Quá trình tổng hợp protein 16 1.1.2.5 Một số toán tin sinh học 16 1.1.3 Motif 17 1.1.3.1 Q trình điều hịa gen 17 1.1.3.2 Ý nghĩa Motif 19 1.1.3.3 Biểu diễn Motif .19 1.2 Bài toán tối ưu tổ hợp tốn tìm kiếm (ℓ ,d) motif 22 1.2.1 Bài toán tối ƣu tổ hợp 22 1.2.1.1 Giới thiệu toán tối ƣu tổ hợp .22 1.2.1.2 Giới thiệu toán ngƣời chào hàng 22 1.2.1.3 Các cách tiếp cận giải toán tối ƣu tổ hợp 23 1.2.2 Phát biểu tốn tìm kiếm (ℓ,d) motif Error! Bookmark not defined CHƢƠNG GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) Error! Bookmark not defined 2.1 Giới thiệu thuật toán ACO Error! Bookmark not defined 2.2 Mơ hình mơ thuật tốn Error! Bookmark not defined 2.2.1 Kiến tự nhiên Error! Bookmark not defined 2.2.2 Kiến nhân tạo (Artificial Ant) Error! Bookmark not defined 2.3 Trình bày giải thuật Error! Bookmark not defined 2.3.1 Đồ thị cấu trúc Error! Bookmark not defined 2.3.2 Trình bày thuật tốn ACO Error! Bookmark not defined 2.3.3 Thông tin Heuristic Error! Bookmark not defined 2.3.4 Quy tắc cập nhật vết mùi Error! Bookmark not defined 2.3.4.1 Thuật toán AS Error! Bookmark not defined 2.3.4.2 Thuật toán ACS .Error! Bookmark not defined 2.3.4.3 Thuật toán Max-Min .Error! Bookmark not defined 2.3.4.4 Thuật toán Max- Min trơn .Error! Bookmark not defined 2.3.5 ACO kết hợp với tìm kiếm địa phƣơng Error! Bookmark not defined 2.3.6 Số lƣợng kiến Error! Bookmark not defined 2.3.7 Tham số bay Error! Bookmark not defined Chƣơng 3: THUẬT TOÁN ĐỀ XUẤT Error! Bookmark not defined 3.1 Thuật toán tối ưu đàn kiến Error! Bookmark not defined 3.2 Xây dựng đồ thị cấu trúc Error! Bookmark not defined 3.3 Thông tin heuristic Error! Bookmark not defined 3.4 Xây dựng lời giải Error! Bookmark not defined 3.5 Quy tắc cập nhật mùi (pheromone update rule) Error! Bookmark not defined 3.6 Tìm kiếm đị a phương (local search) Error! Bookmark not defined Chƣơng 4: KẾT QUẢ THỰC NGHIỆM, SO SÁNH VÀ ĐÁNH GIÁ KẾT QUẢ Error! Bookmark not defined 4.1 Bộ liệu chuẩn Error! Bookmark not defined 4.2 Tiến hành chạy thực nghiệm hệ điều hành ubuntu Error! Bookmark not defined Kết chạy thực nghiệm đánh giá Error! Bookmark not defined 4.3.1 Kết thực nghiệm Error! Bookmark not defined 4.3.2 So sánh đánh giá Error! Bookmark not defined 4.3.2.1 So sánh với MEME Error! Bookmark not defined 4.3.2.2 Kết so sánh F-ACOMotif với Pairmotif+ MEME tập liệu thực Error! Bookmark not defined KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TÀI LIỆU THAM KHẢO Error! Bookmark not defined 25 DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT STT Từ viết tắt Từ cụm từ Ant Colony Optimization ACO (Tối ƣu hóa đàn kiến) Ant System AS (Hệ kiến AS) Ant Colony System ACS (Hệ kiến ACS) Max-Min Ant System MMAS (Hệ kiến MMAS) Smooth-Max Min Ant System SMMAS (Hệ kiến MMAS trơn) Travelling Salesman Problem TSP TƢTH (Bài toán ngƣời chào hàng) Tối ưu tổ hợp PMS Planted Motif Search DANH MỤC CÁC BẢNG Bảng 1: Các tham số chạy F-ACOMotif cho thực nghiệm Error! Bookmark not defined Bảng 2: Kết thực nghiệm sở liệu TRANSFAC Error! Bookmark not defined Bảng 4.3: Tham số chạy F-ACOMotif Error! Bookmark not defined Bảng 4.4: Kết so sánh F-ACOMotif với thuật toán MEME Error! Bookmark not defined Bảng 4.5: Kết so sánh F-ACOMotif với MEME PairMotif+ Error! Bookmark not defined Bảng 4.6: So sánh độ xác motif dự đốnError! defined Bookmark not DANH SÁCH CÁC HÌNH VẼ Hình 1.1: DNA phân tử sống 13 Hình 1.2: Hình ảnh RNA 14 Hình 1.3: Cấu trúc Protein 15 Hình 1.4: Quá trình tổng hợp Protein [1] 16 Hình 1.5: Quá trình tổng hợp Protein 18 Hình 1.6: Ví dụ Motif 18 Hình 1.7: Chuỗi hợp 20 Hình 1.8: Biểu diễn Motif 21 Hình 1.9: Biểu diễn Motif dạng sequence 22 Hình 1.10: Phƣơng pháp heuristic cấu trúc 24 Hình 1.11: Lời giải nhận đƣợc thơng qua tìm kiếm địa phƣơng Error! Bookmark not defined Hình 1.12: Thuật tốn memetic sử dụng ECError! Bookmark not defined Hình 1.13: Ví dụ khoảng cách hamming Error! Bookmark not defined Hình 2.1: Thể hành vi kiến tự nhiên Error! Bookmark not defined Hình 2.2: Thực nghiệm cầu đơi Error! Bookmark not defined Hình 2.3: Thí nghiệm bổ xung Error! Bookmark not defined Hình 2.4: Đồ thị cấu trúc tổng quát cho toán cực trị hàm 𝒇(𝒙𝟏, … 𝒙𝒏) Error! Bookmark not defined Hình 2.5: Đặc tả thuật tốn ACO Error! Bookmark not defined Hình 3.1: Đồ thị cấu trúc tìm motif độ dài l Error! Bookmark not defined Hình 3.2: Cách xây dựng đƣờng kiếnError! Bookmark not defined Hình 4.1: Đồ thị so sánh độ xác F-ACOMotif so với PairMotif+ MEME Error! Bookmark not defined MỞ ĐẦU Tin sinh học có ứng dụng cao sống, đặc biệt lĩnh vực y – dƣợc Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phƣơng pháp nhƣ kĩ thuật tin học để giải tốn sinh học phân tử.Tìm kiếm motif chuỗi gene toán quan trọng tin sinh học thuộc loại NP-khó Các thành phần điều hịa gene (gene regulatory elements) đƣợc gọi DNA motif (về sau gọi motif cho gọn), chúng chứa nhiều thông tin sinh học quan trọng Vì việc nhận dạng DNA motif toán quan trọng tin sinh học thuộc loại NP-khó Chủ yếu, có cách tiếp cận để tìm kiếm motif: phƣơng pháp thực nghiệm phƣơng pháp tính tốn Vì chi phí cao tốn thời gian nên phƣơng pháp thực nghiệm hiệu quả.Phƣơng pháp tính tốn đƣợc dùng rộng rãi cho dự đoán motif Ngƣời ta đƣa nhiều phát biểu cho tốn tìm kiếm motif, có nhiều thuật tốn nghiên cứu cơng bố giải tốn tìm kiếm motif Trong luận văn này, tơi trình bày tốn (ℓ,d) motif Có nhiều thuật toán đƣa để giải toán (ℓ,d) motif, thuật tốn chia thành loại thuật tốn xác thuật tốn xấp xỉ Các thuật tốn xác ln ln tìm motif chuỗi DNA đầu vào nhƣng hiệu với liệu có kích thƣớc nhỏ thực nhiều thời gian Các thuật tốn xấp xỉ khơng tìm đƣợc tất motif nhƣng chạy hiệu với liệu lớn Luận văn đề xuất giải toán (ℓ,d) motif theo thuật toán xấp xỉ, việc đề xuất thuật toán tối ƣu đàn kiến Ant colony optimization (ACO) để giải toán (ℓ,d) motif Đây thuật toán lần đầu đƣợc đƣa vào để giải toán (ℓ,d) motif Thuật toán đƣợc đặt tên F-ACOMotif Và thực nghiệm đƣợc thuật toán F-ACOMotif tối ƣu thuật tốn PairMotif+ MEME độ xác tìm (ℓ,d) motif Ngoài phần kết luận, cấu trúc nội dung luận văn bao gồm chƣơng nhƣ sau: 10 nhiễm sắc thể đặc trƣng cho tế bào Nhiễm sắc thể lại đƣợc tạo thành axit nucleic protein Axit nucleic đại phân tử có cấu trúc đa phân, đơn phân nucleotide Axit nucleic đƣợc chia làm loại DNA (deoxyribonucleic acid) RNA Một thành phần quan trọng khác tế bào protein, đƣợc tạo từ axit amin, thành phần thiết yếu quan hoạt động hóa học liên quan đến toàn hoạt động tế bào, chúng đƣợc biểu thành đặc điểm cấu tạo chức tế bào, tính trạng sinh vật Giữa protein DNA có quan hệ chặt chẽ với nhau, cụ thể loại protein đƣợc xác định đoạn dãy DNA gọi gen 1.1.2.1 DNA Hình 1.1: DNA phân tử sống Vào năm 1944, Oswald Avery phát DNA loại nguyên liệu thô chứa gen Bắt nguồn từ phát này, vài nhóm nghiên cứu tập trung nghiên cứu DNA thành phần hóa học cấu thành DNA phân tử đƣợc cấu tạo đƣờng, photphat bốn nitrogenous bases: adenine, cytosine, guanine thiamine, đƣợc lần lƣợt viết tắt A, C, G, T Sau này, nhà khoa học quan niệm bốn nitrogen bases nucleotide sở mã di truyền Vào năm 1953, hai nhà sinh vật học J.Wáton F.Crick làm việc trƣờng đại học Cambridge xây dựng thành cơng mơ hình không gian phân tử DNA(deoxyribonucleic acid), đánh dấu bƣớc ngoặt quan trọng phát triển sinh học phân tử theo mơ hình DNA đại phân tử sinh học có cấu trúc nhƣ chuỗi xoắn kép gồm hai mạch đơn, mạch đơn 14 chuỗi nucleotide Mỗi nucleotide gồm nhóm phosphate, đƣờng desoxyribose bốn thành phần lần lƣợt đƣợc biểu thị chữ A, C, G T Hai mạch đơn kết hợp với nhờ liên kết hydro hình thành thành phần bổ sung nằm hai mạch A bổ sung cho T, C bổ sung cho G 1.1.2.2 RNA Hình 1.2:Hình ảnh RNA RNA (Ribonucleic Acid) loại acid nucleic (nhƣ DNA), RNA có cấu trúc đa phân mà đơn phân loại nucleotide, nhiên RNA nucleotide loại T (pyrimidine thymine) đƣợc thay U (uracil) RNA tồn dạng chuỗi đơn đƣợc phân chia làm loại dựa chức chúng: mRNA (RNA thông tin): mạch chép nguyên từ mạch đơn DNA T đƣợc thay U làm nhiệm vụ truyền đạt thông tin cấu trúc protein đƣợc tổng hợp rRNA (RNA riboxom): thành phần cấu tạo nên riboxom tRNA (RNA vận chuyển): có chức vận chuyển amino acid tƣơng ứng đến nơi tổng hợp protein 15 snRNA: có chức hỗ trợ việc ghép mã mRNA gRNA: sử dụng để điều khiển việc thay đổi mRNA RNA liên kết với dải đơn phân tử DNA, cách thay T U, phân tử kiểu có vai trị quan trọng q trình sống cơng nghệ sinh học [1] 1.1.2.3 Protein Hình 1.3:Cấu trúc Protein Protein đại phân tử sinh học đƣợc hình thành từ hay nhiều chuỗi polypeptide xếp theo thứ tự đặc biệt, thứ tự đƣợc xác định dãy sở (peptide chuỗi nối tiếp nhiều axit amin với số lƣợng 30, với số lƣợng axit amin lớn chuỗi đƣợc gọi polypeptide) đƣợc hình thành từ 20 loại axit amin khác lần lƣợt đƣợc biểu thị 20 kí tự khác bảng chữ Từ “ protein” dùng để cấu trúc phức tạp không gian không đơn trình tự axit amin Các nucleotide gene mã hóa cho 16 protein Các protein cần thiết cho cấu trúc, chức điều chỉnh tế bào, mơ tổ chức, protein có vai trò đặc biệt Cấu trúc protein bao gồm mức độ tổ chức: Cấu trúc bậc trình tự xếp axit amin chuỗi polypeptid, cấu trúc bậc phát sinh từ uốn thành phần chuỗi polypeptid thành cấu trúc đặn không gian ( dạng xoắn 𝛼 (alpha helix) hay lớp mỏng 𝛽 (Beta sheets)) Cấu trúc bậc quy định kết hợp chuỗi xoắn hay lớp mỏng thành hình dạng ba chiều khơng gian Cấu trúc bậc tổ chức nhiều chuỗi polypeptid thành phân tử protein 1.1.2.4 Quá trình tổng hợp protein Tổng hợp protein trình tạo protein dựa thơng tin đƣợc mã hóa gen ( đoạn mã đặc biệt DNA có chức điều khiển cấu trúc hoạt động tế bào, đơn vị chức di truyền) gồm ba giai đoạn : (1) Transcription (phiên mã) (2) Splipcing (ghép mã) (3) Translation (dịch mã) [1] đƣợc mơ tả nhƣ hình dƣới: Hình 1.4: Q trình tổng hợp Protein[1] 1.1.2.5 Một số tốn tin sinh học Việc hỗ trợ công nghệ thông tin nghiên cứu cấu trúc thành phần, trình hoạt động, đặc tính vai trị loại thành phần liên 17 kết chúng dẫn đến phải giải nhiều toán học máy phức tạp, thƣờng toán tối ƣu tổ hợp NP-khó có tính bất định Một số tốn đƣợc quan tâm nghiên cứu là: So sánh tích hợp gene (comparative genome assembly), xây dựng phân lồi (phylogenetic tree reconstruction), tìm kiếm motif (motif finding), suy diễn haplotype, dự báo hoạt động điều tiết gene, xây dựng ma trận biến đổi axít amin, phân tích chức protein dựa cấu trúc bậc cao,… Luận văn tập trung nghiên cứu “Bài tốn tìm kiếm motif sử dụng phƣơng pháp tối ƣu đàn kiến” 1.1.3 Motif 1.1.3.1 Q trình điều hịa gen Các vị trí điều hòa DNA tƣơng ứng với chuỗi hợp từ vùng quy định gen Chúng ta gọi motif DNA signals Vị trí quy định DNA tƣơng ứng với motif đƣợc gọi instances motif Xác định đƣợc motif instance tƣơng ứng có ý nghĩ quan trọng, từ nhà nghiên cứu sinh học phát tƣơng tác DNA protein, điều hòa gen nhƣ phát triển tƣơng tác tế bào 18 Hình 1.5: Quá trình tổng hợp Protein Motif đoạn trình tự có kích thƣớc ngắn, nucleotide amino axit mang ý nghĩa sinh học Một vài đặc điểm motif [15]: Motif mẫu có kích thƣớc từ 10-25 base lặp lại nhiều lần qua chuỗi khác Motif đoạn trình tự đại diện cho vùng điều hịa gen Motif có kích thƣớc nhỏ, cố định, lặp lại nhiều lần thƣờng xuyên Hình 1.6: Ví dụ Motif 19 Khó khăn việc tìm kiếm motif [15]: Các Motif khơng xác nhƣ chuỗi đƣợc bảo tồn Ln có thay đổi vài base Kích thƣớc Motif ngắn so với kích thƣớc chuỗi DNA đƣợc xemxét Vùng điều hòa bao gồm Motif trị trí xa so với vùng mã hóa gen khiến cho việc tìm kiếm trở nên khó khăn nhiều Vùng điều hịa nằm mảnh DNA đối diện với vùng mã hóa q trình phiên mã 1.1.3.2 Ý nghĩa Motif Ngồi vùng mã hóa quan trọng, hệ gen cịn có vùng chứa tín hiệu nhƣ tín hiệu khởi đầu phiên mã, tín hiệu cắt để xác định intron exon … Phần tử điều hòa (Regulatory element) đƣợc chia làm loại: promoter enhancer Promoter vùng gần với exon vị trí gắn (binding site) cho enzim điều khiển trình phiên mã (Transcription factor) Enhancer, trái lại, thƣờng xuất vị trí xa so với vùng mã hóa Cả vùng có ý nghĩa việc kiểm soát biểu gen 1.1.3.3 Biểu diễn Motif 1.1.3.3.1 Chuỗi hợp ma trận đặc trưng (Consensus sequence) Chuỗi hợp thƣờng đƣợc dùng để đại diện cho vị trí gắn emzim điều khiển trình phiên mã (Transcription factor binding) Là chuỗi gần nhƣ khớp hồn tồn với trình tự gắn nhƣng khơng xác hồn tồn 20 Hình 1.7: Chuỗi hợp Nhƣ ví dụ „ACGTACGT‟ chuỗi hợp 1.1.3.3.2 Ma trận Có cách biểu diễn ma trận Ma trận tần số: thể tần số xuất base tất trình tự xuất Ma trận tần suất: thể tần suất xuất base Ma trận trọng số: trọng số bị trí base đƣợc tính theo cơng thức sau : 𝑓𝛽𝑘 𝑓𝛽𝑘 𝑙𝑜𝑔 𝑞𝛽 𝛽𝜖 {𝐴,𝐶,𝐺,𝑇} 21 Hình 1.8: Biểu diễn Motif 1.1.3.3.3 Biểu tượng Biểu tƣợng cách dùng hình ảnh biểu diễn cho Motif 22 Hình 1.9: Biểu diễn Motif dạng sequence 1.2 Bài toán tối ưu tổ hợp toán tìm kiếm (ℓ,d) motif 1.2.1 Bài tốn tối ưu tổ hợp 1.2.1.1Giới thiệu toán tối ưu tổ hợp Mỗi toán tối ƣu tổ hợp ứng với ba(𝑆, 𝑓, Ω), 𝑆 tập hữu hạn trạng thái (lời giải tiềm hay phƣơng án), 𝑓 hàm mục tiêu xác định 𝑆 Ω tập ràng buộc Mỗi phƣơng án 𝑠 ∈ 𝑆 thỏa mãn ràng buộc Ω gọi phƣơng án chấp nhận đƣợc Mục tiêu chúng tìm phƣơng án 𝑠 ∗ tối ƣu hóa tồn cục hàm mục tiêu 𝑓, nói cách khác tìm phƣơng án 𝑠 ∗ cho 𝑓 𝑠 ∗ ≤ 𝑓 𝑠 với 𝑠 ∈ 𝑆 Đối với tốn ta có cách giải là: vét cạn, kỹ thuật ăn tham phƣơng pháp tối ƣu lĩnh vực NP-khó Các thuộc tính tập 𝑆, 𝐶 Ω nhƣ sau: 1) Ký hiệu 𝑋 tập vectơ 𝐶có độ dài không : 𝑋 = {< 𝑢0 , , 𝑢𝑘 > 𝑢𝑖 𝐶𝑖𝑘}.Khi đó, phƣơng án 𝑠 𝑆 đƣợc xác định nhờ mộtvectơ 𝑋 2) Tồn tập 𝑋 ∗ 𝑋 ánh xạ từ 𝑋 ∗ lên 𝑆 cho−1 (𝑠) khơng rỗng với 𝑠𝑆,trong tập 𝑋 ∗ xây dựng đƣợc từ tập 𝐶0 𝐶 nhờ thủ tục mở rộng dƣới 3) Từ 𝐶0 ta mở rộng thành 𝑋 ∗ nhƣ sau: i) Ta xem 𝑥0 = < 𝑢0 >là mở rộng đƣợc với 𝑢0 𝐶0 ii) Giả sử𝑥𝑘 =< 𝑢0 , … , 𝑢𝑘 > mở rộng đƣợc chƣa thuộc 𝑋 ∗ Từ tập ràng buộc Ω, xác định tập 𝐽(𝑥𝑘 ) 𝐶, cho với 𝑢𝑘+1 𝐽 𝑥𝑘 𝑥𝑘+1 = < 𝑢0 , … , 𝑢𝑘 , 𝑢𝑘+1 >là mở rộng đƣợc iii) Áp dụng thủ tục mở rộng từ phần tử 𝑢0 𝐶0 cho phép ta xây dựng đƣợc phần tử 𝑋 ∗ 1.2.1.2 Giới thiệu toán người chào hàng 23 Bài toán ngƣời chào hàng (Traveling Salesman Problem - TSP) toán TƢTH điển hình, đƣợc nghiên cứu xem nhƣ tốn chuẩn để đánh giá hiệu lời giải toán TƢTH Bài toán đƣợc phát biểu nhƣ sau: Có tập gồm 𝑛 thành phố (hoặc điểm tiêu thụ) 𝐶 = {𝑐1 , 𝑐2 , … , 𝑐𝑛 } độ dài đường trực tiếp từ ci đến cj di,j Một người chào hàng muốn tìm hành trình ngắn từ nơi ở, qua thành phố lần để giới thiệu sản phẩm cho khách hàng, sau trở thành phố xuất phát Có thể thấy tốn tìm chu trình Hamilton với đồ thị đầy đủ có trọng số 𝐺 = (𝑉, 𝐸), với 𝑉 tập đỉnh với nhãn thành phố 𝐶, 𝐸 tập cạnh nối thành phố tƣơng ứng, độ dài cạnh độ dài đƣờng hai thành phố tƣơng ứng Trong trƣờng hợp này, tập 𝑆 tập chu trình Hamilton 𝐺, 𝑓 độ dài chu trình, Ω ràng buộc địi hỏi chu trình chu trình Hamilton (qua tất đỉnh, đỉnh lần), 𝐶 tập thành phố đƣợc xét, 𝐶0 trùng với 𝐶, tập 𝑋 vectơ độ dài 𝑛: 𝑥 = (𝑥1 , … , 𝑥𝑛 ) với 𝑥𝑖 ∈ 𝐶 ∀ 𝑖 ≤ 𝑛, 𝑋 ∗ vectơ 𝑥𝑖 khác 𝑥𝑗 cặp (𝑖, 𝑗) Do đó, lời giải tối ƣu toán TSP hoán vị 𝜋 tập đỉnh {𝑐1 , 𝑐2 , , 𝑐𝑛 } cho hàm độ dài 𝑓(𝜋) nhỏ nhất, 𝑓(𝜋)đƣợc tính theo (1): 𝑓 𝜋 = 𝑛−1 𝑖=1 𝑑(𝜋 𝑖 , 𝜋(𝑖 + 1)) + 𝑑(𝜋 𝑛 , 𝜋 1) (1.1) 1.2.1.3 Các cách tiếp cận giải toán tối ưu tổ hợp Nhƣ phần ta thấy tốn TƢTH đƣa tốn tìm kiếm đồ thị Với tốn cỡ nhỏ tốn đặc biệt ta hồn tồn tìm lời giải tối ƣu nhờ tìm kiếm vét cạn nhƣ xây dựng lời giải đặc thù riêng Tuy nhiên hầu hết tốn số tốn NP-khó, nên với tốn cỡ lớn ngƣời ta phải tìm lời giải gần Các thuật toán gần tốn TƢTH khó thƣờng dựa kỹ thuật bản: heuristic cấu trúc (construction heuristic) tìm kiếm địa phƣơng (local search) 24 1.2.1.3.1 Heuristic cấu trúc Khi khơng thể tìm lời giải tối ƣu toán với thời gian đa thức, hƣớng đến việc tìm lời giải gần Kỹ thuật hay dùng việc tìm lời giải gần heuristic cấu trúc, lời giải tốn đƣợc xây dựng thơng qua việc mở rộng Từ thành phố khởi tạo tập 𝐶0 , bƣớc mở rộng không quay lui, thêm vào thành phần theo phƣơng thức ngẫu nhiên hay tất định dựa quy tắc heuristic Các quy tắc heuristic khác tùy vào thuật toán cụ thể đƣợc xây dựng dựa tốn học kết hợp với kinh nghiệm Chúng ta khái qt hóa để mơ dƣới dạng thuật toán nhƣ sau: Procedure Heuristic cấu trúc; Begin 𝒔𝒑 ← chọn thành phần 𝒖𝟎 𝑪𝟎 ; While (chƣa xây dựng xong lời giải) 𝒄 ←GreedyComponent(𝒔𝒑 ); 𝒔𝒑 ← 𝒔𝒑 ^ 𝒄; end-while 𝒔 ← 𝒔𝒑 ; Đƣa lời giải 𝒔; End; Hình 1.10: Phương pháp heuristic cấu trúc Trong GreedyComponent(𝑠𝑝 ) có nghĩa chọn thành phần bổ sung vào 𝑠𝑝 theo quy tắc heuristic có Ký hiệu 𝑠𝑝 ^ 𝑐 kết phép toán thêm thành phần 𝑐 vào 𝑠𝑝 Với phƣơng pháp ta áp dụng cho tốn TSP với đồ thị đầy đủ sử dụng quy tắc heuristic láng giềng gần để chọn đỉnh thêm vào (đỉnh láng 25 giềng nhỏ chƣa qua để thêm vào) Thuật tốn kiểu có ƣu điểm thời gian tính tốn nhanh nhƣng lại khơng có khả cải tiến lời giải qua bƣớc lặp 1.2.1.3.2Tìm kiếm địa phương Kỹ thuật tìm kiếm cục hay cịn gọi tìm kiếm địa phƣơng, thực cách phƣơng án chấp nhận đƣợc, lặp lại bƣớc cải tiến lời giải nhờ thay đổi cục Để thực kỹ thuật này, ta cần xác định đƣợc cấu trúc lân cận phƣơng án (lời giải) xét, tức phƣơng án chấp nhận đƣợc, gần với nhất, nhờ thay đổi số thành phần Cách thƣờng dùng lân cận 𝑘-thay đổi, tức lân cận bao gồm phƣơng án chấp nhận đƣợc khác với phƣơng án xét nhờ thay đổi nhiều 𝑘 thành phần TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hồ Tú Bảo, Phạm Thọ Hoàn, School of Knowledge Science Japan Advanced Institute of Science and technology, Tin sinh học khái niệm toán Một vài kết nghiên cứu, 2005 [2] Đỗ Đức Đông (2012), Phƣơng pháp tối ƣu đàn kiến ứng dụng, Luận án tiến sĩ công nghệ thông tin ĐHCN – ĐHQGHN Tiếng Anh [3] [SH00] T Stăutzle and H.H Hoos MAX-MIN Ant System Journal of FutureGeneration Computer Systems, special issue on Ant Algorithms, 16:889–914, 2000 [4] Bailey TL, Williams N, Misleh C et al “MEME: discovering and analyzing DNA and protein sequence motifs” Nucleic Acids Res 2006; 34: 369-73 [5] Buhler J, Tompa M “Finding motifs using random projections” J Comput Biol 2002;9:225-42 26 [6] Cheng-Hong Yang, Member, IAENG, Yu-Tang Liu, and Li-Yeh Chuang (2011) “DNA Motif Discovery Based on Ant Colony Optimization and Expectation Maximization” Proceedings of the International MultiConference of Engineer, and Computer Scientists 2011 Vol I, IMECS 2011, March 16 – 18, 2011, Hong Kong [7] E Alpaydın (2010), “Introduction to Machine Learning”, Massachusetts Institute of Technology, Second Edition [8] H Dinh, S Rajasekaran, and J Davila qPMS7: “A Fast Algorithm for Finding (ℓ, d)-Motifs in DNA and Protein Sequences”, PloS one , Vol.7 No (2012): e41425 [9]J Liu, A Neuwald, and C Lawrence “Bayesian models for multiple local sequence alignment and Gibbs sampling strategies.” Journal of the American Statistical Association, 90(432):1156–1170, 1995 [10] M Dorigo (1992), “Optimization, learning and natural algorithms”, PhD dissertation, Milan Polytechnique, Italy [11] M Dorigo and L.M Gambardella (1997), “Ant colony system: A cooperative learning approach to the traveling salesman problem”, IEEE Trans on evolutionary computation, Vol (1), pp 53-66 [12] M Dorigo, and T.Stützle (2004), “Ant Colony Optimization,” The MIT Press, Cambridge, Masachusetts [13] M Dorigo, V Maniezzo and A Colorni (1991), “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy [14] Neil C Jones, and Pavel A Pevzner “An introduction to bioinformatics algorithms” MIT press, 2004 [15] Pradhan, Medha, "Motif Discovery in Biological Sequences" (2008).Master's Projects 27 [16] Qiang Yu, Hongwei Huo, Yipu Zhang, Hongzhi Guo, and Haitao Guo "PairMotif+: a fast and effective algorithm for de novo motif discovery in DNA sequences." International journal of biological sciences 9, no (2013): 412 [17] Rajasekaran S “Computational techniques for motif search” Frontiers in Bioscience 2009;14:5052–5065 doi: 10.2741/3586 [18] S Bouamama, A Boukerram, and A.F Al Badarneh: “Motif Finding Using Ant Colony Optimization”, ANTS‟10 Proc of the 7th int conf on Swarm intelligence(2010), LNCS vol.6234, 464-471 [19] Xuan-Huan Hoang and T.A Tuyet Duong and T.T Ha Doan and T Hung Nguyen (2014) “An Efficient Ant Colony Algorithm for DNA Motif Finding” In: 2014: The 6th International Conference on Knowledge and Systems Engineering (KSE 2014), 9-11 October 2014, Hanoi, Vietnam [20] Yu Q, Huo H, Zhang Y, Guo H (2012) “PairMotif: A New Pattern-Driven Algorithm for Planted (l,d) DNA Motif Search.” PLoS ONE 7(10):e48442.doi:10.1371/journal.pone.0048442 28 ... Motif 1.1.3.3.3 Biểu tượng Biểu tƣợng cách dùng hình ảnh biểu diễn cho Motif 22 Hình 1.9: Biểu diễn Motif dạng sequence 1.2 Bài tốn tối ưu tổ hợp tốn tìm kiếm (ℓ,d) motif 1.2.1 Bài toán tối ưu. .. (ℓ,d) motif theo thuật toán xấp xỉ, việc đề xuất thuật toán tối ƣu đàn kiến Ant colony optimization (ACO) để giải toán (ℓ,d) motif Đây thuật toán lần đầu đƣợc đƣa vào để giải toán (ℓ,d) motif. .. giải toán (ℓ,d) motif Chƣơng 4: Đƣa kết thực nghiệm luận văn, so sánh kết thuật toán ACO với thuật toán PairMotif+ thuật toán MEME 11 12 Chương 1: TIN SINH HỌC VÀ BÀI TỐN TÌM KIẾM (l,d) MOTIF