1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài toán tìm kiếm MOTIF và phương pháp tối ưu đàn kiến

28 24 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 307,74 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG BÀI TỐN TÌM KIẾM MOTIF VÀ PHƯƠNG PHÁP TỐI ƯU ĐÀN KIẾN : Công nghệ thông tin Ngành Chuyên ngành : Hệ thống thông tin Mã số : 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THƠNG TIN Người hướng dẫn khoa học: PGS TS Hồng Xuân Huấn Hà Nội, năm 2016 MỤC LỤC LỜI CẢM ƠN Error! Bookmark not defined LỜI CAM ĐOANError! Bookmark not defined DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH SÁCH CÁC HÌNH VẼ MỞ ĐẦU Chƣơng 1: TIN SINH HỌC VÀ BÀI TỐN TÌM KIẾM (l,d) MOTIF 1.1 Tin sinh học 1.1.1 1.1.2 1.1.2.1 DNA 1.1.2.2 RNA 1.1.2.3 Protein 1.1.2.4 Quá trình tổng hợp protein 1.1.2.5 Một số toán tin sinh học 1.1.3 1.1.3.1 Q trình điều hịa gen 1.1.3.2 Ý nghĩa Motif 1.1.3.3 Biểu diễn Motif 1.2 Bài tốn tối ưu tổ hợp tốn tìm kiếm (ℓ ,d) motif 1.2.1 1.2.1.1 Giới thiệu toán tối ƣu tổ hợp 1.2.1.2 Giới thiệu toán ngƣời chào hàng 1.2.1.3 Các cách tiếp cận giải toán tối ƣu tổ hợp 1.2.2 CHƢƠNG GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) Error! Bookmark not defined 2.1 Giới thiệu thuật toán ACO 2.2 Mơ hình mơ thuật tốn 2.2.1 2.2.2 2.3 Trình bày giải thuật 2.3.1 2.3.2 2.3.3 2.3.4 2.3.4.1 Thuật toán AS 2.3.4.2 Thuật toán ACS 2.3.4.3 Thuật toán Max-Min 2.3.4.4 Thuật toán Max- Min trơn 2.3.5 2.3.6 2.3.7 Chƣơng 3: THUẬT TOÁN ĐỀ XUẤT 3.1 Thuật toán tối ưu đàn kiến 3.2 Xây dựng đồ thị cấu trúc 3.3 Thông tin heuristic 3.4 Xây dựng lời giải 3.5 Quy tắc cập nhật mùi (pheromone update rule) defined 3.6 Tìm kiếm đị a phương (local search) Chƣơng 4: KẾT QUẢ THỰC NGHIỆM, SO SÁNH VÀ ĐÁNH GIÁ KẾT QUẢ Error! Bookmark not defined 4.1 Bộ liệu chuẩn 4.2 Tiến hành chạy thực nghiệm hệ điều hành ubuntu Error! Bookmark not defined Kết chạy thực nghiệm đánh giá Error! Bookmark not defined 4.3.1 Kết thực nghiệm Error! Bookmark not defined 4.3.2 So sánh đánh giá Error! Bookmark not defined 4.3.2.1 So sánh với MEME 4.3.2.2 Kết so sánh F-ACOMotif với Pairmotif+ MEME tập l thực KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TÀI LIỆU THAM KHẢO25 DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT STT PMS DANH MỤC CÁC BẢNG Bảng 1: Các tham số chạy F-ACOMotif cho thực nghiệm Error! Bookmark not defined Bảng 2: Kết thực nghiệm sở liệu TRANSFAC Error! Bookmark not defined Bảng 4.3: Tham số chạy F-ACOMotif Error! Bookmark not defined Bảng 4.4: Kết so sánh F-ACOMotif với thuật toán MEME Error! Bookmark not defined Bảng 4.5: Kết so sánh F-ACOMotif với MEME PairMotif+ Error! Bookmark not defined Bảng 4.6: So sánh độ xác motif dự đoánError! Bookmark not defined DANH SÁCH CÁC HÌNH VẼ Hình 1.1: DNA phân tử sống Hình 1.2: Hình ảnh RNA Hình 1.3: Cấu trúc Protein Hình 1.4: Quá trình tổng hợp Protein [1] Hình 1.5: Quá trình tổng hợp Protein Hình 1.6: Ví dụ Motif Hình 1.7: Chuỗi hợp Hình 1.8: Biểu diễn Motif Hình 1.9: Biểu diễn Motif dạng sequence Hình 1.10: Phƣơng pháp heuristic cấu trúc Hình 1.11: Lời giải nhận đƣợc thơng qua tìm kiếm địa phƣơng Bookmark not defined Hình 1.12: Thuật tốn memetic sử dụng ECError! Bookmark not defined Hình 1.13: Ví dụ khoảng cách hamming Error! Bookmark not defined Hình 2.1: Thể hành vi kiến tự nhiên Bookmark not defined Hình 2.2: Thực nghiệm cầu đơi Hình 2.3: Thí nghiệm bổ xung Hình 2.4: Đồ thị cấu trúc tổng quát cho toán cực trị hàm ( , … ) Hình 2.5: Đặc tả thuật tốn ACO Hình 3.1: Đồ thị cấu trúc tìm motif độ dài l Error! Bookmark not defined Hình 3.2: Cách xây dựng đƣờng kiếnError! Bookmark not defined Hình 4.1: Đồ thị so sánh độ xác F-ACOMotif so với PairMotif+ MEME Error! Bookmark not defined MỞ ĐẦU Tin sinh học có ứng dụng cao sống, đặc biệt lĩnh vực y – dƣợc Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phƣơng pháp nhƣ kĩ thuật tin học để giải toán sinh học phân tử.Tìm kiếm motif chuỗi gene toán quan trọng tin sinh học thuộc loại NP-khó Các thành phần điều hòa gene (gene regulatory elements) đƣợc gọi DNA motif (về sau gọi motif cho gọn), chúng chứa nhiều thơng tin sinh học quan trọng Vì việc nhận dạng DNA motif toán quan trọng tin sinh học thuộc loại NP-khó Chủ yếu, có cách tiếp cận để tìm kiếm motif: phƣơng pháp thực nghiệm phƣơng pháp tính tốn Vì chi phí cao tốn thời gian nên phƣơng pháp thực nghiệm hiệu quả.Phƣơng pháp tính toán đƣợc dùng rộng rãi cho dự đoán motif Ngƣời ta đƣa nhiều phát biểu cho tốn tìm kiếm motif, có nhiều thuật tốn nghiên cứu cơng bố giải tốn tìm kiếm motif Trong luận văn này, tơi trình bày tốn (ℓ,d) motif Có nhiều thuật tốn đƣa để giải toán (ℓ,d) motif, thuật tốn chia thành loại thuật tốn xác thuật tốn xấp xỉ Các thuật tốn xác ln ln tìm motif chuỗi DNA đầu vào nhƣng hiệu với liệu có kích thƣớc nhỏ thực nhiều thời gian Các thuật toán xấp xỉ khơng tìm đƣợc tất motif nhƣng chạy hiệu với liệu lớn Luận văn đề xuất giải toán (ℓ,d) motif theo thuật toán xấp xỉ, việc đề xuất thuật toán tối ƣu đàn kiến Ant colony optimization (ACO) để giải toán (ℓ,d) motif Đây thuật toán lần đầu đƣợc đƣa vào để giải toán (ℓ,d) motif Thuật toán đƣợc đặt tên F-ACOMotif Và thực nghiệm đƣợc thuật toán F-ACOMotif tối ƣu thuật toán PairMotif+ MEME độ xác tìm (ℓ,d) motif Ngoài phần kết luận, cấu trúc nội dung luận văn bao gồm chƣơng nhƣ sau: 10 nhiễm sắc thể đặc trƣng cho tế bào Nhiễm sắc thể lại đƣợc tạo thành axit nucleic protein Axit nucleic đại phân tử có cấu trúc đa phân, đơn phân nucleotide Axit nucleic đƣợc chia làm loại DNA (deoxyribonucleic acid) RNA Một thành phần quan trọng khác tế bào protein, đƣợc tạo từ axit amin, thành phần thiết yếu quan hoạt động hóa học liên quan đến toàn hoạt động tế bào, chúng đƣợc biểu thành đặc điểm cấu tạo chức tế bào, tính trạng sinh vật Giữa protein DNA có quan hệ chặt chẽ với nhau, cụ thể loại protein đƣợc xác định đoạn dãy DNA gọi gen 1.1.2.1 DNA Hình 1.1: DNA phân tử sống Vào năm 1944, Oswald Avery phát DNA loại nguyên liệu thô chứa gen Bắt nguồn từ phát này, vài nhóm nghiên cứu tập trung nghiên cứu DNA thành phần hóa học cấu thành DNA phân tử đƣợc cấu tạo đƣờng, photphat bốn nitrogenous bases: adenine, cytosine, guanine thiamine, đƣợc lần lƣợt viết tắt A, C, G, T Sau này, nhà khoa học quan niệm bốn nitrogen bases nucleotide sở mã di truyền Vào năm 1953, hai nhà sinh vật học J.Wáton F.Crick làm việc trƣờng đại học Cambridge xây dựng thành cơng mơ hình khơng gian phân tử DNA(deoxyribonucleic acid), đánh dấu bƣớc ngoặt quan trọng phát triển sinh học phân tử theo mơ hình DNA đại phân tử sinh học có cấu trúc nhƣ chuỗi xoắn kép gồm hai mạch đơn, mạch đơn 14 chuỗi nucleotide Mỗi nucleotide gồm nhóm phosphate, đƣờng desoxyribose bốn thành phần lần lƣợt đƣợc biểu thị chữ A, C, G T Hai mạch đơn kết hợp với nhờ liên kết hydro hình thành thành phần bổ sung nằm hai mạch A bổ sung cho T, C bổ sung cho G 1.1.2.2 RNA Hình 1.2:Hình ảnh RNA RNA (Ribonucleic Acid) loại acid nucleic (nhƣ DNA), RNA có cấu trúc đa phân mà đơn phân loại nucleotide, nhiên RNA nucleotide loại T (pyrimidine thymine) đƣợc thay U (uracil) RNA tồn dạng chuỗi đơn đƣợc phân chia làm loại dựa chức chúng: mRNA (RNA thông tin): mạch chép nguyên từ mạch đơn DNA T đƣợc thay U làm nhiệm vụ truyền đạt thông tin cấu trúc protein đƣợc tổng hợp rRNA (RNA riboxom): thành phần cấu tạo nên riboxom tRNA (RNA vận chuyển): có chức vận chuyển amino acid tƣơng ứng đến nơi tổng hợp protein 15 snRNA: có chức hỗ trợ việc ghép mã mRNA gRNA: sử dụng để điều khiển việc thay đổi mRNA RNA liên kết với dải đơn phân tử DNA, cách thay T U, phân tử kiểu có vai trị quan trọng q trình sống cơng nghệ sinh học [1] 1.1.2.3 Protein Hình 1.3:Cấu trúc Protein Protein đại phân tử sinh học đƣợc hình thành từ hay nhiều chuỗi polypeptide xếp theo thứ tự đặc biệt, thứ tự đƣợc xác định dãy sở (peptide chuỗi nối tiếp nhiều axit amin với số lƣợng 30, với số lƣợng axit amin lớn chuỗi đƣợc gọi polypeptide) đƣợc hình thành từ 20 loại axit amin khác lần lƣợt đƣợc biểu thị 20 kí tự khác bảng chữ Từ “ protein” dùng để cấu trúc phức tạp không gian không đơn trình tự axit amin Các nucleotide gene mã hóa cho 16 protein Các protein cần thiết cho cấu trúc, chức điều chỉnh tế bào, mô tổ chức, protein có vai trị đặc biệt Cấu trúc protein bao gồm mức độ tổ chức: Cấu trúc bậc trình tự xếp axit amin chuỗi polypeptid, cấu trúc bậc phát sinh từ uốn thành phần chuỗi polypeptid thành cấu trúc đặn không gian ( dạng xoắn (alpha helix) hay lớp mỏng (Beta sheets)) Cấu trúc bậc quy định kết hợp chuỗi xoắn hay lớp mỏng thành hình dạng ba chiều không gian Cấu trúc bậc tổ chức nhiều chuỗi polypeptid thành phân tử protein 1.1.2.4 Quá trình tổng hợp protein Tổng hợp protein q trình tạo protein dựa thơng tin đƣợc mã hóa gen ( đoạn mã đặc biệt DNA có chức điều khiển cấu trúc hoạt động tế bào, đơn vị chức di truyền) gồm ba giai đoạn : (1) Transcription (phiên mã) (2) Splipcing (ghép mã) (3) Translation (dịch mã) [1] đƣợc mơ tả nhƣ hình dƣới: Hình 1.4: Quá trình tổng hợp Protein[1] 1.1.2.5 Một số toán tin sinh học Việc hỗ trợ công nghệ thông tin nghiên cứu cấu trúc thành phần, q trình hoạt động, đặc tính vai trò loại thành phần liên 17 kết chúng dẫn đến phải giải nhiều toán học máy phức tạp, thƣờng tốn tối ƣu tổ hợp NP-khó có tính bất định Một số toán đƣợc quan tâm nghiên cứu là: So sánh tích hợp gene (comparative genome assembly), xây dựng phân loài (phylogenetic tree reconstruction), tìm kiếm motif (motif finding), suy diễn haplotype, dự báo hoạt động điều tiết gene, xây dựng ma trận biến đổi axít amin, phân tích chức protein dựa cấu trúc bậc cao,… Luận văn tập trung nghiên cứu “Bài tốn tìm kiếm motif sử dụng phƣơng pháp tối ƣu đàn kiến” 1.1.3 Motif 1.1.3.1 Quá trình điều hịa gen Các vị trí điều hịa DNA tƣơng ứng với chuỗi hợp từ vùng quy định gen Chúng ta gọi motif DNA signals Vị trí quy định DNA tƣơng ứng với motif đƣợc gọi instances motif Xác định đƣợc motif instance tƣơng ứng có ý nghĩ quan trọng, từ nhà nghiên cứu sinh học phát tƣơng tác DNA protein, điều hòa gen nhƣ phát triển tƣơng tác tế bào 18 Hình 1.5: Quá trình tổng hợp Protein Motif đoạn trình tự có kích thƣớc ngắn, nucleotide amino axit mang ý nghĩa sinh học Một vài đặc điểm motif [15]:    Motif mẫu có kích thƣớc từ 10-25 base lặp lại nhiều lần qua chuỗi khác Motif đoạn trình tự đại diện cho vùng điều hịa gen Motif có kích thƣớc nhỏ, cố định, lặp lại nhiều lần thƣờng xun Hình 1.6: Ví dụ Motif 19 Khó khăn việc tìm kiếm motif [15]:  Các Motif khơng xác nhƣ chuỗi đƣợc bảo tồn Ln có thay đổi vài base  Kích thƣớc Motif ngắn so với kích thƣớc chuỗi DNA đƣợc xemxét  Vùng điều hịa bao gồm Motif trị trí xa so với vùng mã hóa gen khiến cho việc tìm kiếm trở nên khó khăn nhiều Vùng điều hịa nằm mảnh DNA đối diện với vùng mã hóa trình phiên mã 1.1.3.2 Ý nghĩa Motif Ngồi vùng mã hóa quan trọng, hệ gen cịn có vùng chứa tín hiệu nhƣ tín hiệu khởi đầu phiên mã, tín hiệu cắt để xác định intron exon … Phần tử điều hòa (Regulatory element) đƣợc chia làm loại: promoter enhancer Promoter vùng gần với exon vị trí gắn (binding site) cho enzim điều khiển trình phiên mã (Transcription factor) Enhancer, trái lại, thƣờng xuất vị trí xa so với vùng mã hóa Cả vùng có ý nghĩa việc kiểm sốt biểu gen 1.1.3.3 Biểu diễn Motif 1.1.3.3.1 Chuỗi hợp ma trận đặc trưng (Consensus sequence) Chuỗi hợp thƣờng đƣợc dùng để đại diện cho vị trí gắn emzim điều khiển q trình phiên mã (Transcription factor binding) Là chuỗi gần nhƣ khớp hoàn tồn với trình tự gắn nhƣng khơng xác hồn tồn 20 Hình 1.7: Chuỗi hợp Nhƣ ví dụ „ACGTACGT‟ chuỗi hợp 1.1.3.3.2 Ma trận Có cách biểu diễn ma trận    Ma trận tần số: thể tần số xuất base tất trình tự xuất Ma trận tần suất: thể tần suất xuất base Ma trận trọng số: trọng số bị trí base đƣợc tính theo cơng thức sau : {,,,} 21 Hình 1.8: Biểu diễn Motif 1.1.3.3.3 Biểu tượng Biểu tƣợng cách dùng hình ảnh biểu diễn cho Motif 22 Hình 1.9: Biểu diễn Motif dạng sequence 1.2 Bài toán tối ưu tổ hợp toán tìm kiếm (ℓ,d) motif 1.2.1 Bài tốn tối ưu tổ hợp 1.2.1.1Giới thiệu toán tối ưu tổ hợp Mỗi toán tối ƣu tổ hợp ứng với ba( , , Ω), tập hữu hạn trạng thái (lời giải tiềm hay phƣơng án), hàm mục tiêu xác định Ω∗là tập ràng buộc Mỗi phƣơng án ∈ thỏa mãn ràng buộc Ω gọi phƣơng án∗ chấp nhận đƣợc Mục tiêu chúng tìm phƣơng án tối ƣu hóa tồn cục hàm mục tiêu , nói cách khác tìm phƣơng án cho ∗ ≤ với ∈ Đối với toán ta có cách giải là: vét cạn, kỹ thuật ăn tham phƣơng pháp tối ƣu lĩnh vực NP-khó Các thuộc tính tập , Ω nhƣ sau: 1) Ký hiệu tập vectơ có độ dài khơng q : = {< 0, , > ∈ ∀ ≤ ≤ }.Khi đó, phƣơng án đƣợc xác định nhờ mộtvectơ 2) Tồn tập ∗của ánh xạ ϕ từ ∗ lên choϕ−1( ) khơng rỗng với ∈ ,trong tập ∗có thể xây dựng đƣợc từ tập nhờ thủ tục mở rộng dƣới 3) Từ 0ta mở rộng thành i) ii) Ta xem =< ∗ nhƣ sau: >là mở rộng đƣợc với 0∈ Giả sử =< 0, … , > mở rộng đƣợc chƣa thuộc ∗.Từ tập ràng buộc Ω, xác định tập ( ) , cho với +1∈ +1 =< 0, …, , +1 >là mở rộng đƣợc iii) Áp dụng thủ tục mở rộng từ phần tử đƣợc phần tử ∗ 0∈ cho phép ta xây dựng 1.2.1.2 Giới thiệu toán người chào hàng 23 Bài toán ngƣời chào hàng (Traveling Salesman Problem - TSP) tốn TƢTH điển hình, đƣợc nghiên cứu xem nhƣ toán chuẩn để đánh giá hiệu lời giải toán TƢTH Bài tốn đƣợc phát biểu nhƣ sau: Có tập gồm thành phố (hoặc điểm tiêu thụ) = { 1, 2, … , } độ dài đường trực tiếp từ c i đến cj di,j Một người chào hàng muốn tìm hành trình ngắn từ nơi ở, qua thành phố lần để giới thiệu sản phẩm cho khách hàng, sau trở thành phố xuất phát Có thể thấy tốn tìm chu trình Hamilton với đồ thị đầy đủ có trọng số = ( , ), với tập đỉnh với nhãn thành phố , tập cạnh nối thành phố tƣơng ứng, độ dài cạnh độ dài đƣờng hai thành phố tƣơng ứng Trong trƣờng hợp này, tập tập chu trình Hamilton , độ dài chu trình, Ω ràng buộc địi hỏi chu trình chu trình Hamilton (qua tất đỉnh, đỉnh lần), tập thành phố đƣợc ∗ xét, 0trùng với , tập vectơ độ dài : = ( 1, … , ) với ∈ ∀ ≤ , vectơ khác cặp ( , ) Do đó, lời giải tối ƣu toán TSP hoán vị tập đỉnh { 1, 2, , } cho hàm độ dài ( ) nhỏ nhất, ( )đƣợc tính theo (1): = ( ,(+1))+ ( , 1) 1.2.1.3 Các cách tiếp cận giải toán tối ưu tổ hợp Nhƣ phần ta thấy tốn TƢTH đƣa tốn tìm kiếm đồ thị Với toán cỡ nhỏ tốn đặc biệt ta hồn tồn tìm lời giải tối ƣu nhờ tìm kiếm vét cạn nhƣ xây dựng lời giải đặc thù riêng Tuy nhiên hầu hết toán số tốn NP-khó, nên với tốn cỡ lớn ngƣời ta phải tìm lời giải gần Các thuật toán gần toán TƢTH khó thƣờng dựa kỹ thuật bản: heuristic cấu trúc (construction heuristic) tìm kiếm địa phƣơng (local search) 24 1.2.1.3.1 Heuristic cấu trúc Khi tìm lời giải tối ƣu tốn với thời gian đa thức, hƣớng đến việc tìm lời giải gần Kỹ thuật hay dùng việc tìm lời giải gần heuristic cấu trúc, lời giải tốn đƣợc xây dựng thơng qua việc mở rộng Từ thành phố khởi tạo tập 0, bƣớc mở rộng không quay lui, thêm vào thành phần theo phƣơng thức ngẫu nhiên hay tất định dựa quy tắc heuristic Các quy tắc heuristic khác tùy vào thuật toán cụ thể đƣợc xây dựng dựa toán học kết hợp với kinh nghiệm Chúng ta khái quát hóa để mơ dƣới dạng thuật tốn nhƣ sau: Procedure Heuristic cấu trúc; Begin ← chọn thành phần ; While (chƣa xây dựng xong lời giải) ); ←GreedyComponent( ← ^; end-while ; ← Đƣa lời giải ; End; Hình 1.10: Phương pháp heuristic cấu trúc Trong GreedyComponent( ) có nghĩa chọn thành phần bổ sung vào theo quy tắc heuristic có Ký hiệu ^ kết phép toán thêm thành phần vào Với phƣơng pháp ta áp dụng cho toán TSP với đồ thị đầy đủ sử dụng quy tắc heuristic láng giềng gần để chọn đỉnh thêm vào (đỉnh láng 25 giềng nhỏ chƣa qua để thêm vào) Thuật tốn kiểu có ƣu điểm thời gian tính tốn nhanh nhƣng lại khơng có khả cải tiến lời giải qua bƣớc lặp 1.2.1.3.2Tìm kiếm địa phương Kỹ thuật tìm kiếm cục hay cịn gọi tìm kiếm địa phƣơng, thực cách phƣơng án chấp nhận đƣợc, lặp lại bƣớc cải tiến lời giải nhờ thay đổi cục Để thực kỹ thuật này, ta cần xác định đƣợc cấu trúc lân cận phƣơng án (lời giải) xét, tức phƣơng án chấp nhận đƣợc, gần với nhất, nhờ thay đổi số thành phần Cách thƣờng dùng lân cận -thay đổi, tức lân cận bao gồm phƣơng án chấp nhận đƣợc khác với phƣơng án xét nhờ thay đổi nhiều thành phần TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hồ Tú Bảo, Phạm Thọ Hoàn, School of Knowledge Science Japan Advanced Institute of Science and technology, Tin sinh học khái niệm toán Một vài kết nghiên cứu, 2005 [2] Đỗ Đức Đông (2012), Phƣơng pháp tối ƣu đàn kiến ứng dụng, Luận án tiến sĩ công nghệ thông tin ĐHCN – ĐHQGHN Tiếng Anh [3] [SH00] T Stăutzle and H.H Hoos MAX-MIN Ant System Journal of FutureGeneration Computer Systems, special issue on Ant Algorithms, 16:889–914, 2000 [4] Bailey TL, Williams N, Misleh C et al “MEME: discovering and analyzing DNA and protein sequence motifs” Nucleic Acids Res 2006; 34: 369-73 [5] Buhler J, Tompa M “Finding motifs using random projections” J Comput Biol 2002;9:225-42 26 [6] Cheng-Hong Yang, Member, IAENG, Yu-Tang Liu, and Li-Yeh Chuang (2011) “DNA Motif Discovery Based on Ant Colony Optimization and Expectation Maximization” Proceedings of the International MultiConference of Engineer, and Computer Scientists 2011 Vol I, IMECS 2011, March 16 – 18, 2011, Hong Kong E Alpaydın (2010), “Introduction to Machine Learning”, Massachusetts Institute of Technology, Second Edition H Dinh, S Rajasekaran, and J Davila qPMS7: “A Fast Algorithm for Finding [7] [8] (ℓ, d)-Motifs in DNA and Protein Sequences”, PloS one , Vol.7 No (2012): e41425 [9]J Liu, A Neuwald, and C Lawrence “Bayesian models for multiple local sequence alignment and Gibbs sampling strategies.” Journal of the American Statistical Association, 90(432):1156–1170, 1995 M Dorigo (1992), “Optimization, learning and natural algorithms”, PhD dissertation, Milan Polytechnique, Italy [10] [11]M Dorigo and L.M Gambardella (1997), “Ant colony system: A cooperative learning approach to the traveling salesman problem”, IEEE Trans on evolutionary computation, Vol (1), pp 53-66 [12] M Dorigo, and T.Stützle (2004), “Ant Colony Optimization,” The MIT Press, Cambridge, Masachusetts M Dorigo, V Maniezzo and A Colorni (1991), “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy [13] Neil C Jones, and Pavel A Pevzner “An introduction to bioinformatics algorithms” MIT press, 2004 [14] Pradhan, Medha, "Motif Discovery in Biological Sequences" (2008).Master's Projects [15] 27 Qiang Yu, Hongwei Huo, Yipu Zhang, Hongzhi Guo, and Haitao Guo "PairMotif+: a fast and effective algorithm for de novo motif discovery in DNA sequences." International journal of biological sciences 9, no (2013): 412 [16] Rajasekaran S “Computational techniques for motif search” Frontiers in Bioscience 2009;14:5052–5065 doi: 10.2741/3586 S Bouamama, A Boukerram, and A.F Al Badarneh: “Motif Finding Using [17] [18] Ant Colony Optimization”, ANTS‟10 Proc of the 7th int conf on Swarm intelligence(2010), LNCS vol.6234, 464-471 Xuan-Huan Hoang and T.A Tuyet Duong and T.T Ha Doan and T Hung Nguyen (2014) “An Efficient Ant Colony Algorithm for DNA Motif Finding” In: 2014: The 6th International Conference on Knowledge and Systems Engineering (KSE 2014), 9-11 October 2014, Hanoi, Vietnam [19] Yu Q, Huo H, Zhang Y, Guo H (2012) “PairMotif: A New PatternDriven Algorithm for Planted (l,d) DNA Motif Search.” PLoS ONE 7(10):e48442.doi:10.1371/journal.pone.0048442 [20] 28 ... Motif 1.1.3.3.3 Biểu tượng Biểu tƣợng cách dùng hình ảnh biểu diễn cho Motif 22 Hình 1.9: Biểu diễn Motif dạng sequence 1.2 Bài tốn tối ưu tổ hợp tốn tìm kiếm (ℓ,d) motif 1.2.1 Bài toán tối ưu. .. (ℓ,d) motif theo thuật toán xấp xỉ, việc đề xuất thuật toán tối ƣu đàn kiến Ant colony optimization (ACO) để giải toán (ℓ,d) motif Đây thuật toán lần đầu đƣợc đƣa vào để giải toán (ℓ,d) motif. .. giải toán (ℓ,d) motif Chƣơng 4: Đƣa kết thực nghiệm luận văn, so sánh kết thuật toán ACO với thuật toán PairMotif+ thuật toán MEME 11 12 Chương 1: TIN SINH HỌC VÀ BÀI TỐN TÌM KIẾM (l,d) MOTIF

Ngày đăng: 11/11/2020, 21:31

TỪ KHÓA LIÊN QUAN

w