là tìm kiếm các thành phần lặp trong chuỗi genome

41 428 0
là tìm kiếm các thành phần lặp trong chuỗi genome

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lời cảm ơn Đầu tiên, tôi xin chân thành cảm ơn tiến sĩ Lê Sỹ Vinh hiện đang công tác tại khoa Khoa Học Máy Tính – Đại học Công Nghệ – Đại học Quốc Gia Hà Nội, người đã động viên và giúp đỡ tôi rất nhiều trong quá trình thực hiện luận văn này. Thầy cũng chính là người hướng dẫn trực tiếp và đưa ra những lời khuyên bổ ích cùng những ý tưởng sáng tạo trong quá trình thực hiện nghiên cứu giúp tôi có thể hoàn thành luận văn này một cách tốt nhất. Tiếp theo là lời cảm ơn của tôi gửi đến gia đình tôi. Ba và anh trai là những người đã luôn bên tôi trong suốt những năm học đại học và cũng luôn động viên, giúp đỡ tôi rất nhiều với những kinh nghiệm quý báu và là chỗ dựa vững chắc để tôi có thể hoàn thành luận văn này. Ngoài ra tôi cũng xin cảm ơn ba người bạn cùng nhóm nghiên cứu được thầy Vinh hướng dẫn trong năm nay đó là: Hà Tuấn Cường, Nguyễn Hoàng Dũng, và Nguyễn Hà Anh Tuấn. Các bạn đã giúp đỡ, và động viên tôi rất nhiều từ khi mới bắt đầu tới khi hoàn thành. Đồng thời cũng xin cảm ơn các bạn học cùng lớp, các anh chị học khóa trên vì những lời khuyên bổ ích. Hà Nội, 21 tháng 5 năm 2010 Sinh viên Nguyễn Hoàng Sơn Tóm tắt nội dung Cùng với sự phát triển với tốc độ chóng mặt của sinh học phân tử, chúng ta đã có thêm những hiểu biết không nhỏ về cấu trúc và thành phần các hệ gene của các loài sinh vật. Kết quả là dữ liệu di truyền học ngày càng được hoàn thiện và các nhà khoa học có thể truy cập vào một lượng khổng lồ thông tin trong các ngân hàng gene để tiến hành phân tích và tìm hiểu sâu thêm về bí ẩn hệ sinh vật. Do đó yêu cầu về những công cụ tin học có thể xử lý lượng thông tin dạng chuỗi với kích thước rất lớn trong thời gian hợp lý được đặt ra trong lĩnh vực tin sinh học. Một trong những bài toán lớn được đặt ra hiện nay đó là tìm kiếm các thành phần lặp (repeat finding) trong chuỗi genome, khi mà chúng đóng nhiều vai trò quan trọng với sự tiến hóa ở sinh vật nhân chuẩn và kỹ thuật đánh giấu đoạn lặp (repeat masking) được áp dụng trước tiên trong phân tích và sắp hàng hai hệ gene. Hiện nay có không ít các công cụ tìm kiếm đoạn lặp hiệu quả sử dụng các phương pháp khác nhau xuất hiện. Trong nội dung khóa luận này, tôi sẽ giới thiệu qua một số phương pháp và công cụ này, đồng thời dựa trên cơ sở cải tiến và kết hợp thuật toán MMR của REPuter và thuật toán phân cụm trong RepeatFinder để đưa ra một công cụ mới có tên RF-MMR. Kết quả của việc chạy chương trình RF-MMR và một số công cụ phổ biến khác trên tập dữ liệu tạo ra từ tập dữ liệu oryza sativa sẽ được đưa ra để so sánh và rút ra một cái nhìn tổng quát. Nhìn chung chương trình đề xuất chạy với thời gian được rút ngắn đáng kể với một độ chính xác hợp lý so với các công cụ khác. Nội dung chi tiết sẽ được đề cập đến ngay sau đây. Mục lục Lời cảm ơn 1 Tóm tắt nội dung 2 Mục lục 3 Chương 1: Giới thiệu chung 1 Chương 2: Các phương pháp hiện tại 5 Chương 3: Phương pháp đề xuất 12 Chương 4: Phương pháp thí nghiệm, kết quả thực nghiệm và đánh giá 24 Chương 5: Kết luận chung và xu hướng phát triển trong tương lai 35 Tài liệu tham khảo: 37 Chương 1: Giới thiệu chung Nội dung chương này sẽ đưa ra cái nhìn chung, các khái niệm sinh học cơ bản về genome (bộ gene), các thành phần lặp trong và vai trò của chúng trong nghiên cứu về chuỗi genome. 1.1 Khái niệm cơ bản. Genome (bộ gene hay hệ gene) là tập hợp chứa đựng toàn bộ các thông tin di truyền của một cơ thể sinh vật được mã hóa trong DNA (hoặc ở một số virus là RNA). Genome bao gồm những vùng chứa gene lẫn những đoạn không phiên mã. Hình 1: Genome trong mô hình máy phân tử (nguồn: Joanne Fox) Hiểu một cách đơn giản, đối với tế bào nhân chuẩn genome bao gồm tập các nhiễm sắc thể chứa trong nhân tế bào, được biểu diễn bằng các chuỗi DNA (gồm các thành phần A, C, G, T) với kích thước rất lớn , có thể lên đến hàng tỷ ký tự. Cùng với việc hệ gene ngày càng hoàn thiện nhờ tiến bộ sinh học phân tử, sự thách thức trong lĩnh vực nghiên cứu tin sinh cũng ngày càng tăng khi người ta nhận ra yêu cầu xử lý phân tích các chuỗi genome khổng lồ được đặt ra. Một trong những lĩnh vực cơ bản nhất và cũng không kém phần quan trọng đó là bài toán tìm kiếm các thành phần lặp trong chuỗi genome. Phần tiếp theo sẽ cho cái 1 nhìn chung về các thành phần lặp và vai trò của nó trong phân tích và khám phá đặc tính hệ gene sinh vật. 1.2. Thành phần lặp trong chuỗi genome. Từ những năm 60 của thế kỷ trước, các nhà khoa học đã khám phá ra trong các chuỗi genome trong tế bào nhân chuẩn không chỉ bao gồm các gene, mà còn gồm một số không nhỏ các chuỗi không phiên mã (tức là không đóng vai trò trong việc mã hóa protein). Hơn thế nữa, họ còn tìm thấy trong các chuỗi genome có chứa nhiều đoạn DNA lặp đi lặp lại, mà thực ra sau này được gọi là các thành phần lặp chiếm đa số trong thành phần DNA của hầu hết các tế bào nhân chuẩn (trong hệ gene người chiếm hơn 50%). Trong một chuỗi DNA có các loại đoạn lặp sau đây[15]: • Tandem repeat (lặp bộ): là họ các đoạn lặp thường là ngắn và xuất hiện liên tiếp nhau trong chuỗi genome. Loại này lại chia ra: satellite DNA, minisatellite, microsatellite. • Interspersed repetitive DNA (các thành phần lặp rời rạc): các thành phần lặp xuất hiện một cách rải rác trên chuỗi genome. Loại này lại được chia thành các họ lặp sau: SINEs (short interspersed nuclear element), LINEs (long interspersed nuclear element), Long Terminal Repeat (LTR) • Các thành phần lặp có thể đổi chỗ (có thể dịch chuyển vị trí trên chuỗi genome). Trong nội dung của khóa luận, ta chỉ quan tâm đến các công cụ tìm kiếm các thành phần lặp rời rạc, tức loại thứ hai. Các thành phần lặp đã và đang tiếp tục đóng vai trò cốt yếu trong sự tiến hóa về gene của loài. Hơn thế nữa, trong so sánh bắt cặp trình tự các chuỗi genome (một lĩnh vực nghiên cứu rất quan trọng trong tin sinh học), việc tìm kiếm và loại bỏ các đoạn lặp là bước cần được thực hiện đầu tiên. Các đoạn lặp không được nhận biết và đánh dấu trước khi thực hiện bắt cặp trình tự sẽ có thể ảnh hưởng sai lệch đến kết quả (do thực hiện tìm kiếm trong các đoạn lặp các đoạn giống nhau!). 2 Vì thế yêu cầu về một công cụ có khả năng tìm kiếm tự động các đoạn lặp trong một chuỗi genome kích thước lớn là tất yếu. Một chương trình như thế phải thỏa mãn các điều kiện cơ bản sau: • Tính hiệu quả: có thể phân tích một chuỗi genome có kích cỡ hàng triệu base pairs (bp), với thời gian tuyến tính theo độ dài chuỗi. • Tính linh hoạt: không chỉ có khả năng nhận biết các đoạn lặp giống hệt nhau, mà còn có khả năng nhận biết các đoạn lặp suy biến (cho phép sai khác nhỏ hơn một ngưỡng nào đó), các đoạn lặp ngược (reverse complemented repeat), • Tính bộ phận: bởi vì tìm kiếm đoạn lặp thường là một bước cơ sở trong việc phân tích cấu trúc hệ gene, chương trình cần có một giao diện đơn giản để có thể gọi lại và sử dụng như một mô đun trong một project khác lớn hơn. Trong phần còn lại của khóa luận, tôi chỉ xin giới thiệu một số phương pháp tìm kiếm đoạn lặp áp dụng được với các chuỗi genome có kích thước hàng triệu bp trở lên, với thời gian tìm kiếm hợp lý và cho kết quả tương đối tốt (phép đánh giá sẽ trình bày sau), đồng thời đưa ra một công cụ mà nền tảng là dựa trên các công cụ RepeatFinder và Reputer, đã qua một số cải tiến về phương pháp. Phương pháp tập trung vào việc đưa ra một kết quả hợp lý so với các phương pháp hiện tại, với yếu tố thời gian chạy được rút ngắn đáng kể. Kết quả được đưa ra dưới dạng text, công cụ đồ họa thể hiện kết quả đạt được có thể sử dụng mô đun repVis trong gói chương trình REPuter [8]. 1.3. Định dạng dữ liệu Trong nội dung của khóa luận, ta sẽ đề cập đến các công cụ thao tác các file genome trên hai định dạng: chuỗi genome hợp (assembled reads) và genome đa chuỗi (multiple sequence reads). Trong định dạng thứ nhất, file dữ liệu sẽ chứa một chuỗi liên tục DNA tương đối dài, ví dụ toàn bộ một nhiễm sắc thể hay một vùng nhiễm sắc thể liên hợp. Ở định dạng đa chuỗi, file dữ liệu sẽ chứa nhiều chuỗi DNA rời rạc nhau (mà mỗi chuỗi bắt đầu bằng ký tự '>' đối với định dạng fasta); định dạng này thường được sử dụng khi các vùng gene mã hóa được quan tâm, khi đó không phải toàn bộ 3 chuỗi genome được thể hiện (vì chuỗi genome bao gồm cả những đoạn không phiên mã!). Một ví dụ file genome hợp theo định dạng fasta: >a segment in human chromosome… GGGAAGTGACTGGGAGAAGGCCTTATAGCAGCTCCTTACAGCCTCTGATCTTCTT GTGTTCTGGGAGGATCACAAATTAACCAAAACTCAGATTAGCTGCAGTTCAAGCCT ACATGGATATATGCAAGGGTGCCAGGCCATCATGGAGGAGCCCCTACAACTCCA CTCTCCTTTCATATATCCACCTAAGGATTCTTTTTACAAACATAAGCCACCTGTTGT GGCCACTCTAAAGATACAGAATGGACCCCATGCAAAATTTGGTTTAGATATCAAGA GCGATAATGCTGTATATACATCAACAGGGCAAAGGTTTATTACTCGCATAATGAGG CTCTTTTGGGAGAGCAAGGCAGGCTTCCAAAGCTGATCTGAAAATGTCTTGAGAG CTAGGAAAGGAGACTAGCTTACAGTTTTTATGGTGGTTAGGGGTGCTGGGGTGAG GGTTCCAATGTGCAGCTGACTTGCATGGTTTGAAACTCCTTTCAACAACAAAGGAG AGAGCACCCAGGAAT Ví dụ cho 1 file đa chuỗi (multi-fasta): >the first interested segment in oryza sativa chromosome 10… TAAGGAGAACTGAGGTGAGGCTTAGATGCTGTCAGCAAACATCCAAAAAAAAAAA AAAGACAGCTTCCTTATTAACTCCTGATGTTCGAGAAATAAAATGTACTACGTTTTT GTAGTTGAATTCAAACAGAT > the second interested segment in oryza sativa chromosome 10… CTATGAGGTCTGTAGCCTGATACCTGTAAGAAAGATGAAAGTTCCATCAACTGTCT CATTCTAGAGCTCAGCATTGT > the third interested segment in oryza sativa chromosome 10… TTCTGGGAAGTGAAATGAATGTCTTGGTGGCAATAAATGGCATCTGGAACTCTAAC GGCAGTAACGAGTGTCTTAATGGCCTTGTATTATAGTTTTATTATATGTAAAGGCAT GTATGGTATTGACTTATATTTT … 4 Chương 2: Các phương pháp hiện tại Nội dung chương này sẽ giới thiệu các phương pháp tiếp cận và một số công cụ phổ biến được dùng trong tìm kiếm và nhận dạng đoạn lặp trong chuỗi genome hiện nay. Những trình bày dưới đây được tổng hợp và tóm tắt qua quá trình tham khảo [12]. Do nhu cầu cấp thiết về một công cụ tìm kiếm đoạn lặp nên một số không nhỏ các chương trình đã được phát triển, ví dụ: RepeatMasker, REPuter, RepeatFinder, REPO, …Mỗi một chương trình có các hướng tiếp cận khác nhau, mang lại hiệu quả khác nhau và áp dụng cho các chuỗi genome tương ứng cũng mang lại các kết quả khác nhau. Nhìn chung, có 2 hướng tiếp cận chính để giải quyết vấn đề tìm kiếm đoạn lặp, đó là kỹ thuật tìm kiếm dựa vào thư viện, và kỹ thuật tìm kiếm đoạn lặp ngay từ đầu (ab initio). 2.1. Phương pháp tìm kiếm đoạn lặp dựa vào thư viện. Theo cách tiếp cận này, đoạn lặp được định nghĩa là một chuỗi con mà xuất hiện rất thường xuyên trong một chuỗi genome. Các hệ thống dựa vào thư viện sẽ nhận diện chuỗi các thành phần lặp bằng cách so sánh tập dữ liệu đầu vào với một tập tham khảo các chuỗi lặp, hay được gọi là một thư viện. Những chuỗi con này có ảnh hưởng xấu đến các chương trình phân tích chuỗi và cần được ốp mặt nạ(tức là đánh dấu lại) để tránh các kết quả không mong muốn. Chương trình RepeatMasker sử dụng một từ điển các dãy lặp đã được xây dựng trong một thư viện có sẵn để thực hiện tìm kiếm chính xác hoặc gần đúng trên chuỗi cần ốp mặt nạ với các entry của từ điển đấy (máy tìm kiếm có thể là crossmatch hoặc BLASTX). Mức độ tương đồng cần thiết giữa chuỗi truy vấn với các chuỗi tham khảo được chọn bởi người dùng. Do việc nhận dạng các đoạn lặp bởi RepeatMasker dựa hoàn toàn vào sự tương tự giữa các chuỗi lặp trong thư viện và các chuỗi truy vấn nên bất cứ vùng nào trong chuỗi truy vấn với độ tương đồng thích hợp với một chuỗi tham khảo trong thư viện lặp sẽ được đánh dấu là một thành phần lặp cho dù nó xuất hiện nhiều lần trong chuỗi genome hay không. Cả thông tin về chuỗi cho các vùng lặp và các kết quả chú thích đưa ra bởi RepeatMasker đều được định dạng một cách đơn giản và thân thiện với người sử dụng. RepeatMasker là một công cụ rất phổ biến hiện nay, thư viện REPbase (một thư viện lặp chứa lượng lớn dữ liệu của động vật nhân chuẩn) cũng ngày được hoàn thiện, tăng tính chính xác 5 và hiệu quả trong tìm kiếm đoạn lặp. Tuy nhiên, kỹ thuật tìm kiếm phụ thuộc thư viện có hạn chế là không tìm được các đoạn repeat thực sự có trong chuỗi genome nhưng chưa được biết đến trong thư viện. Thực tế trong xử lý chuỗi genome, chương trình RepeatMasker được gọi trước hết như một công cụ tiền xử lý để loại bỏ các đoạn lặp một cách cơ bản, các xử lý tinh vi hơn có thể gọi phía sau nếu cần thiết. 2.2. Phương pháp tìm kiếm đoạn lặp ngay từ đầu (ab initio repeat) Nhằm khắc phục nhược điểm của phương pháp phụ thuộc thư viện và cũng nhằm hoàn thiện bộ thư viện cho kỹ thuật trên, phương pháp tìm kiếm đoạn lặp ngay từ đầu sử dụng các thuật toán string matching để tìm kiếm đoạn lặp mà không cần biết trước các đoạn lặp có sẵn. Một ví dụ của phương pháp này là chương trình REPuter, sử dụng cấu trúc suffix tree để tìm kiếm các hạt giống (seed) tức là các từ lặp lại chính xác trong chuỗi, và sau đó mở rộng để thu được các cặp repeat suy biến (có độ sai khác không vượt quá một ngưỡng cho trước) trong chuỗi genome. Ngoài ra một số công cụ khác như RepeatScout, RepeatFinder, PILER cũng sử dụng kỹ thuật tìm kiếm ngay từ đầu, kết quả trả về là họ các đoạn repeat (repeat family), có thể sử dụng để hoàn thiện dần các thư viện cho phương pháp đầu tiên. Nội dung khóa luận sẽ tập trung nghiên cứu các công cụ này, đồng thời từ đó so sánh tìm ra một hướng mới cho tìm kiếm đoạn lặp. Chúng ta xem xét quá trình tìm kiếm các đoạn lặp thành theo 2 giai đoạn. Giai đoạn thứ nhất có nhiệm vụ thực hiện những tìm kiếm đầu tiên của các đoạn lặp. Giai đoạn thứ hai, xác định ra họ các thành phần lặp, được tập trung vào việc nhận biết các biên của các thành phần lặp và từ đó rút ra đoạn tổng hợp cho mỗi họ (tức là đoạn DNA “phân tử giả” tổng hợp lại và đại diện cho tất cả các thành phần trong một họ, trong đó mỗi một nucleotide trong chuỗi tổng hợp được đặc trưng bởi base có khả năng xuất hiện cao nhất ở vị trí ấy, so sánh giữa tất cả các đoạn lặp trong họ với nhau) . Dưới đây chúng ta sẽ xem xét các thuật toán và công cụ thực hiện tìm kiếm đoạn lặp với cái khung là hai giai đoạn đã được nói tới ở trên. 2.2.1. Giai đoạn một: Nhận dạng bước đầu các đoạn lặp Để khám phá ra các họ thành phần lặp trong phương pháp tìm kiếm ngay từ đầu, tất cả đều phải bắt đầu với việc nhận dạng các đoạn tương đối ngắn có xuất hiện một 6 số lần (lớn hơn hay bằng 2) trong chuỗi hay tập chuỗi truy vấn. Có năm nhóm cách tiếp cận cơ bản (nhưng chưa phải tất cả) trong việc nhận dạng ban đầu và phân cụm các đoạn lặp. Tự so sánh: so sánh chuỗi DNA với chính nó để từ đó phân cụm được thành các đoạn tương tự nhau. RECON, một trong số các công cụ được dùng rộng rãi hiện nay, cũng là dựa vào việc tìm kiếm bởi BLAST. RECON bắt đầu với việc phân tích BLAST tất cả các đoạn với nhau (RECON có khả năng làm việc với định dạng multi-fasta, tức nhiều chuỗi genome trong cùng một file) sử dụng công cụ WU-BLASTN. PILER sử dụng thủ tục bắt cặp cục bộ hai chuỗi PALS để nhận dạng các thành phần lặp trong các vùng genome hợp (chuỗi genome duy nhất, liên tiếp, không bị chia nhỏ). Để tăng tính hiệu quả, chỉ có tọa độ vị trí của những “hit” (những vùng được bắt cặp) là được ghi lại. PALS sử dụng tìm kiếm theo dải, tức là bắt cặp cục bộ các chuỗi có vị trí nằm trong một vùng nào đó của chuỗi còn lại. K-mer: liệt kê rõ ràng các chuỗi con xuất hiện một cách thường xuyên (gọi là các k-mer hay “từ”) trong chuỗi truy vấn. Cách tiếp cận này (gọi là k-mer hay đếm từ) coi một đoạn lặp là một chuỗi con w có độ dài k xuất hiện nhiều hơn một lần trong một chuỗi S có độ dài n. Một chuỗi con lặp đi lặp lại w không thể mở rộng thêm nữa mà không được xảy ra sai khác gọi là một lặp lớn nhất (maximal repeat). Bởi vì có tất cả 4 k từ với độ dài k, các cách tiếp cận theo hướng này thường yêu cầu k nhỏ nhất phải là log 4 (n), trong đó n là độ dài của chuỗi genome hay của cả tập hợp các chuỗi mà ta quan tâm. Ví dụ các công cụ dựa k-mer như ReAS, RepeatScout đều khuyến cáo một giá trị k lớn hơn log 4 (n). Giá trị k được yêu cầu trong genome hợp của cây là khoảng từ 12 đến 19, dựa trên đánh giá về kích thước của chúng. Tăng giá trị của k sẽ giảm độ nhạy (sensivity) của thủ tục tìm kiếm đoạn lặp, trong khi giảm kích thước của seed sẽ tăng độ phức tạp trong tính toán của thuật toán và xác suất xảy ra nghiệm ngẫu nhiên. REPuter[7] là một trong số những công cụ đầu tiên áp dụng một thuật toán tìm kiếm k-mer để tìm các đoạn lặp. Thành phần máy tìm kiếm của nó, REPfind, sử dụng một cấu trúc dữ liệu cây hậu tố hiệu quả phát triển bởi Weiner [17] để lưu trữ tất cả 7 [...]... số các đoạn lặp rời Độ phức tạp về thời gian cho thuật toán này là O(n2) 2.2.2 Giai đoạn hai: Định nghĩa họ các thành phần lặp Các phương pháp mô tả ở các phần trên được sử dụng để sinh ra các tập các thành phần tương tự nhau, trong khi các phần tiếp theo sẽ thảo luận về các kỹ thuật được sử dụng để mở rộng và kết nối các thành phần lại thành các họ lặp khi có thể, và sau đó rút ra các mô tả về chuỗi. .. của chuỗi với chính nó Các cực đại có cường độ cao trong phổ công suất của chuỗi thể hiện những khả năng xuất hiện các thành phần lặp Các khả năng này sau đó được dùng như seed trong một tìm kiếm gióng hàng cục bộ để tìm ra các thành phần tương tự và quyết định chuỗi tổng hợp của họ lặp Do độ mạnh của tín hiệu bị giảm đối với các đoạn lặp rời rạc, phương pháp này chỉ thích hợp nhất đối với các đoạn lặp. .. kỹ thuật mở rộng xâu là bước thứ hai trong quá trình tìm họ lặp REPuter là một trong các cộng cụ tìm kiếm đoạn lặp đầu tiên sử dụng phương pháp này[7] Tác giả thực hiện một cách tiếp cận thuần toán học, không heuristic để tìm các đoạn lặp Đầu ra của REPfind, mô đun tìm kiếm của REPuter, được xử lý sâu hơn để tìm ra các đoạn lặp suy biến, trong mô hình khoảng cách Hamming (còn gọi là mismatch distance)... tạo các tham chiếu đến các lặp ban đầu, cuối cùng hình thành nên bản đồ lặp được thể hiện ở phần bên phải của hình trên Các tham chiếu này định ra phép tương ứng giữa tất cả các lặp gộp Mỗi lặp gộp đều duy trì các tham chiếu đến các lặp gộp khác cùng chia sẻ với nó các đoạn lặp trong danh sách các lặp ban đầu; mỗi lặp ban đầu sẽ được gán vào lặp gộp đầu tiên mà nó xuất hiện Trong ví dụ của chúng ta, lặp. .. họ lặp chứa k-mer đấy RepeatScout xử lý mỗi thành phần lặp sử dụng RepeatMasker để tìm tất cả các thành phần tương tự cho họ lặp và điều chính lại các tần số của các k-mer khác trong trường hợp bị chồng nhau Tập hợp các chuỗi tổng hợp cuối cùng tìm ra bởi RepeatScout có thể lại được so sánh với các file chứa tọa độ chú thích vùng gene cho các cơ thể sinh vật để lọc ra các họ lặp được đặt trong các. .. trước Nói cách khác, đây là một mở rộng của cách tiếp cận k-mer Thay vì phải tìm kiếm các nghiệm lặp một cách chính xác có độ dài k, thuật toán seed có cách quãng đúng như tên gọi, thực hiện tìm kiếm sử dụng các seed có chứa một mức độ biến thiên trong tính đồng nhất hay về độ dài Ma trận điểm: xây dựng biểu đồ điểm giữa chuỗi đầu vào với chính nó Đây là một trong số các kỹ thuật tìm kiếm đoạn lặp xuất... được sử dụng sau đó để sinh ra chuỗi tổng hợp cho mỗi họ lặp tìm ra được trong bước phân loại Những chuỗi tổng hợp này sau đó được sử dụng để tạo ra các thư viện cho RepeatMasker hoặc BLAST để thực hiện tìm kiếm các thành phần lặp hoàn toàn hay bộ phận trong chuỗi genome[ 3] Mở rộng xâu: đối với thuật toán được nói đến trong phần này, phân cụm các kmer có tần số xuất hiện cao là bước đầu tiên, sau đó triển... chính là đặc điểm của các lớp con của các chuỗi lặp đã biết PILER hoạt động với tiền đề toàn bộ chuỗi DNA được hợp lại với một số lỗi nhỏ hợp lý vì thuật toán hoàn toàn phụ thuộc vào vị trí các đoạn lặp trong chuỗi genome cho tất cả sự phân lớp Output của bước phân cụm được ghi lại theo tọa độ bắt đầu và kết thúc Các thành phần tương tự sau đó sẽ được phân cụm thành các “đống” Các đống này thực ra là các. .. đoạn lặp đúng nhưng không được công cụ đang xét tìm ra - TN (true negative-phủ định đúng) là những đoạn đã được biết trước là không phải thành phần lặp và cũng không bị đưa ra trong kết quả tìm kiếm của công cụ - Ngược lại FP (false positive-khẳng định sai) là những đoạn biết trước không phải đoạn lặp nhưng lại được xem là đoạn lặp trong kết quả của công cụ tìm kiếm đang xét - Độ nhạy là tỷ lệ phần. .. một cách cẩn thận Tiếp theo ta sẽ nêu cụ thể các bước tính sensivity của các công cụ tìm kiếm: Bước 1: RepeatMasker được sử dụng để tiến hành phân tích chuỗi dữ liệu test Với mỗi bộ chuỗi dữ liệu, tổng số bp trong kết quả trả về (tức là tổng số bp trong chuỗi genome mà RepeatMasker nhận ra là thuộc về một thành phần lặp nào đó) được ghi lại và đây là chính là đánh giá của chúng ta về tổng TP+FN cho chuỗi . cũng không kém phần quan trọng đó là bài toán tìm kiếm các thành phần lặp trong chuỗi genome. Phần tiếp theo sẽ cho cái 1 nhìn chung về các thành phần lặp và vai trò của nó trong phân tích. Định nghĩa họ các thành phần lặp Các phương pháp mô tả ở các phần trên được sử dụng để sinh ra các tập các thành phần tương tự nhau, trong khi các phần tiếp theo sẽ thảo luận về các kỹ thuật. microsatellite. • Interspersed repetitive DNA (các thành phần lặp rời rạc): các thành phần lặp xuất hiện một cách rải rác trên chuỗi genome. Loại này lại được chia thành các họ lặp sau: SINEs (short interspersed

Ngày đăng: 13/07/2014, 17:11

Từ khóa liên quan

Mục lục

  • Lời cảm ơn

  • Tóm tắt nội dung

  • Mục lục

  • Chương 1: Giới thiệu chung

    • 1.1 Khái niệm cơ bản.

    • 1.2. Thành phần lặp trong chuỗi genome.

    • 1.3. Định dạng dữ liệu

    • Chương 2: Các phương pháp hiện tại

      • 2.1. Phương pháp tìm kiếm đoạn lặp dựa vào thư viện.

      • 2.2. Phương pháp tìm kiếm đoạn lặp ngay từ đầu (ab initio repeat)

        • 2.2.1. Giai đoạn một: Nhận dạng bước đầu các đoạn lặp

        • 2.2.2. Giai đoạn hai: Định nghĩa họ các thành phần lặp

        • Chương 3: Phương pháp đề xuất

          • 3.1. Thuật toán tìm kiếm đoạn lặp trong REPuter

            • 3.1.1. Tìm kiếm các lặp chính xác

            • 3.1.2. Thuật toán MMR (Maximal mismatches repeat)

            • 3.1.3. Thuật toán MDR (Maximal diffrences repeat)

            • 3.2. Thuật toán phân cụm và tìm họ lặp của RepeatFinder

              • 3.2.1. Tiền xử lý

              • 3.2.2. Gộp (merging) và sinh bản đồ lặp.

              • 3.2.3. Phân nhóm tìm họ lặp.

              • Chương 4: Phương pháp thí nghiệm, kết quả thực nghiệm và đánh giá

                • 4.1. Các dữ kiện và phương pháp đánh giá.

                  • 4.1.1. Bộ dữ liệu test

                  • 4.1.2. Hệ thống chạy chương trình và các tham số

                  • 4.1.3. Các chỉ tiêu đánh giá

                  • 4.2. Kết quả

                  • Chương 5: Kết luận chung và xu hướng phát triển trong tương lai

Tài liệu cùng người dùng

Tài liệu liên quan