Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
769,77 KB
Nội dung
TRƯỜNG …………………. KHOA………………………. [\[\ Báo cáo tốt nghiệp Đề tài: SẮP HÀNGĐACHUỖI Lời cảm ơn Tôi xin bày tỏ lòng biết ơn sâu sắc nhất tới Tiến sỹ Lê Sỹ Vinh. Thầy là người trực tiếp giao đề tài và tận tình hướng dẫn cũng như giúp đỡ tôi trong quá trình thực hiện luận văn này. Đồng thời tôi xin chân thành cảm ơn thầy Từ Minh Phương, hiện đang công tác tại SUlab công ty FPT. Thầy đã tạo điều kiện và đưa ra những lời khuyên bổ ích cho tôi trong thời gian cuối thực hiện khóa lu ận. Hà Nội tháng 05 năm 2010 Sinh viên Nguyễn Hà Anh Tuấn Tóm tắt nội dung Sắp hàngđachuỗi là một bài toán tin sinh học phổ biến trên thế giới hiện nay, mặc dù đã có rất nhiều phương pháp tiếp cận cũng như thuật toán được đưa ra để giải quyết bài toán này tuy nhiên chưa thuật toán nào cho kết quả tới khả năng tối ưu. Trong nội dung của khóa luận, tôi xin được khái quát tổng quan bài toán sắp hàngđachuỗi cũng như một số thuật toán tiêu biểu trên th ế giới hiện nay. Đồng thời tôi cũng xin đưa ra một số ý kiến của mình cũng như giải pháp nhằm tăng tính ổn định và tin cậy của các thuật toán này. Mục lục Chương 1: Giới thiệu chung 1 Chương 2: Các phương pháp phổ biến hiện nay 6 1.MUSCLE 6 2.MAFFT 8 3. ProbCons 10 Chương 3: EM-Coffee (Extended M-Coffee) 12 1.Đặt trọng số khi kết hợp các thuật toán 12 2.MUMSA 13 3.T-Coffee, M-Coffee 14 3.1. T-Coffee 14 3.2. M-Coffee 20 4.EM-Coffee 21 Chương 4: Kết quả thực nghiệm 23 1. Bộ dữ liệu BAliBASE 23 Chương 5: Kết luận 31 Tài liệu tham khảo 32 Page | 1 Chương 1: Giới thiệu chung Phần giới thiệu về sắp hàngđa chuỗi( multiple sequence alignment) dưới đây được viết một phần dựa trên luận văn tiến sĩ của thầy Lê Sỹ Vinh[31] và quyển sách Inferring Phylogenies của giáo sư Joseph Felsenstein[30]. Theo học thuyết tiến hóa của Darwin[1], tất cả các sinh vật trên trái đất đều có cùng một tổ tiên chung. Theo thời gian và quá trình tiến hóa của các sinh vật, các ADN của chúng dần đổi khác biệt với tổ tiên. Các ADN biến đổi t ừ cùng một nguồn gốc được gọi chung là các ADN tương đồng(homology). Và tổng quát hơn nữa, một chuỗi ADN tiến hóa từ cùng một tổ tiên là chuỗi tương đồng. Những sự biến đổi của các chuỗi ADN có thể nhiều hay ít, có thể xảy ra đồng thời hay phân tán tuy nhiên chúng vẫn giữ lại một số thông tin có trong chuỗi ADN của tổ tiên. Theo nhận định của các nhà khoa học, việc biến đổi ADN của các sinh vật đều thông qua 3 phép biến đổi sau: − Phép chèn, đưa thêm một ADN vào chuỗi. − Phép xóa, xóa đi 1 ADN trong chuỗi. − Phép thay thế, thay thế ADN này bằng một ADN khác. Trong khi các phép thay thế chỉ làm thay đổi những vị trí nhất định của một chuỗi ADN chứ không làm thay đổi độ dài của chuỗi ADN đó, một phép chèn hay một phép xóa lại làm cho số lượng ADN của chuỗi nhiều hơn một ADN hoặc ít đi mộ t ADN. Tuy nhiên, chúng ta không thể xác định được sự khác biệt giữa phép chèn và phép xóa nên 2 phép này được gộp lại thành một phép biến đổi và gọi tên chung cho chúng là phép chèn/xóa. Bảng 1 là ví dụ về các phép biến đổi giữa 2 chuỗi ADN s1 và s2. Trong ví dụ này ta có thể thấy tại vị trí thứ 2 và vị trí thứ 3 có thực hiện phép biến đổi thay thế ( C – A và A – G) đồng thời tại vị trí thứ 7 xác định được một phép chèn/xóa. Tại các vị trí còn lại ta có thể thấy s ự tương đồng giữa 2 chuỗi s1 và s2, chẳng hạn tại vị trí 1 cả 2 chuỗi s1 và s2 đều là A hay tại vị trí 4 là G. Page | 2 Bảng 1: Ví dụ về các phép biến đổi 1 2 3 4 5 6 7 8 9 s1 A C A G C T G G T s2 A A G G C T - G T Thông thường đặc điểm của sinh vật dựa vào cấu chúc chuỗi ADN của chúng, như vậy khi xuất hiện một phép biến đổi bên trong chuỗi ADN thì đặc điểm của sinh vật sẽ bị biến đổi. Sự thay đổi này có thể là những dấu hiệu bên ngoài giúp chúng ta có thể xác định điểm khác biệt hoặc chỉ là sự biến đổi bên trong sinh vật và cần tập trung nghiên cứu mớ i nhận ra sự biến đổi này. Khi sự biến đổi là quá lớn, rất có thể một loài sinh vật hoàn toàn mới sẽ xuất hiện. Chính vì vậy sự xuất hiện của các chương trình sắp hàngđachuỗi hay bắt cặp đachuỗi (multiple sequence alignment) là rất quan trọng trong lĩnh vực sinh học nói chung và sinh học phân tử nói riêng (molecular biology). Dựa vào kết quả của các chương trình này các nhà khoa học có thể đi tới những kết luậ n đối với các chuỗi ADN và axit amin tương ứng như sau: − Xác định và chẩn đoán được chức năng mà đoạn ADN/axit amin này thực hiện trong cơ thể sinh vật. − Xác định các vị trí biến đổi liên quan tới các bệnh di truyền để từ đó tìm kiếm phương pháp phát hiện và cứu chữa − Phân tích các phép biến đổi để xây dựng quá trình tiến hóa giữa các loài sinh vật. − Xác định và chẩ n đoán các cấu trúc bậc cao cho ADN/axit amin mới giải mã được. Các phép biến đổi thường làm cho chuỗi ADN(có thể là protein) tương đồng bị biến đổi cả về kích thước lẫn nội dung của nó. Khi đó ta có thể định nghĩa một cách đơn giản của việc sắp hàngđachuỗi là quá trình chèn thêm các dấu cách (biểu diễn một phép chèn/xóa trong quá trình tiến hóa) vào các chuỗi sao cho tất cả các ADN(axit Page | 3 amin) ở cùng một vị trí thì tương đồng với nhau. Tuy dữ liệu đầu vào của một chương trình sắp hàngđachuỗi thường là có độ dài các chuỗi khác nhau, nhưng kết quả của chúng luôn cho ra những chuỗi ADN(protein) có độ dài bằng nhau, kết quả này còn được gọi là “đa chuỗi thẳng hàng”. Chẳng hạn ta có 4 chuỗi cần được thực hiện sắp hàngđachuỗi như sau Bảng 2: Ví dụ của sắ p hàngđachuỗi s1 = GCTGATATAG C s2 = G G G T G A T T A G C s3 = G C T A T C G C Input s4 = AGCGGAACAC C s1’ = – G CTG A TATA G C s2’ = G G GTG A T– TA G C s3’ = – G CT– A T– –C G C Kết quả s4’ = A G CGG A – A C A C C Như chúng ta nhận thấy độ dài của các chuỗi s1, s2 và s4 là khác so với độ dài của chuỗi s3. Tuy nhiên kết quả thu được thì độ dài của cả 4 chuỗi là tương đương nhau. Ngoài ra chúng ta cũng có thể dễ dàng phát hiện được những phép biến đổi được thực hiện khi nhìn vào kết quả của chương trình sắp hàngđa chuỗi. Chẳng hạn có một phép chèn/xóa tại vị trí thứ nhất của s1’ và s3’ hay một phép thay thế C bởi G t ại s2’. Tương tự như vậy là các phép chèn xóa hay các phép thay thế còn lại. Một điều có thể nhận ra trong sắp hàngđachuỗi đó chính là tồn tại nhiều cách chèn dấu cách khác nhau và khi đó ta có thể tạo ra nhiều kết quả khác nhau. Việc tồn tại nhiều phép biến đổi khác nhau này có thể được cải thiện bằng cách sử dụng mắt thường và dựa trên kinh nghiệm để bắt cặp. Tuy nhiên, cách thức này chỉ có th ể áp dụng được với những chuỗi ADN ngắn vào số lượng chuỗi bắt cặp nhỏ. Đối với những Page | 4 trường hợp bắt cặp hàng trăm chuỗi và độ dài mỗi chuỗi lớn thì việc làm thủ công trên trờ nên không khả thi và mất tính hiệu quả ban đầu của nó. Để giải quyết bài toán này người ta đã đưa ra rất nhiều phương pháp tính toán và nghiên cứu nhằm mục đích tối ưu hóa bắt cặp đa chỗi. Các phương pháp này thường tiến hành sao cho nó tiến tới sấp xỉ một hàm mục tiêu cho trước. Hàm mụ c tiêu đơn giản nhất được đưa ra là cực tiểu hóa các phép biến đổi tồn tại giữa các cặp chuỗi sau khi sau khi đã bắt cặp xong. Tuy nhiên vẫn còn một vấn đề khá nan giải đó là việc rất khó để bắt cặp những chuỗi có sự liên hệ lẫn nhau thấp một cách chính xác mà không cần sự chỉnh sửa bằng tay dựa trên kinh nghiệm của các nhà khoa học. Đề giải quyết vấn đề này có rất nhiều phương án đã được đưa ra trong vòng 4 tới 5 thập kỉ qua. Năm 1970 Needleman và Wunsch[2] đã đưa ra một thuật toán để so sánh chuỗi ADN dựa trên quy hoạch động, thuật toán này giúp ta có khả năng bắt cặp 2 chuỗi ADN (pairwise alignment) và thu được một kết quả khá tốt. Mặc dù vậy việc mở rộng bài toán này lên thành sắp hàngđachuỗi (multiple sequence alignment) lại là một câu chuyện hoàn toàn khác bởi độ phức tạp của thuật toán là N k (trong đó k là số lượng chuỗi dùng để bắt cặp và N là độ dài của chuỗi). Sau đó một số phương pháp mới cũng được đưa ra, trong đó có phương pháp progessive[3] hay phương pháp chuẩn hóa lặp (iterative refinement)[4-5]. Các phương pháp này đều dựa trên các biến thể của quy hoạch động 2 chiều (two- dimentional dynamic programing) và giảm được độ phức tạp của bài toán xuống còn N 2 . Việc giảm được độ phức tạp của bài toán xuống còn N 2 là một thành tựu rất lớn nhưng độ chính xác của sắp hàngđachuỗi còn dựa trên chính hệ thống tính điểm của mỗi chương trình, hệ thống tính điểm càng chính xác thì độ chính xác của kết quả nó đưa ra càng cao. Nói tới hệ thống tính điểm này ta không thể không nhắc tới ClustalW, một phương pháp được phát triển bởi Thompson và các đồng nghiệp năm 1994[6]. ClustalW sử dụng cách tính toán hệ thống đi ểm phạt (điểm phạt cho các phép biến đổi) và hàm mục tiêu của ClustalW là làm nhỏ nhất có thể điểm phạt này. Đây chính là một trong những phương pháp đi tiên phong cho hệ thống điểm phạt ngày nay. Hiện tại, các phương pháp được phát triển nhằm mục đích giải quyết bài toán sắp hàngđachuỗi ngày càng xuất hiện nhiều hơn. Mỗi thuật toán đều có khả năng chính xác và tính tin cậy khác nhau. Nh ững phương pháp nổi bật nổi bật bởi độ chính xác của chúng có thể kể đến như: T-Coffee[7], MAFFT[8,14], PROBCONS[9], và MUSCLE[10]. Trong MAFFT nổi lên như một chương trình rất được ưa chuộng hiện Page | 5 nay nhờ vào tốc độ thực thi và độ tin cậy của thuật toán. Việc đánh giá độ tin cậy của một phương pháp hay thuật toán cần phải dựa trên một bộ dữ liệu chuẩn chứa đồng thời các chuỗi chưa được sắp hàng và dữ liệu chuẩn để đối sánh. Những bộ dữ liệu này thường là những bộ dữ liệu được trích chọn trong quá trình nghiên cứu củ a các nhà khoa học hoặc được các nhà khoa học sử dụng kinh nghiệm của mình để xác định. Kết luận: Mặc dù việc sắp hàngđachuỗiđã được nghiên cứu và phát triển từ rất lâu nhưng nó vẫn là một bài toán cần được nghiên cứu và tiếp tục phát triển để giải quyết được các nhu cầu hiện tại cũng như trong tương lai gần. Mỗi phương pháp sắp hàngđa chu ỗi đều có những ưu và nhược điểm riêng của nó và quan trọng hơn nữa là mỗi chỉ phù hợp với những kiểu dữ liệu nhất định. Chính vì vậy việc tập trung nghiên cứu nhằm mục đích cải thiện độ chính xác của các phương pháp này là điều rất cần thiết. Page | 6 Chương 2: Các phương pháp phổ biến hiện nay Sau đây, tôi xin trình bày tổng quan một số chương trình sắp hàngđachuỗi tiêu biểu hiện nay trên thế giới. Các chương trình này đều đã khẳng định được khả năng của mình và được áp dụng khá nhiều trong lĩnh vực sinh học nói chung và sinh học phân tử nói riêng. 1.MUSCLE MUSCLE là chương trình sắp hàngđachuỗi được phát triển bởi David Edgar năm 2004. Hiện tại MUSCLE đang được sử dụng khá rộng rãi bởi độ chính xác khá cao và tốc độ của chương trình có thể hỗ trợ người sử dụng với bộ dữ liệu lớn tới hàng ngàn chuỗi. Về mặt thuật toán, ta có thể chia thuật toán của MUSCLE ra làm ba bước chính đó là bước bắt cặp nháp, cải tiến, và bước chu ẩn hóa lại. Ngoài ra tác giả đưa ra hai hệ thống tính điểm khác nhau đó là khoảng cách K-mers[11] cho bộ chuỗi chưa được bắt cặp với nhau và ma trận KIMURA[12] cho các chuỗiđã bắt cặp rồi. Hình 1: khoảng cách K-mers[10] K-mer được định nghĩa là một chuỗi các amino axit đứng liền kề nhau có độ dài bằng K. Đối với những sequence có liên hệ với nhau thì số lượng K-mer sẽ nhiều hơn các cặp sequence bình thường. Khoảng cách K-mers được định nghĩa dựa trên định nghĩa của K-mer khi ta sử dụng nó trong chuỗi kí tự. Phương pháp sử dụng K-mer này không đòi hỏi các chuỗiđã được align hay chưa và thu được kết qu ả với tốc độ khá [...]... một đachuỗi thẳng hàng mới với hi vọng chúng đáng tin cậy hơn các đachuỗi thẳng hàng sinh ra từ mỗi thuật toán riêng lẻ EMCoffee cũng khá giống với TD-Coffee tuy nhiên khi đưa các đachuỗi thẳng hàng từ mỗi thuật toán riêng lẻ vào thành bộ thư viện chung thì khác với TD-Coffee, EMCoffee đặt thêm trọng số cho mỗi đachuỗi này dựa vào kết quả của MUMSA – một chương trình đánh giá độ tin cậy của các đa. .. được tính tin cậy của một đachuỗi thẳng hàng mà không cần đến bộ dữ liệu tham khảo Thuật toán của MUMSA dựa trên việc so sánh các đachuỗi thẳng hàng Họ đưa ra một khái niệm đó là cặp amino axit được bắt cặp tương ứng(pair-of-aligned residues) Chẳng hạn ta có một đachuỗi thẳng hàng, trong đó amino axit thứ 3 trong chuỗi 1 được bắt cặp tương ứng với amino axit thứ 5 trong chuỗi 7 thì 2 amino axit này... bắt cặp tương ứng Như vậy, từ đachuỗi thẳng hàng là input đầu vào của chương trình ta có thể tạo ra rất nhiều cặp trên Chú ý rằng chúng ta cần chia nhỏ đachuỗi đầu vào thành các phần nhỏ nhất có thể nhưng vẫn giữ đủ thông tin của đachuỗi đó để giảm thiểu số lượng các cặp amino axit được bắt cặp tương ứng Để so sánh độ tin cậy của một đa chỗi thẳng hàng trong nhiều đachuỗi khác, thuật toán của MUMSA... trong (m – 1) đachuỗi khác và ngược lại khi MOS(A) = 0 là khi không có cặp amino axit nào xuất hiện trong A lại xuất hiện trong các đachuỗi được so sánh với A Bằng những kết quả thực nghiệm của mình, các tác giả của MUMSA đã chỉ ra rằng những đachuỗi thẳng hàng có điểm MOS cao từ 0.8 trở lên là những đachuỗi đáng tin cậy và có thể sử dụng chúng cho những công việc khác Ngoài ra, những đachuỗi chỉ... kinh nghiệm để đánh giá do số lượng chuỗi và độ dài mỗi chuỗi trong sắp hàng đa chuỗi không phải là nhỏ 2.MUMSA Vào năm 2005, trên thế giới xuất hiện rất nhiều chương trình sắp hàng đa chuỗi, điều này làm cho người sử dụng không thể xác định chính xác nên chọn chương trình nào phù hợp cho bộ dữ liệu của mình Việc nhận định độ tin cậy của một chương trình sắp hàng đa chuỗi trở thành vấn đề cấp bách Trong... xác cao nhất trong các chương trình sắp hàng đa chuỗi đồng thời tốc độ chạy của T-Coffee là chấp nhận được T-Coffee có 2 tính năng chính Tính năng thứ nhất là nó sử dụng hệ thống dữ liệu thư viện được sinh ra từ bắt cặp sóng đôi các cặp chuỗi để tạo ra đachuỗi thẳng hàng cuối cùng Tính năng thứ 2 là tối ưu hóa, tính năng này có nhiệm vụ chọn đachuỗi thẳng hàng phù hợp nhất với bộ dữ liệu được đưa... lại không giống nhau Ở phần trước của bài khóa luận chúng ta có nhắc tới MUMSA, thuật toán xác định độ tin cậy của một đachuỗi thẳng hàng khi mang so sánh nó với các đachuỗi thẳng hàng khác Tuy nhiên, việc xác định độ tin cậy này chỉ mang tính chất tương đối, vì điểm MOS cũng chỉ được tính toán dựa trên chính những thông tin có trong đachuỗi thẳng hàng đó và không thể đối chiếu kết quả xem liệu... xuất hiện của chúng trong những đachuỗi thẳng hàng Xét một cặp α bất kì, ta gọi n(α) là số lần xuất hiện của α trong (m – 1) đachuỗi thẳng hàng còn lại đang được so sánh Một cặp xuất hiện trong tất cả mọi đachuỗi sẽ cho ta giá trị n(α) = (m – 1) điều này đồng nghĩa với xác suất cặp α xảy ra trên thực tế là lớn, Page | 13 và ngược lại một cặp không xuất hiện trong các chuỗi còn lại cho ta kết quả n(α)... bộ dữ liệu BAliBASE, nếu như kết quả của các chương trình sắp hàng đa chuỗi có điểm MOS nhỏ hơn 0.5 thì những đachuỗi mà thuật toán của nó không thể nhận biết được những đoạn tương đồng đã được bắt cặp một cách thủ công của bộ dữ liệu này Như vậy, mục đích chính của MUMSA là tính toán độ chính xác hay tính tin cậy của những đachuỗi thẳng hàng khi mang chúng so sánh với nhau Từ kết quả của MUMSA nếu... chuỗi còn lại cho ta kết quả n(α) = 0 hay xác suất cặp α xảy ra trên thực tế là rất nhỏ Như vậy với một đachuỗi A ban đầu, ta có thể dùng giá trị trên cho tất cả các cặp amino axit được bắt cặp tương ứng của nó để tính toán độ tin cậy của một đachuỗi thẳng hàng Độ tin cậy của một đachuỗi thẳng hàng được tính theo công thức: MOS(A) = ∑ {n(α ) | α ∈ A} A ( m − 1) (|A| số lượng cặp amino axit tương . những chuỗi ADN(protein) có độ dài bằng nhau, kết quả này còn được gọi là đa chuỗi thẳng hàng . Chẳng hạn ta có 4 chuỗi cần được thực hiện sắp hàng đa chuỗi như sau Bảng 2: Ví dụ của sắ p hàng. những đa chuỗi thẳng hàng. Xét một cặp α bất kì, ta gọi n(α) là số lần xuất hiện của α trong (m – 1) đa chuỗi thẳng hàng còn lại đang được so sánh. Một cặp xuất hiện trong tất cả mọi đa chuỗi. đánh giá do số lượng chuỗi và độ dài mỗi chuỗi trong sắp hàng đa chuỗi không phải là nhỏ. 2.MUMSA Vào năm 2005, trên thế giới xuất hiện rất nhiều chương trình sắp hàng đa chuỗi, điều này làm