Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
662,59 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Hoàng Dũng CÁC PHƯƠNGPHÁPSẮPHÀNGĐACHUỖINHANH KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: Tiến sĩ. Lê Sỹ Vinh HÀ NỘI - 2010 LỜI CẢM ƠN Đầu tiên, tôi xin gửi lời cảm ơn tới gia đình, nơi đã động viên và tạo mọi điều kiện giúp tôi học hành tốt nhất trong suốt những năm qua. Tôi xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tận tình giúp đỡ và truyền đạt kiến thức cho tôi trong suốt 4 năm học qua để tôi có đủ kiến thức hoàn thành khóa luận này. Đặc biệ t, tôi xin gửi lời cảm ơn sâu sắc tới thầy Lê Sỹ Vinh – người đã nhiệt tình giúp đỡ, định hướng cũng như động viên tôi trong quá trình nghiên cứu và hoàn thành khóa luận. Tôi xin gửi lời cảm ơn chân thành tới thầy Từ Minh Phương trường đại học Bưu Chính Viễn Thông, người đã truyền dạy cho tôi những kiến thức quan trọng liên quan trực tiếp đến đề tài của khóa luận. Tôi cũng xin c ảm ơn các bạn trong nhóm Tin sinh. Các bạn đã giúp đỡ tôi rất nhiều trong việc hoàn thành khóa luận. Mặc dù đã rất cố gắng hoàn thành khóa luận này, xong khóa luận sẽ khó tránh khỏi những thiếu sót, kính mong quý thầy cô tận tình chỉ bảo giúp tôi. Một lần nữa tôi xin cảm ơn tất cả mọi người. Hà Nội, tháng 5 năm 2010 Sinh viên Nguyễn Hoàng Dũng Tóm tắt Tin Sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành tin học, toán học ứng dụng, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học và hóa sinh để giải quyết các vấn đề sinh học. Sắphàngđachuỗi là một vấn đề quan trọng trong lĩnh vực tin sinh học. Trong những năm gần đây, chất lượng của các chương trình sắphàngđachuỗi đ ã được cải thiện rất nhiều bởi rất nhiều thuật toán mới. Mặc dù vậy, lĩnh vực vẫn là một nhiệm vụ khó khăn cho các nhà khoa học. Mỗi một thuật toán, một chương trình sắphàngđachuỗi đều có những ưu điểm và nhược điểm riêng của mình. Vì thế cần tìm cách tối ưu từng ưu điểm của từng phương pháp, và h ạn chế nhược điểm của chúng. Khóa luận sẽ trình bày về các phươngphápsắphàngđachuỗi được ứng dụng rộng rãi hiện nay đồng thời phân tích và đưa ra một giải pháp nhằm phát huy tối đa ưu điểm cũng như hạn chế tối thiểu nhược điểm của từng phương pháp. Mục Lục: Chương 1. Giới thiệu 1 1.1 Multiple alignment 1 1.2 Các chương trình sắphàngđachuỗi (multiple sequences alignment ) thông dụng hiện nay 3 Chương 2. Các phươngpháp bắt cặp đachuỗi 5 2.1 CLUSTALW 5 2.1.1 Tính toán ma trận khoảng cách giữa mọi cặp chuỗi 5 2.1.2 Tạo cây hướng dẫn (guide tree) 5 2.1.3 Progressive alignment 6 2.2. MUSCLE 7 2.2.1 Các loại khoảng cách và các cách xây dựng cây hướng dẫn 7 2.2.2 Profile alignment 8 2.2.3 Thuật toán 8 2.3 MAFFT 10 2.3.1 Bắt cặp nhóm sử dụng FFT 10 2.3.2 Hệ thống tính điểm 13 2.4 PROBCONS 15 Ch ương 3. Cây quyết định 17 3.1 Cách giải quyết của Chuong B. Do và Kazutaka Katoh 17 3.2 Vấn đề tốc độ 18 3.2.1 Dữ liệu với số lượng chuỗi lớn ( > 200 chuỗi) 18 3.2.2 Dữ liệu với số lượng sequence nhỏ, tổng số amino axit nhỏ 19 3.2.3 Dữ liệu với độ dài của chuỗi quá lớn ( > 2000 amino acids) 20 3.3 Vấn đề điểm chuẩn (benchmark) 21 3.3.1 Với các chuỗi có độ tương đồng cao 21 3.3.2 Với các chuỗi có độ tương đồng thấp 21 3.4 Cây quyết định 22 3.4.1 Cây quyết định cho yêu cầu tốc độ xử lý cao 23 3.4.2 Cây quyết định cho yêu cầu tốc điểm chuẩn cao 24 Chương 4: Kết quả thực nghiệm và bình luận 26 4.1 Giới thiệ u về BAliBASE 26 4.1.1 BAliBASE 2 26 4.1.2 BAliBASE 3 26 4.1.3 Cách đánh giá của BAliBASE 27 4.2 Kết quả thực nghiệm 28 Chương 5: Kết Luận 34 Tài Liệu Tham Khảo 35 Mục Lục Bảng: Bảng 1: Bắt cặp đachuỗi ADN của Người, Mèo, Khỉ, Chó, Ngựa, Gà và Vịt với các phép thay thế ở vị trí số 2, 3, 11, 13 và phép chén/xóa ở vị trí số 7 và số 10 2 Bảng 2: Các chương trình bắt cặp đachuỗi phổ biến nhất hiện nay 3 Bảng 3: Kiểm tra các MUSCLE, FFT-NS2, FFT-NS1 với các test có số lượng chuỗi từ 200 đến 500 chuỗi 18 Bảng 4: Kiểm tra FFT-NS2 với các dữ liệu có số lượng chuỗ i lớn hơn 400 19 Bảng 5: Thời gian chạy của PROBCONS theo tống số amino acid 20 Bảng 6: Tính toán SP(mi) 27 Bảng 7: Kết quả các phươngpháp với BAliBASE 2 29 Bảng 8: Kết quả các phươngpháp với BAliBASE 3 – homologous 30 Bảng 9: Kết quả các phươngpháp với BAliBASE 3 – ful llength 31 Mục Lục Hình: Hình 1: Ví dụ về k-mer [6] 7 Hình 2: Các bước thực hiện của MUSCLE [6] 9 Hình 3: Ví dụ về độ trễ [4] 12 Hình 4: Ví dụ về việc tạo ma trận tương đồng [4] 13 Hình 5: Ví dụ về global homology [4] 21 Hình 6: Ví dụ về local homology [4] 22 Hình 7: Ví dụ về các đoạn gap nội khối [4] 22 Hình 8: Cây quyết định với yêu cầu xử lý tốc độ cao 23 Hình 9: Cây quyết định với yêu cầu xử lý với điểm chu ẩn cao 24 1 Chương 1. Giới thiệu 1.1 Multiple alignment Trình bày tổng quan dưới đây được tham khảo từ luận văn tiến sỹ của thầy Lê Sỹ Vinh[1] và cuốn Inferring Phylogenies[2] của giáo sư Felsenstein. Với sự phát triển như vũ bão của khoa học kỹ thuật, trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước tiến mạnh mẽ. Kèm theo đó là sự ra đời của hàng loạt loại công cụ phục vụ cho sinh học, qua đó góp phần thúc đẩy m ạnh mẽ quá trình giải mã một số lượng lớn trình tự gen ở nhiều loài sinh vật. Cho đến nay, nhiều bộ gen của nhiều loài vi khuẩn và sinh vật bậc cao đã được giải mã gần như hoàn toàn. Trong đó, một khám phá đặc biệt là việc giải mã bộ gen người. Dự án Bản đồ gen người là một dự án nghiên cứu khoa học mang tầm quốc tế. Dự án khởi đầu vào năm 1990 vớ i người đứng đầu là tiến sĩ James D. Watson. Bản phác thảo đầu tiên của bộ gen đã được cho ra đời vào năm 2000 và hoàn thiện vào năm 2003. Một dự án song song cũng được thực hiện bởi một công ty tư nhân tên là Celera Genomics. Tuy nhiên, hầu hết trình tự chuỗi được xác định là tại các trường đại học và các viện nghiên cứu từ các nước Mỹ Cannada và Anh. Việc xác định toàn bộ bộ gen người là một bước tiế n quan trọng trong việc phát triển thuốc và các khía cạnh chăm sóc sức khỏe khác. Qua những phát kiến này, lượng thông tin sinh học ngày càng phong phú và đa dạng. Để có thể xử lý và ứng dụng khối lượng thông tin đồ sộ như vậy, ngành Tin Sinh học (Bioinformatics) ra đời, đó là sự kết hợp giữa công nghệ thông tin và sinh học nhằm phục vụ nhiều mục đích khác nhau. Trong số đó, việc nghiên cứu phân tích trình tự (chuỗi AND và protein) đóng một vai trò vô cùng quan trọng. Để đơn giản cho việc nghiên cứu, các trình tự DNA, protein được tuần tự hóa và nghiên cứu dưới dạng chuỗi các kí tự. Khi một gen mới được phát hiện, một trong những yêu cầu quan trọng là làm sao tìm được chức năng, tác dụng của gen này, yêu cầu tương tự cũng được đặt ra với các amino acid mới. Một phươngpháp đơn giản để xử lý yêu cầu này là so sánh, đánh giá sự giố ng nhau (tương đồng) của các chuỗi mới tìm ra với các chuỗiđã biết, từ đó ta có thể đưa ra dự đoán về các chức năng của những chuỗi mới phát hiện này. Do đó, sắphàngđachuỗi (multiple sequence alignment) các đoạn ADN / protein là một trong những bài toán phổ biến và quan trọng nhất trong sinh học phân tử và các lĩnh vực liên quan. Sắphàngđachuỗi giúp chúng ta giải quyết một số vấ n đề sau: - Tìm kiếm và chẩn đoán chức năng cho các chuỗi ADN / protein mới giải mã 2 - Tìm kiếm và chẩn đoán cấu trúc bậc cao cho chuỗi ADN / protein mới giải mã - Phân tích phép biến đổi để xây dựng quá trình tiến hóa giữa các loài sinh vật. - Xác định các vị trí biến đổi dẫn đến các bệnh liên quan đến di truyền, để từ đó tìm ra phươngpháp phát hiện và cứu chữa. Trong quá trình tiến hóa, có 3 phép biến đổi phổ biến trên một trình tự: (1) thay thế, (2) chèn, (3) xóa. Các phép biến đổi này làm cho các chuỗi t ương đồng bị biến đổi cả về nội dung cũng như kích thước. Sắphàngđachuỗi là quá trình chèn thêm các dấu cách (biểu diễn cho nhưng amino acid bị xóa khỏi chuỗi trong quá trình tiến hóa) vào các chuỗi sao cho tất cả các amino acid ở cùng một ví trí thì tương đồng. Sau khi sắp hàng, tất cả các chuỗi đều có độ dài bằng nhau. Kết quả, ta sẽ thu được một tập các chuỗi gọi là một ‘đa chuỗ i thẳng hàng’ ( sequences alignment ). Ví dụ dưới đây thể hiện một đachuỗi thẳng hàng của 7 đoạn ADN của 7 loài sinh vật là Người, Mèo, Khỉ, Chó, Ngựa, Gà và Vịt. Phân tích cho thấy ở vị trí thứ 2 tồn tại phép biến đổi giữa ‘C’ của nhóm động vật ( Người, Mèo, Khỉ, Chó ) và ‘G’ của nhóm động vật ( Ngựa, Gà, Vịt ). Tương tự như vậy ta thấ y tồn tại các phép biến đổi ở các vị trí 3, 4, 11 và 13. Ở vị trí 7 và số 10, ta quan sát thấy phép biến đổi chèn / xóa ‘G’ và ‘C’ tương ứng. Bảng 1: Bắt cặp đachuỗi ADN của Người, Mèo, Khỉ, Chó, Ngựa, Gà và Vịt với các phép thay thế ở vị trí số 2, 3, 11, 13 và phép chén / xóa ở vị trí số 7 và số 10. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Người A C A A C T G G T C C G T T Mèo A C G A C T G G T C C G T T Khỉ A C G G C T G G T C C G T T Chó A C G G C T G - T C C G G T Ngựa A G G A C T G G T - C G G T Gà A G T G C T - G T C G G G T Vịt A G T A C T - G T - G G G T Dễ dàng nhận thấy, chúng ta có thể sử dụng nhiều cách chèn dấu cách vào các vị trí khác nhau để tạo ra các phương án bắt cặp đachuỗi khác nhau. Trước đây, các nhà sinh vật học có thể tiến hành bắt cặp đachuỗi bằng mắt và kinh nghiệm. Không cần phải nói cũng có thể hiểu được đó là một công việc vô cùng vất vả và khô khan. Mà kết quả đạt được là rất hạn chế về ch ất lượng. Qua đó ta có thể thấy được tầm quan 3 trọng của sắphàngđa chuỗi. Để nâng cao độ chính xác, các phép biến đổi có thể được gắn các trọng số khác nhau sao cho các phép biến đổi ít khi xảy ra có trọng số lớn hơn các phép biến đổi thường xuyên xảy ra. Đối với dữ liệu protein, người ta thường sử dụng ma trận thay thế axit amin làm trọng số cho các phép thay thế giữa các cặp axit amin ( ma trận thay thế axit amin phản ánh tốc độ thay thế giữa các axit amin ). 1.2 Các chương trình sắphàngđachuỗi (multiple sequences alignment ) thông dụng hiện nay Bài toán sắphàngđachuỗi là một trong những bài toán được quan tâm và nghiên cứu nhiều nhất trong hai thập kỉ qua. Một trong các phươngpháp nổi bật và thông dụng trước đây là phươngpháp CLUSTALW[3] được phát triển bởi Thompson và đồng nghiệp từ những năm 1994. Phươngpháp CLUSTALW[3] tiến hành sắphàng các chuỗi sao cho tổng số điểm phạt (điểm phạt cho phép thay thế, điểm phạt cho phép chèn / xóa…) là nhỏ nhất. Để làm được vi ệc đó, CLUSTALW[3] từng bước tiến hành sắphàng hai chuỗi (hay hai nhóm chuỗiđã được sắp hàng) để cuối cùng thu được một đachuỗi thẳng hàng hoàn chỉnh. Tiếp theo CLUSTALW[3], nhiều phươngpháp khác đã được đề xuất. Những phươngpháp cho kết quả tốt nhất hiện nay là:MAFFT[4], PROBCONS[5], và MUSCLE[6]. Trong đó MAFFT[4] là phươngpháp mới được phát triển bao gồm khá nhiều chương trình con cho các yêu cầu khác nhau. Bảng 2: Các chương trình bắt cặp đachuỗi ph ổ biến nhất hiện nay. Chương trình Ưu điểm Nhược điểm CLUSTALW[3] Tiết kiệm bộ nhớ, có khả năng chạy các test có chuỗi có độ dài lớn. Kém hơn về độ chính xác và tốc độ so với một số chương trình mới MUSCLE[6] Đạt độ chính xác khá cao và tốc độ nhanh với kích thước dữ liệu vừa phải. Đối với những tập dữ liệu lớn (>1000 chuỗi), nên chạy với cấu hình tiết kiệm thời gian và bộ nhớ PROBCONS[5] Cho độ chính xác cao khi kiểm tra với một vài bộ dữ liệu chuẩn. Hạn chế về tốc độ và bộ nhớ, không có khả năng thực hiệ n với những bộ dữ liệu lớn (>100 [...]... các phươngpháp sắp hàngđachuỗi Hiện nay, hầu hết các phươngpháp sắp hàngđachuỗi đều hướng đến việc sử dụng thuật toán quy hoạch động với việc sử dụng độ phức tạp không gian là O(L2) (Ở đây, L 20 là độ dài trung bình của các chuỗi) Đối với các chuỗi đặc biệt dài (> 2000 amino acids) các phươngpháp có độ phức tạp không gian tuyến tính O(L) là sự lựa chọn tối ưu để giải quyết vấn đề này Với các phương. .. có chứa thành phần lặp, chúng ta phải sử dụng phươngpháp tiên tiến nhất cho phép bắt cặp đachuỗi kết hợp với tìm thành phần lặp Vì vậy khóa luận sẽ tập trung giải quyết vấn đề trên bằng cách xây dựng một chương trình sắphàngđachuỗi kết hợp các phươngpháp tốt nhất hiện nay thông qua việc sử dụng cây quyết định 4 Chương 2 Các phươngpháp bắt cặp đachuỗi 2.1 CLUSTALW CLUSTALW[3] là một chương trình... nhiều phươngphápsắphàngđa chuỗi, nhưng mỗi phươngpháp lại có một đặc điểm riêng kèm theo đó là những ưu khuyết điểm riêng Đôi khi một phươngpháp cho kết quả tốt với bộ dữ liệu này, lại không phù hợp với bộ dữ liệu khác Một phươngpháp cho kết quả rất cao nhưng tốc độ lại quá chậm, hoặc không thể xử lý những dữ liệu quá lớn Qua đó có thể thấy việc xây dựng cây quyết định để giải quyết vấn đề chọn phương. .. ngày một cao của lĩnh vực sinh học Hàng chục phươngphápsắphàngđachuỗi mới được đề xuất hàng năm Mỗi phươngpháp đưa ra đều có ưu điểm và nhược điểm về độ chính xác và thời gian thực hiện Quan trọng hơn chúng thường chỉ phù hợp cho một số kiểu dữ liệu, và dẫn đến khó khăn lớn cho người dùng trong việc lựa chọn phươngpháp phù hợp nhất cho một bộ dữ liệu cụ thể đang nghiên cứu Ví dụ, đối với các... việc kiểm tra mức độ tương tự, tôi đã sử dụng một chương trình sắphàngđachuỗi có tốc độ cao (cụ thể ở khóa luận này là FFT-NS-1) để tạo ra các chuỗisắphàng (có độ dài bằng nhau), sau đó kiểm tra mức độ tương tự với độ phức tạp tuyến tính (O(L) với L là độ dài của chuỗi sau khi sắp hàng) 3.3.2 Với các chuỗi có độ tương đồng thấp Với các chuỗi có mức độ tương tự thấp ( . hành sắp hàng hai chuỗi (hay hai nhóm chuỗi đã được sắp hàng) để cuối cùng thu được một đa chuỗi thẳng hàng hoàn chỉnh. Tiếp theo CLUSTALW[3], nhiều phương pháp khác đã được đề xuất. Những phương. các phương pháp nổi bật và thông dụng trước đây là phương pháp CLUSTALW[3] được phát triển bởi Thompson và đồng nghiệp từ những năm 1994. Phương pháp CLUSTALW[3] tiến hành sắp hàng các chuỗi. các phương pháp sắp hàng đa chuỗi được ứng dụng rộng rãi hiện nay đồng thời phân tích và đưa ra một giải pháp nhằm phát huy tối đa ưu điểm cũng như hạn chế tối thiểu nhược điểm của từng phương