1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Khóa luận tốt nghiệp Các phương sai sắp hàng đa chuỗi nhanh

43 133 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 759,12 KB

Nội dung

Header Page of 146 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Hoàng Dũng CÁC PHƯƠNG PHÁP SẮP HÀNG ĐA CHUỖI NHANH KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán hướng dẫn: Tiến sĩ Lê Sỹ Vinh HÀ NỘI - 2010 Footer Page of 146 Header Page of 146 LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn tới gia đình, nơi động viên tạo điều kiện giúp học hành tốt suốt năm qua Tôi xin chân thành cảm ơn thầy cô giáo trường Đại học Công nghệ Đại học Quốc gia Hà Nội tận tình giúp đỡ truyền đạt kiến thức cho suốt năm học qua để có đủ kiến thức hoàn thành khóa luận Đặc biệt, xin gửi lời cảm ơn sâu sắc tới thầy Lê Sỹ Vinh – người nhiệt tình giúp đỡ, định hướng động viên trình nghiên cứu hoàn thành khóa luận Tôi xin gửi lời cảm ơn chân thành tới thầy Từ Minh Phương trường đại học Bưu Chính Viễn Thông, người truyền dạy cho kiến thức quan trọng liên quan trực tiếp đến đề tài khóa luận Tôi xin cảm ơn bạn nhóm Tin sinh Các bạn giúp đỡ nhiều việc hoàn thành khóa luận Mặc dù cố gắng hoàn thành khóa luận này, xong khóa luận khó tránh khỏi thiếu sót, kính mong quý thầy cô tận tình bảo giúp Một lần xin cảm ơn tất người Hà Nội, tháng năm 2010 Sinh viên Nguyễn Hoàng Dũng Footer Page of 146 Header Page of 146 Tóm tắt Tin Sinh học (bioinformatics) lĩnh vực khoa học sử dụng công nghệ ngành tin học, toán học ứng dụng, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học hóa sinh để giải vấn đề sinh học Sắp hàng đa chuỗi vấn đề quan trọng lĩnh vực tin sinh học Trong năm gần đây, chất lượng chương trình hàng đa chuỗi cải thiện nhiều nhiều thuật toán Mặc dù vậy, lĩnh vực nhiệm vụ khó khăn cho nhà khoa học Mỗi thuật toán, chương trình hàng đa chuỗi có ưu điểm nhược điểm riêng Vì cần tìm cách tối ưu ưu điểm phương pháp, hạn chế nhược điểm chúng Khóa luận trình bày phương pháp hàng đa chuỗi ứng dụng rộng rãi đồng thời phân tích đưa giải pháp nhằm phát huy tối đa ưu điểm hạn chế tối thiểu nhược điểm phương pháp Footer Page of 146 Header Page of 146 Mục Lục: Chương Giới thiệu .1 1.1 Multiple alignment 1.2 Các chương trình hàng đa chuỗi (multiple sequences alignment ) thông dụng Chương Các phương pháp bắt cặp đa chuỗi 2.1 CLUSTALW 2.1.1 Tính toán ma trận khoảng cách cặp chuỗi 2.1.2 Tạo hướng dẫn (guide tree) .5 2.1.3 Progressive alignment 2.2 MUSCLE .7 2.2.1 Các loại khoảng cách cách xây dựng hướng dẫn 2.2.2 Profile alignment 2.2.3 Thuật toán 2.3 MAFFT 10 2.3.1 Bắt cặp nhóm sử dụng FFT 10 2.3.2 Hệ thống tính điểm .13 2.4 PROBCONS 15 Chương Cây định .17 3.1 Cách giải Chuong B Do Kazutaka Katoh 17 3.2 Vấn đề tốc độ 18 3.2.1 Dữ liệu với số lượng chuỗi lớn ( > 200 chuỗi) 18 3.2.2 Dữ liệu với số lượng sequence nhỏ, tổng số amino axit nhỏ 19 Footer Page of 146 Header Page of 146 3.2.3 Dữ liệu với độ dài chuỗi lớn ( > 2000 amino acids) 20 3.3 Vấn đề điểm chuẩn (benchmark) 21 3.3.1 Với chuỗi có độ tương đồng cao .21 3.3.2 Với chuỗi có độ tương đồng thấp 21 3.4 Cây định 22 3.4.1 Cây định cho yêu cầu tốc độ xử lý cao 23 3.4.2 Cây định cho yêu cầu tốc điểm chuẩn cao 24 Chương 4: Kết thực nghiệm bình luận .26 4.1 Giới thiệu BAliBASE 26 4.1.1 BAliBASE 26 4.1.2 BAliBASE 26 4.1.3 Cách đánh giá BAliBASE .27 4.2 Kết thực nghiệm 28 Chương 5: Kết Luận 34 Tài Liệu Tham Khảo 35 Footer Page of 146 Header Page of 146 Mục Lục Bảng: Bảng 1: Bắt cặp đa chuỗi ADN Người, Mèo, Khỉ, Chó, Ngựa, Gà Vịt với phép thay vị trí số 2, 3, 11, 13 phép chén/xóa vị trí số số 10 Bảng 2: Các chương trình bắt cặp đa chuỗi phổ biến Bảng 3: Kiểm tra MUSCLE, FFT-NS2, FFT-NS1 với test có số lượng chuỗi từ 200 đến 500 chuỗi .18 Bảng 4: Kiểm tra FFT-NS2 với liệu có số lượng chuỗi lớn 400 19 Bảng 5: Thời gian chạy PROBCONS theo tống số amino acid 20 Bảng 6: Tính toán SP(mi) 27 Bảng 7: Kết phương pháp với BAliBASE 29 Bảng 8: Kết phương pháp với BAliBASE – homologous 30 Bảng 9: Kết phương pháp với BAliBASE – ful llength 31 Footer Page of 146 Header Page of 146 Mục Lục Hình: Hình 1: Ví dụ k-mer [6] .7 Hình 2: Các bước thực MUSCLE [6] .9 Hình 3: Ví dụ độ trễ [4] 12 Hình 4: Ví dụ việc tạo ma trận tương đồng [4] 13 Hình 5: Ví dụ global homology [4] 21 Hình 6: Ví dụ local homology [4] .22 Hình 7: Ví dụ đoạn gap nội khối [4] 22 Hình 8: Cây định với yêu cầu xử lý tốc độ cao 23 Hình 9: Cây định với yêu cầu xử lý với điểm chuẩn cao .24 Footer Page of 146 Header Page of 146 Chương Giới thiệu 1.1 Multiple alignment Trình bày tổng quan tham khảo từ luận văn tiến sỹ thầy Lê Sỹ Vinh[1] Inferring Phylogenies[2] giáo sư Felsenstein Với phát triển vũ bão khoa học kỹ thuật, vài thập kỷ qua, sinh học phân tử có nhiều bước tiến mạnh mẽ Kèm theo đời hàng loạt loại công cụ phục vụ cho sinh học, qua góp phần thúc đẩy mạnh mẽ trình giải mã số lượng lớn trình tự gen nhiều loài sinh vật Cho đến nay, nhiều gen nhiều loài vi khuẩn sinh vật bậc cao giải mã gần hoàn toàn Trong đó, khám phá đặc biệt việc giải mã gen người Dự án Bản đồ gen người dự án nghiên cứu khoa học mang tầm quốc tế Dự án khởi đầu vào năm 1990 với người đứng đầu tiến sĩ James D Watson Bản phác thảo gen cho đời vào năm 2000 hoàn thiện vào năm 2003 Một dự án song song thực công ty tư nhân tên Celera Genomics Tuy nhiên, hầu hết trình tự chuỗi xác định trường đại học viện nghiên cứu từ nước Mỹ Cannada Anh Việc xác định toàn bộ gen người bước tiến quan trọng việc phát triển thuốc khía cạnh chăm sóc sức khỏe khác Qua phát kiến này, lượng thông tin sinh học ngày phong phú đa dạng Để xử lý ứng dụng khối lượng thông tin đồ sộ vậy, ngành Tin Sinh học (Bioinformatics) đời, kết hợp công nghệ thông tin sinh học nhằm phục vụ nhiều mục đích khác Trong số đó, việc nghiên cứu phân tích trình tự (chuỗi AND protein) đóng vai trò vô quan trọng Để đơn giản cho việc nghiên cứu, trình tự DNA, protein hóa nghiên cứu dạng chuỗi kí tự Khi gen phát hiện, yêu cầu quan trọng tìm chức năng, tác dụng gen này, yêu cầu tương tự đặt với amino acid Một phương pháp đơn giản để xử lý yêu cầu so sánh, đánh giá giống (tương đồng) chuỗi tìm với chuỗi biết, từ ta đưa dự đoán chức chuỗi phát Do đó, hàng đa chuỗi (multiple sequence alignment) đoạn ADN / protein toán phổ biến quan trọng sinh học phân tử lĩnh vực liên quan Sắp hàng đa chuỗi giúp giải số vấn đề sau: - Tìm kiếm chẩn đoán chức cho chuỗi ADN / protein giải mã Footer Page of 146 Header Page of 146 - Tìm kiếm chẩn đoán cấu trúc bậc cao cho chuỗi ADN / protein giải mã - Phân tích phép biến đổi để xây dựng trình tiến hóa loài sinh vật - Xác định vị trí biến đổi dẫn đến bệnh liên quan đến di truyền, để từ tìm phương pháp phát cứu chữa Trong trình tiến hóa, có phép biến đổi phổ biến trình tự: (1) thay thế, (2) chèn, (3) xóa Các phép biến đổi làm cho chuỗi tương đồng bị biến đổi nội dung kích thước Sắp hàng đa chuỗi trình chèn thêm dấu cách (biểu diễn cho amino acid bị xóa khỏi chuỗi trình tiến hóa) vào chuỗi cho tất amino acid ví trí tương đồng Sau hàng, tất chuỗi có độ dài Kết quả, ta thu tập chuỗi gọi ‘đa chuỗi thẳng hàng’ ( sequences alignment ) Ví dụ thể đa chuỗi thẳng hàng đoạn ADN loài sinh vật Người, Mèo, Khỉ, Chó, Ngựa, Gà Vịt Phân tích cho thấy vị trí thứ tồn phép biến đổi ‘C’ nhóm động vật ( Người, Mèo, Khỉ, Chó ) ‘G’ nhóm động vật ( Ngựa, Gà, Vịt ) Tương tự ta thấy tồn phép biến đổi vị trí 3, 4, 11 13 Ở vị trí số 10, ta quan sát thấy phép biến đổi chèn / xóa ‘G’ ‘C’ tương ứng Bảng 1: Bắt cặp đa chuỗi ADN Người, Mèo, Khỉ, Chó, Ngựa, Gà Vịt với phép thay vị trí số 2, 3, 11, 13 phép chén / xóa vị trí số số 10 10 11 12 13 14 Người A C A A C T G G T C C G T T Mèo A C G A C T G G T C C G T T Khỉ A C G G C T G G T C C G T T Chó A C G G C T G - C G G T Ngựa A G G A C T G G T - C G G T T C Gà A G T G C T - G T C G G G T Vịt A G T A C T - G T G G G T - Dễ dàng nhận thấy, sử dụng nhiều cách chèn dấu cách vào vị trí khác để tạo phương án bắt cặp đa chuỗi khác Trước đây, nhà sinh vật học tiến hành bắt cặp đa chuỗi mắt kinh nghiệm Không cần phải nói hiểu công việc vô vất vả khô khan Mà kết đạt hạn chế chất lượng Qua ta thấy tầm quan Footer Page of 146 Header Page 10 of 146 trọng hàng đa chuỗi Để nâng cao độ xác, phép biến đổi gắn trọng số khác cho phép biến đổi xảy có trọng số lớn phép biến đổi thường xuyên xảy Đối với liệu protein, người ta thường sử dụng ma trận thay axit amin làm trọng số cho phép thay cặp axit amin ( ma trận thay axit amin phản ánh tốc độ thay axit amin ) 1.2 Các chương trình hàng đa chuỗi (multiple sequences alignment ) thông dụng Bài toán hàng đa chuỗi toán quan tâm nghiên cứu nhiều hai thập kỉ qua Một phương pháp bật thông dụng trước phương pháp CLUSTALW[3] phát triển Thompson đồng nghiệp từ năm 1994 Phương pháp CLUSTALW[3] tiến hành hàng chuỗi cho tổng số điểm phạt (điểm phạt cho phép thay thế, điểm phạt cho phép chèn / xóa…) nhỏ Để làm việc đó, CLUSTALW[3] bước tiến hành hàng hai chuỗi (hay hai nhóm chuỗi hàng) để cuối thu đa chuỗi thẳng hàng hoàn chỉnh Tiếp theo CLUSTALW[3], nhiều phương pháp khác đề xuất Những phương pháp cho kết tốt là:MAFFT[4], PROBCONS[5], MUSCLE[6] Trong MAFFT[4] phương pháp phát triển bao gồm nhiều chương trình cho yêu cầu khác Bảng 2: Các chương trình bắt cặp đa chuỗi phổ biến Chương trình Ưu điểm Nhược điểm Tiết kiệm nhớ, có khả Kém độ xác tốc CLUSTALW[3] chạy test có chuỗi độ so với số chương trình có độ dài lớn MUSCLE[6] Đạt độ xác cao Đối với tập liệu lớn tốc độ nhanh với kích thước (>1000 chuỗi), nên chạy với cấu liệu vừa phải hình tiết kiệm thời gian nhớ Cho độ xác cao Hạn chế tốc độ nhớ, PROBCONS[5] kiểm tra với vài khả thực với liệu chuẩn liệu lớn (>100 Footer Page 10 of 146 Header Page 29 of 146 Ở đây, X phần align, o phần không align – gap Theo hình ta thấy, toàn chiều dài chuỗi phần align Đây trường hợp đơn giản phương pháp PROBCONS G-INS-i phương pháp cho kết tốt phương pháp xét Trường hợp 2: local homology – tương đồng (homology) bao quanh miền không tương đồng Hình 6: Ví dụ local homology [4] Hình tập chuỗi có chứa miền align xung quanh phần không tương đồng Khi đó, L-INS-i phương pháp tối ưu Trường hợp 3: Các đoạn gap nội khối dài - khoảng tương đồng (homology) ngắn chia tách đoạn gap nội khối Hình 7: Ví dụ đoạn gap nội khối [4] Trong trường hợp này, có nhiều vùng align, hầu hết chúng rời rạc tách đoạn gap dài Khi E-INS-i phương pháp cho kết tốt phương pháp kể Tuy nhiên, hầu hết hệ thống tính điểm chuẩn, PROBCONS L-INS-i hai phương pháp cho kết tốt 3.4 Cây định Có hai yêu cầu cần phải giải là: tốc độ benchmark, ta tạo hai định dựa lý thuyết trình bày Footer Page 29 of 146 22 Header Page 30 of 146 3.4.1 Cây định cho yêu cầu tốc độ xử lý cao Hình 8: Cây định với yêu cầu xử lý tốc độ cao Sequence Input sequence >= 2000 aa Có Không MAFFT-NS1 Có Số Sequences >= 4000 Không MAFFT-NS2 Có Số Sequences >= 400 Không MUSCLE Có Số Sequences >= 200 Không MAFFT-LINSI Có Tổng số aa >= 7000 Không MAFFT-LINSI Có Là DNA Không PROBCONS Footer Page 30 of 146 Số Sequences > 4000 Có 23 MAFFT-NS1 Không MAFFT-NS2 Header Page 31 of 146 3.4.2 Cây định cho yêu cầu tốc điểm chuẩn cao Hình 9: Cây định với yêu cầu xử lý với điểm chuẩn cao Sequence Input sequence > 2000 aa Có Không MAFFT-NS1 Có MAFFT-NS1 Số Sequences > 4000 Không MAFFT-NS2 Có Số Sequences > 400 Không MUSCLE Có Số Sequences > 200 Không MAFFT-LINSI Có Độ tương tự > 35% Không MAFFT-LINSI Có Tổng số aa > 9000 Không MAFFT-LINSI Có Là DNA Không PROBCONS Footer Page 31 of 146 Số Sequences > 4000 Có 24 Không MAFFT-NS2 Header Page 32 of 146 Trong phương pháp đề xuất đây, chưa xử lý việc tìm cách phát kiểu liệu đầu vào có độ tương đồng thấp Ở ta mặc định với chuỗi có độ tương tự nhỏ (

Ngày đăng: 18/05/2017, 21:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w