1. Trang chủ
  2. » Luận Văn - Báo Cáo

Các kỹ thuật toán học cho bài toán so sánh đa trình tự

100 27 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • LỜI CAM ĐOAN

  • LỜI CẢM ƠN

  • TÓM TẮT LUẬN VĂN

  • DANH MỤC HÌNH

  • DANH MỤC BẢNG

  • Chương 1. GIỚI THIỆU

    • 1.1. Giới thiệu

    • 1.2. Kết cấu của luận văn

  • Chương 2. TỔNG QUAN VỀ KHÁI NIỆM SO SÁNH TRÌNH TỰ (SEQUENCE ALIGNMENT)

    • 2.1. So sánh trình tự

    • 2.2. Các khái niệm khác

    • 2.3. Các phương pháp giải quyết bài toán so sánh trình tự

  • Chương 3. CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP THỰC HIỆN

    • 3.1. Giới thiệu về Dynamic Programming

    • 3.2. Bài toán PSA và cách giải quyết bằng kỹ thuật quy hoạch động

    • 3.3. Giải thuật tính toán phép Alignment tối ưu cho bài toán Multiple Alignment sử dụng kỹ thuật dynamic programming

  • Chương 4. THIẾT KẾ GIẢI THUẬT VÀ HIỆN THỰC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN MSA

    • 4.1. Giải thuật sử dụng cho bài toán PSA

    • 4.2. Giải thuật hiện thực cho bài toán MSA

    • 4.3. Giải thuật di truyền và bài toán TSP.

    • 4.4. Phần hiện thực giải thuật và chương trình:

  • Chương 5. KẾT QUẢ NHẬN XÉT

    • 5.1. Một số kết quả chạy chương trình.

    • 5.2. BAliBASE (Benchmark Alignment Database)

    • 5.3. So sánh kết quả

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

  • Phụ lục 1. Bảng đối chiếu Thuật ngữ Anh - Việt

  • Phụ lục 2. Từ viết tắt

  • Tham khảo Chỉ mục

Nội dung

Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa PHẠM MẠNH HÙNG CÁC KỸ THUẬT TỐN HỌC CHO BÀI TỐN SO SÁNH ĐA TRÌNH TỰ Chuyên ngành: Khoa học Máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 11 năm 2007 ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ Xà HỘI CHỦ NGHIà VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc oOo Tp HCM, ngày 05 tháng 11 năm 2007 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Phạm Mạnh Hùng Giới tính : Nam ;/ Nữ … Ngày, tháng, năm sinh : 26/2/1982 Nơi sinh : Phú Yên Chuyên ngành : Khoa học Máy tính Khoá : 2005 1- TÊN ĐỀ TÀI : CÁC KỸ THUẬT TOÁN HỌC CHO BÀI TỐN SO SÁNH ĐA TRÌNH TỰ 2- NHIỆM VỤ LUẬN VĂN : 3- NGÀY GIAO NHIỆM VỤ : 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : TS Nguyễn Văn Minh Mẫn Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thơng qua CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MƠN (Họ tên chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) TS Nguyễn Văn Minh Mẫn TS Đinh Đức Anh Vũ CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : TS Nguyễn Văn Minh Mẫn Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm 2007 Các kỹ thuật toán học cho tốn so sánh đa trình tự LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 05 tháng 11 năm 2007 Phạm Mạnh Hùng Phạm Mạnh Hùng Trang i Các kỹ thuật toán học cho tốn so sánh đa trình tự LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành đến TS Nguyễn Văn Minh Mẫn, người tận tình hướng dẫn, giúp đỡ tơi suốt q trình thực luận văn tạo điều kiện để hồn thành luận văn Xin cảm ơn gia đình người bạn dành cho tơi tình thương yêu hỗ trợ tốt Phạm Mạnh Hùng Trang ii Các kỹ thuật toán học cho tốn so sánh đa trình tự TĨM TẮT LUẬN VĂN So sánh đa trình tự(Multiple Sequence Alignment-MSA) 10 toán lớn Sinh tin học(Bioinformatics) MSA đóng vai trị quan trọng Sinh tin học nói chung lĩnh vực tìm kiếm gene (Gene Finding) nói riêng MSA tốn NP, hồn tồn chưa có giải pháp trọn vẹn để tìm lời giải tối ưu toán Nhiều phương pháp sử dụng heuristic đưa để giải toán tập liệu đầu vào lớn, phương pháp hướng tới việc tìm lời giải cận tối ưu với thời gian tính tốn nhớ sử dụng chấp nhận Progress Algorithm phương pháp tốt tiếp cận theo phương thức Đề tài trình bày giải thuật dựa Progressive Algorithm Sử dụng lời giải tốn TSP để mơ tả trình so sánh(align) sequence Để cung cấp Progressive Algorithm có chất lượng, giải thuật tối ưu tốn Pairwise Sequence Alignment(PSA) độ xác nhớ sử dụng thông qua giải thuật ”chia để trị” kết hợp với việc sử dụng ma trận đánh giá BLOSUM Thơng qua q trình so sánh với CLUSTALW(một chương trình thực Progressive Algorithm đánh giá cho kết tốt nhất), dựa kết kiểm thử với tập liệu BAliBASE benchmark số nguồn liệu từ NCBI(National Center for Biotechnology Information), chương trình thực giải thuật cung cấp lời giải có độ xác cao, tiết kiệm nhớ có thời gian tính tốn chấp nhận Từ khoá: Algorithm, Sequence Alignment, Multiple Sequence Alignment, MSA, Pairwise Sequence Alignment, PSA, Progressive Algorithm, Dynamic Programming, Traveling Salesman Problem, TSP, CLUSTALW, BLOSUM, BAliBASE Phạm Mạnh Hùng Trang iii Các kỹ thuật toán học cho toán so sánh đa trình tự MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii DANH MỤC HÌNH vi DANH MỤC BẢNG viii Chương GIỚI THIỆU .1 1.1 1.2 Giới thiệu Kết cấu luận văn Chương TỔNG QUAN VỀ KHÁI NIỆM SO SÁNH TRÌNH TỰ (SEQUENCE ALIGNMENT) 2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.2 2.2.1 2.2.2 2.2.3 2.3 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 So sánh trình tự Định nghĩa So sánh trình tự(Sequence Alignment) Phân loại .7 So sánh trình tự (Pairwise Sequence Alignment-PSA) So sánh nhiều trình tự (Multiple Sequence Alignment-MSA) Các khái niệm khác 10 Ma trận đánh giá(Scoring Matrix) 12 Gap 14 Phương pháp đánh giá(Scoring Method) 15 Các phương pháp giải toán so sánh trình tự 18 Phương pháp Quy hoạch động(Dynamic Programming) 19 Sử dụng thiết bị phần cứng .20 Phương pháp tìm kiếm cục bộ(Local Search) 21 Sử dụng giải thuật Di truyền(Genetic Algorithm) 21 Sử dụng Mơ hình Markov ẩn(Hidden Markov Model-HMM) 21 Chương CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP THỰC HIỆN 24 3.1 3.2 3.2.1 3.2.2 3.2.3 Giới thiệu Dynamic Programming 24 Bài toán PSA cách giải kỹ thuật quy hoạch động 24 Giải thuật quy hoạch động cho toán PSA 25 Giải thuật Gotoh 28 Giải thuật cải tiến không gian nhớ 29 3.3 Giải thuật tính toán phép Alignment tối ưu cho toán Multiple Alignment sử dụng kỹ thuật dynamic programming 32 3.3.1 3.3.2 3.3.3 Giải thuật Center Star Alignment Algorithm 33 Phương pháp Progressive Algorithm giải toán MSA 37 Feng-Doolittle Algorithm 38 Chương THIẾT KẾ GIẢI THUẬT VÀ HIỆN THỰC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN MSA .42 4.1 Giải thuật sử dụng cho toán PSA .42 Phạm Mạnh Hùng Trang iv Các kỹ thuật tốn học cho tốn so sánh đa trình tự 4.1.1 4.2 4.2.1 4.2.2 4.2.3 4.3 4.3.1 4.3.2 4.4 Giải thuật tính tốn dựa theo kỹ thuật chia để trị 43 Giải thuật thực cho toán MSA 49 Bài toán TSP(Travelling Salesman Problem-Bài toán người bán hàng) .50 Giải thuật 1A 51 Giải thuật 1B(Giải thuật cải tiến gom nhóm nhỏ nhất) 55 Giải thuật di truyền toán TSP 57 Đặc điểm giải thuật di truyền 57 Cấu trúc thuật giải di truyền tổng quát 59 Phần thực giải thuật chương trình: 60 Chương KẾT QUẢ NHẬN XÉT 66 5.1 5.2 5.3 5.3.1 5.3.2 5.3.3 Một số kết chạy chương trình 66 BAliBASE (Benchmark Alignment Database) 68 So sánh kết 69 Giới thiệu chương trình sử dụng 70 So sánh độ xác kết .70 So sánh mặt thời gian chạy, nhớ .77 Chương KẾT LUẬN .78 TÀI LIỆU THAM KHẢO 80 Phụ lục Bảng đối chiếu Thuật ngữ Anh - Việt 83 Phụ lục Từ viết tắt 87 Tham khảo Chỉ mục 88 Phạm Mạnh Hùng Trang v Các kỹ thuật toán học cho tốn so sánh đa trình tự DANH MỤC HÌNH Hình 2.1 Ví dụ PSA Hình 2.2 Ví dụ so sánh trình tự theo hướng tồn cục Hình 2.3 Ví dụ so sánh trình tự theo hướng cục Hình 2.4 Cấu trúc PSA Hình 2.5 Giới thiệu MSA Hình 2.6 Giới thiệu khái niệm MSA 10 Hình 2.7 Quá trình biến đổi sequence 10 Hình 2.8 Ví dụ phép thay gap 11 Hình 2.9 Ví dụ Gap 15 Hình 2.10 Mối tương quan chương trình thực cho phương pháp 19 Hình 2.11 Phương pháp tính tốn xác dynamic programming 20 Hình 2.12 Mơ hình Markov cho toán MSA 22 Hình 3.1 Phương pháp quy hoạch động cho toán PSA 25 Hình 3.2 Các ma trận S, D, I cho chuỗi AGTAC and AAG 31 Hình 3.3 Minh hoạ trình tìm MSA tối ưu 33 Hình 3.4 Mơ hình tiến hố hình .34 Hình 3.5 Minh họa Center Star Algorithm 35 Hình 3.6 Hình minh hoạ cho Progressive Algorithm 37 Hình 3.7 Minh họa Feng-Doolittle Algorithm .39 Hình 3.8 Ví dụ thực thi Feng-Doolittle Algorithm 39 Hình 4.1 Mơ hình trình thực giải thuật PSA 43 Hình 4.2 Quá trình xây dựng ma trận thuật giải cho tốn PSA 48 Hình 4.3 Quá trình align Center Star Algorithm phiên cải tiến 50 Hình 4.4 Bài toán TSP 50 Hình 4.5 Kết tốn TSP .51 Hình 4.6 Lưu đồ thuật giải 1A .52 Hình 4.7 Lưu đồ thuật giải 1B 55 Hình 4.8 Cấu trúc chương trình thực 61 Hình 4.9 Module PSA 61 Hình 4.10 Sơ đồ khối chức Module MSA 62 Hình 4.11 Sơ đồ khối chức module TSP .63 Hình 5.1 Đồ thị tương quan độ xác MSAPR, CLUSTALW MULTAL 72 Hình 5.2 Đồ thị tương quan độ xác MSAPR, CLUSTALW HMMT 74 Hình 5.3 Đồ thị tương quan độ xác MSAPR, CLUSTALW HMMT 75 Hình 5.4 Đồ thị tương quan độ xác MSAPR, CLUSTALW, SAGA 75 Phạm Mạnh Hùng Trang vi Các kỹ thuật toán học cho tốn so sánh đa trình tự Hình 5.5 Đồ thị tương quan độ xác MSAPR, CLUSTALW, SAGA 76 Hình 5.6 So sánh thời gian thực thi MSAPR CLUSTALW .77 Phạm Mạnh Hùng Trang vii Các kỹ thuật toán học cho toán so sánh đa trình tự Độ xác 0.8 MSAPR CLUSTALW HMMT 0.6 0.4 0.2 10 11 Testcase(Nhóm 3) Hình 5.3 Đồ thị tương quan độ xác MSAPR, CLUSTALW HMMT Nhóm 4: Bảng 5.8 liệt kê độ xác chương trình thực việc tính tốn MSA với tồn liệu nhóm MSAPR CLUSTA SAGA LW DIALI GN SB_PI MA ML_PI MULTA PILEU MA LIGN P8 1dynA 0.313 0.566 0.000 0.600 0.600 0.600 0.000 0.000 1pysA 0.482 0.558 0.250 0.750 1.000 1.000 0.000 0.750 1ckaA 0.436 0.823 0.375 1.000 1.000 0.000 0.000 1.000 1csp 0.358 0.498 0.000 0.889 0.000 0.000 0.000 0.000 1lkl 0.707 0.718 0.000 1.000 1.000 1.000 0.000 1.000 1mfa 0.580 0.500 0.385 1.000 0.846 1.000 0.385 1.000 1ycc 0.783 0.785 0.485 0.727 0.970 0.818 0.485 0.455 2abk 0.470 0.469 0.000 1.000 0.471 0.471 0.000 0.471 kinase1 0.807 0.873 0.000 1.000 1.000 1.000 0.000 1.000 Bảng 5.8 Kết chạy chương trình với sequence nhóm Độ xác 0.8 MSAPR CLUSTALW SAGA 0.6 0.4 0.2 Testcase(Nhóm 4) Hình 5.4 Đồ thị tương quan độ xác MSAPR, CLUSTALW, SAGA Phạm Mạnh Hùng Trang 75 Các kỹ thuật toán học cho toán so sánh đa trình tự Nhóm Bảng 5.9 liệt kê độ xác chương trình thực việc tính tốn MSA với tồn liệu nhóm MSAPR CLUST SAGA ALW DIALI SB_PIM ML_PI MULTA PILEU GN A MA LIGN P8 1pysA 0.590 0.580 0.429 0.762 0.190 0.762 0.429 0.190 1eft 0.236 0.459 0.000 0.579 0.000 0.000 0.000 0.211 1ivy 0.785 0.818 0.735 1.000 1.000 0.882 0.735 1.000 1qpg 0.839 0.903 0.521 1.000 1.000 1.000 1.000 1.000 1thm1 0.714 0.706 0.765 0.765 0.765 0.412 0.412 0.765 1thm2 0.755 0.852 0.774 1.000 0.194 0.194 0.774 0.645 2cba 0.744 0.769 0.767 1.000 0.533 0.767 0.550 0.600 S51 0.627 0.796 0.831 0.646 0.338 0.631 0.646 0.646 S52 0.857 0.902 1.000 1.000 0.515 0.515 1.000 0.515 kinase1 0.807 0.817 0.484 0.806 0.677 0.677 1.000 0.677 kinase2 0.698 0.812 0.667 0.667 0.556 0.444 0.333 0.689 kinase3 0.609 0.777 0.729 0.812 0.333 0.583 0.646 0.729 Độ xác Bảng 5.9 Kết chạy chương trình với sequence nhóm 1.2 0.8 0.6 0.4 0.2 MSAPR CLUSTALW SAGA 10 11 12 Testcase(Nhóm 5) Hình 5.5 Đồ thị tương quan độ xác MSAPR, CLUSTALW, SAGA Như thông qua kết kiểm thử chương trình nhóm liệu BAliBASE, MSAPR cho kết chạy ổn định, chênh lệch độ xác(với MSA BAliBASE) so với CLUSTALW chấp nhận So với chương trình cịn lại MSAPR cho kết đánh giá tốt khả quan Chương trình chạy tốt cho tập liệu có độ dài sequence nhỏ, với tập liệu có độ dài trung bình lớn Phạm Mạnh Hùng Trang 76 Các kỹ thuật toán học cho tốn so sánh đa trình tự Phần xem xét thời gian chạy vấn đề sử dụng nhớ 5.3.3 So sánh mặt thời gian chạy, nhớ Như trình bày phần thuật tốn, chương trình MSAPR nhắm đến việc tăng độ xác chương trình, giảm thiểu nhớ sử dụng nên so sánh mặt thời gian MSAPR có thời gian chạy lâu so với CLUSTALW Khi sequence có chiều dài nhỏ(50-100 phần tử), thời gian chạy CLUSTALW MSAPR tương đương, sequence có chiều dài trung bình thời gian chạy MSAPR CLUSTALW chênh khoảng 1,5 lần Khi sequence có chiều dài lớn, thời gian chạy chênh lệch từ 3-4 lần Hầu hết MSA BAliBASE có 50 sequence, thời gian chạy thường dao động từ 10 giây đến 10 phút, tùy theo chiều dài sequence Khi xét tập sequence lớn từ 100 đến 500 sequence, thời gian chạy chương trình dao động khoảng từ đến 15 500 400 MS AP R 200 C LUS TALW T h i g ia n (p h ú t) 300 100 100 200 300 400 500 S ố se que nce Hình 5.6 So sánh thời gian thực thi MSAPR CLUSTALW Xét nhớ sử dụng, đề cập phần thiết kế giải thuật, chương trình hạn chế tối đa việc cấp phát nhớ Xét tập kết từ nhóm liệu BAliBASE, MSAPR chiếm dụng từ 3.5MB đến 10MB nhớ Đây kết tốt mặt quản lý nhớ Phạm Mạnh Hùng Trang 77 Các kỹ thuật toán học cho toán so sánh đa trình tự Chương KẾT LUẬN Sinh tin học(Bioinformatics) có bước phát triển đột phá, bước trở thành ngành khoa học có vai trị vơ quan trọng phát triển nhân loại Được đánh giá 10 toán lớn Bioinformatics, từ đặt nay, toán MSA nghiên cứu Nhiều giải pháp đưa để giải toán này, nhiên nay(2007), toán MSA toán mở, chưa có lời giải giải tốn trọn vẹn Đứng góc độ cơng trình nghiên cứu, luận văn cố gắng đưa giải pháp nhằm cung cấp thêm cách thức để giải toán Tiếp cận theo hướng kết hợp phương pháp Progressive Algorithm số kỹ thuật heuristic, luận văn tối ưu hóa tốn PSA độ xác, khơng gian nhớ sử dụng cho chương trình, thơng qua việc sử dụng giải thuật chia để trị kết hợp với việc sử dụng đồng thời ma trận BLOSUM tham số khả sinh gap, để phục vụ cho việc tính tốn Cùng với việc cải thiện chất lượng toán PSA, luận văn sử dụng kết tốn TSP để mơ tả q trình phân hoạch gom nhóm, để thực phép toán align cho toán MSA Với việc kết hợp kỹ thuật này, chương trình thực cho giải thuật đề xuất cho kết tốt Kiểm thử chương trình tập liệu mẫu BAliBASE so sánh kết chương trình với số phần mềm đánh giá tốt việc giải toán MSA: CLUSTALW, SAGA, MULTALIGN,… Về chương trình cho lời giải có độ ổn định cao, xác khơng thua CLUSTALW(phần mềm đánh giá cho kết tốt ổn định nhất), thời gian chạy dài so với CLUSTALW nhiên xét nhớ sử dụng chương trình cho kết sử dụng nhớ tốt Đây mục tiêu hướng tới luận văn: cung cấp giải pháp, cho phép giải toán MSA có độ xác cao, thời gian chạy chấp nhận tiết kiệm mặt nhớ Thông qua số thử nghiệm số tập liệu mẫu khác, kết thu luận văn hoàn tồn cung cấp cho nhà sinh học cơng cụ để giải tốn MSA Phạm Mạnh Hùng Trang 78 Các kỹ thuật toán học cho tốn so sánh đa trình tự Kết đạt được mở rộng thêm để cải thiện tốc độ chạy chương trình Hạn chế mặt thời gian chạy chương trình giải việc: ƒ Đề xuất phương pháp song song hóa giải thuật nêu, triển khai tốn hệ thống tính tốn song song Cluster triển khai hệ thống tính tốn lưới Grid ƒ Thiết kế giải thuật nhánh cận nhằm tối ưu thời gian chạy độ xác cho tốn TSP số đỉnh toán lớn Với mở rộng xây dựng hệ thống tính tốn để giải toán MSA cách hữu hiệu Đây hướng phát triển luận văn Phạm Mạnh Hùng Trang 79 Các kỹ thuật toán học cho tốn so sánh đa trình tự TÀI LIỆU THAM KHẢO Akutsu, T., Arimura, H., and Shimozono, S., “On Approximation Algorithms for Local Multiple Alignment”, Proceedings of the fourth annual international conference on Computational molecular biology, Tokyo, Japan, 2000 Attwood, T.K., Parry D.J., “Introduction to Bioinformatics”, Prentice Hall, 1999 BAliBASE HomePage, http://www-bio3d-igbmc.u-strasbg.fr/balibase/ Bali_Score Program HomePage, http://bips.u-strasbg.fr/Products/Databases/BAliBASE/bali_score.c Bioinformatics Platform of Strasbourg, http://bips.u-strasbg.fr/fr/Products/Databases/BAliBASE/prog_scores.html Bonizzoni, P., Vedova, G.D “The complexity of multiple sequence alignment with SP-score that is a metric”, Theoretical Computer Science 2001, 259:63-79 Cormen, T.H., Leiserson, C.E., Rivest, R.L and Clifford, S., “Introduction to Algorithm” Chapter 16, Dynamic Programming, MIT, 2001 Eddy, S.R., “Multiple Alignment using Hidden Markov Model” Proc Int Conf Intell Syst Mol Biol 1995;3:114-20 European Bioinformatics Institute, “CLUSTALW, CLUSTALX”, European Bioinformatics Institute HomPage, http://www.ebi.ac.uk/ 10 Feng, D and Doolittle, R., “Progressive alignment of amino acid sequences and construction of phylogenetic trees from them”, Method Enzymol , 266:368-382 11 Feng, D and Doolittle, R., “Progressive sequence alignment as a prerequisite to correct phylogenetic trees”, J Mol Evol , 25:351-360 12 GALib HomePage http://lancet.mit.edu/ga/ 13 Gotoh, O., “Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments”, J Mol Biol 264:823-838 14 Henikoff, S and Henikoff, J.G., “Amino acid substitution matrices from protein block” Proc Nat Acd Sci USA 90:10915-10919 Phạm Mạnh Hùng Trang 80 Các kỹ thuật toán học cho tốn so sánh đa trình tự 15 Hirschberg D.S., “A linear Space Algorithm for Computing Maximal Common Subsequences”, Communication of the ACM, Volumn 18, Number 6, 1975 16 Huang, X., and Chao, K.-M,”A generalized global alignment algorithm”, Bioinformatics, Oxford University Press, Vol 19, no 2, 2003 pp 228–233 17 Korostensky, C and Gonnet,G.H , ”Near Optimal Multiple Sequence Alignments using a Traveling Salesman Problem approach” Proceedings of the String Processing and Information Retrieval Symposium & International Workshop on Groupware Page, 1999, pp 105 18 Korostensky, C and Gonnet, G.H , ”Using traveling salesman problem algorithms for evolutionary tree construction” Bioinformatics, 16:619-927, 2000 19 Lipman, D and Pearson, W ,” Rapid and sensitive protein similarity searches” Science,227:1435–1441, 1985 20 Myers, E.W., Miller W., “Optimal alignments in linear space”.Comput Appl Biosci 1988, 4:11-17 21 NCBI HomePage, http://www.ncbi.nlm.nih.gov/ 22 Needleman, S B and Wunsch, C D , “A general method applicable to the search for similarities in the amino acid sequence of two proteins” Journal of Molecular Biology, 48:443–453, 1970 23 Nicholas, H.B.Jr, Ropelewski, A.J and Deerfield, D.W., “Strategies for multiple sequence alignment”, Biotechniques, 32:572-578 24 Notredame, C., and Higgins, D G., “SAGA: sequence alignment by genetic algorithm”, Nucleic Acids Research, vol 24, no 8, 1996, pp 1515-1524 25 Pearson, W.R, Miller, W , “Dynamic programming algorithms for biological sequence comparison” Meth Enzymol 210:575-601, 1992 26 Shyu, C., “Multiple Sequence Alignment with Evolutionary Computation“ ,Genetic Programming and Evolvable Machines, Vol 5, Number 2005, pp 121-144 27 Smith, T F and Waterman, M S., “Identification of common molecular subsequences”, Journal of Molecular Biology, 147(1):195–197, Mar 1981 Phạm Mạnh Hùng Trang 81 Các kỹ thuật tốn học cho tốn so sánh đa trình tự 28 Thompson , S.M., ”Multiple Sequence Alignment & Analysis”, Florida State University School of Computational Science and Information Technology (CSIT), 2007 29 Thompson, J.D., Plewniak, F and Poch, O.”A comprehensive comparision of multiple sequence alignment”, Nucleic Acids Res., 27:2682-2690 30 Tompa, M ”Alignment by Dynamic Programming”, http://www.cs.washington.edu/homes/tompa/ 31 TSPBIB HomePage, http://www.densis.fee.unicamp.br/~moscato/TSPBIB_home.html 32 Wang, L and Jiang, T., “On the complexity of multiple sequence alignment” Journal of Computationa Biology, 1994, pp 337–348 33 Wallace I.M., Blackshields G., Higgins D.G., “Multiple sequence alignments” Curr Opin Struct Biol 2005, 15:261-266 34 Wayama, W., Takahashi, K., and Shimizu, T., “An approach to amino acid sequence alignment using a genetic algorithm” Genome Informatics, vol 6, 1995, pp 122-123 35 Yang, Y., “Comparative analysis of methods for multiple sequence alignment”, Stanford University, 2001 36 Zhong, W., “Using Traveling Salesman Problem Algorithms to Determine Multiple Sequence Alignment Orders” http://www.cs.uga.edu/~rwr/STUDENTS/ Phạm Mạnh Hùng Trang 82 Các kỹ thuật tốn học cho tốn so sánh đa trình tự Phụ lục Bảng đối chiếu Thuật ngữ Anh - Việt Các thuật ngữ Sinh học: Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt Amino Acid Acid amin, đơn vị cấu trúc protein Biology Sinh học Block Khối Chromosome Nhiễm sắc thể DNA(Deoxyribonucleic Acid) Là phân tử nucleic acid mang thông tin di truyền mã hóa cho hoạt động sinh trưởng phát triển dạng sống DNA chứa gene cấu trúc.(cịn gọi ADN) Evolution Tree Cây tiến hố Genomic Công nghệ gene Gene Là đoạn DNA mang chức định q trình truyền thơng tin di truyền Identity Giống Molecular Biology Sinh học phân tử Nucleotide Nu, đơn phân cấu thành DNA Gồm loại A,C,G,T Parent Thế hệ cha mẹ Phylogenetic Tree Cây sinh loài Protein Hợp chất đại phân tử tạo thành từ nhiều đơn phân acid amin Protein Family Họ protein có liên quan với RNA(Ribonucleic Acid) Là sở di truyền cấp độ phân tử(còn gọi ARN) Sequence Chuỗi trình tự Secondary Structure of Proteins Cấu trúc bậc Protein Similarity Tương đồng Transmembrane protein Loại Protein nối liền lớp màng nhầy Phạm Mạnh Hùng Trang 83 Các kỹ thuật toán học cho toán so sánh đa trình tự Tertiary Structure of Proteins Cấu trúc bậc Protein Các thuật ngữ chuyên ngành(Sinh tin học): Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt Align Thực so sánh(gióng hàng, gióng cột) hay nhiều trình tự BAliBASE benchmark Dữ liệu kiểm thử BAliBASE BAliScore Độ xác MSA so với MSA mẫu BAliBASE Bioinformatics Sinh tin học BLOSUM Matrix Ma trận BLOSUM Center Star Algorithm Giải thuật chọn phần tử trung tâm Circular Tour Chu trình, lời giải tốn TSP Crossover Phép lai ghép Deletion Sự phần tử Deletion gap Các gap sinh cách xóa phần tử sequence Divide and Conquer Algorithm Giải thuật chia để trị Distance Matrix Ma trận khoảng cách Dynamic Programming Quy hoạch động Execution Time Thời gian thực thi FASTA Chuẩn định dạng FASTA lưu trữ sequence Fitness Function Hàm thích nghi Feng-Doolittle Algorithm Giải thuật Feng-Doolittle GALib Thư viện hàm cho phép thiết kế, hỗ trợ lập trình ứng dụng thuật giải di truyền Gap Phần tử sinh trình so sánh trình tự Gap Open Penalty Khả mở gap Gap Extension Penalty Khả mở rộng gap Genetic Algorithm-GA Giải thuật di truyền Phạm Mạnh Hùng Trang 84 Các kỹ thuật toán học cho toán so sánh đa trình tự Gene Finding Problem Bài tốn tìm gene Global Sequence Alignment Phép so sánh trình tự theo hướng tồn cục Guide Tree Cây mơ tả q trình so sánh sequence Heuristic Các kỹ thuật Trí tuệ nhân tạo, giúp giải toán cách tự nhiên Insertion Sự thêm vào phần tử Insertion gap Các gap sinh thêm phần tử vào sequence Iterative Algorithm Giải thuật tìm MSA cách sinh MSA có chất lượng thấp cải tiến dần theo bước lặp Local Sequence Alignment Phép so sánh trình tự theo hướng cục Match Sự tương ứng, phù hợp thành phần sequence MSF Chuẩn định dạng MSF lưu trữ MSA Multiple Sequence Alignment-MSA So sánh đa trình tự Mutation Phép đột biến NCBI Trung tâm quốc gia Thông tin Công nghệ sinh học Hoa Kỳ, cung cấp ngân hàng gene, Cơ sở liệu Protein, chương trình phục vụ cho mục đích sinh học… Near Optimal MSA MSA gần tối ưu Nondeterministic Polynomial-NP Bài tốn NP, khơng thể tính với độ phức tạp đa thức Optimal MSA Phép so sánh đa trình tự tối ưu(tốt nhất) Order for Alignment Thứ tự so sánh sequence Pairwise Distance Khoảng cách cặp sequence Pairwise Sequence Alignment-PSA So sánh trình tự Progressive Algorithm Giải thuật tìm MSA thơng qua việc sử dụng toán PSA nhiều lần PMX(Partially Mapped Crossover) Kỹ thuật lai ghép phần Population Quần thể Scoring Function Hàm đánh giá Phạm Mạnh Hùng Trang 85 Các kỹ thuật tốn học cho tốn so sánh đa trình tự Scoring Matrix Ma trận đánh giá Scoring Method Phương pháp đánh giá Selection Phép chọn lọc Sequence Trình tự Sequence Alignment So sánh trình tự Subtitution Sự thay Sum of Pair Phương pháp đánh giá theo tổng cặp trình tự Traceback Quá trình tìm alignment từ vết Traveling Salesman Problem-TSP Bài toán người bán hàng Phạm Mạnh Hùng Trang 86 Các kỹ thuật toán học cho tốn so sánh đa trình tự Phụ lục Từ viết tắt Tên viết tắt Tên đầy đủ BLOSUM Block Substitution Matrix BAliBASE Benchmark Alignment DataBase CSDL Cơ sở liệu DNA Deoxyribonucleic Acid GA Genetic Algorithm FASTA Fast Alignment Search Tool HMM Hidden Markov Model MSA Multiple Sequence Alignment NCBI National Center for Biotechnology Information NP Nondeterministic Polynomial NST Nhiễm Sắc Thể PSA Pairwise Sequence Alignment RNA Ribonucleic Acid SP Sum of Pair TSP Traveling Salesman Problem Phạm Mạnh Hùng Trang 87 Các kỹ thuật toán học cho tốn so sánh đa trình tự Tham khảo Chỉ mục A amino acid, 6, 9, 10, 12, 13, 14, 16, 17, 20, 21, 25, 38 Average Information Content, 17 H heuristic, 2, 3, 4, 18, 20, 23, 24, 33, 40, 62, 78 Hidden Markov Model, 19, 21 HMMT, 22, 69, 70, 71, 72, 73, 74, 75 B BAliBase, BaliScore, 69 Bioinformatics, iii, 1, 70, 78 block, 13 C Center Star Alignment, 33, 37 Circular Tour, 51, 52, 53, 54, 55, 56 CLUSTALW, 19, 40, 41, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78 Crossover, 57 Chromosome, 1, 57, 58, 59, 60 I Identity, 6, 68, 71 Iterative Algorithm, 18, 19 M ML_PIMA, 69, 70, 71, 72, 73, 74, 75, 76 MSAPR, 60, 66, 67, 68, 69, 70, 72, 74, 75, 76, 77 MSF, 64, 69 MULTAL, 19, 69, 70, 71, 72 MULTALIGN, 19, 40, 69, 70, 71, 72, 73, 74, 75, 76, 78 Mutation, 58 N D DIALIGN, 19, 69, 70, 71, 72, 73, 74, 75, 76 Distance Matrix, 51, 53, 61, 65 Divide and Conquer Algorithm, 5, 43, 65 DNA, 1, 2, 6, 7, 10, 19 Dynamic Programming, 2, 18, 19, 24 E Entropy, 17 Execution Time, v, 43, 68, 77, 78, 79 F FASTA, 19, 63, 69 Feng-Doolittle Algorithm 4, 38, 39, 40 fitness function, 58 G Gap, 11, 14, 15 deletion, 11, 27, 28 insertion, 11, 27, 28 Gap Extension Penalty, 15 Gap Open Penalty, 15 gene, 1, 2, 6, 7, 10, 19, 57, 59, 60 Gene Finding Problem, Genetic Algorithm, 5, 21, 57 Genomic, Giải thuật 1A, 51 Giải thuật 1B, 55, 57 Giải thuật cải tiến không gian nhớ, 29 Gotoh Algorithm, 28 Guide Tree, 40, 54 Phạm Mạnh Hùng NCBI, 3, 63 Near Optimal Alignment, 3, 18 NP, 2, 18, 23, 51, 62 nucleotide, 9, 10, 12, 17, 21, 25 O Oder for Alignment, 5, 50, 51, 52, 54, 58, 61, 62 Optimal Alignment, 11, 24, 25, 26, 33, 36, 43, 44, 47 P Pairwise Distance, 40, 49 Parent, 57 Phylogenetic Tree, PILEUP, 19, 40 PMX(Partially-Mapped Crossover), 59 Population, 21, 57, 58, 59 Progressive Algorithm 2, 3, 4, 18, 19, 23, 24, 37, 39, 40, 41, 49, 50, 52, 70, 78 protein, 1, 2, 6, 7, 9, 10, 13, 14, 19, 66, 67, 68, 69 protein family, R RNA, 1, 6, 7, 83 S SAGA, 21, 69, 70, 71, 72, 73, 74, 75, 76, 78 SB_PIMA, 69, 70, 72, 73, 74, 75, 76 Scoring function, 5, 7, 12, 13, 14, 15, 16, 17, 20, 22, 25, 32, 34, 36, 38, 39, 40, 44, 48 Scoring Matrix BLOSUM, 3, 5, 13, 14, 47, 48, 61, 65, 78 Chemical Similarity Matrix, 13 Genetic Code Matrix, 13 Identity Matrix, 13 Trang 88 Các kỹ thuật toán học cho tốn so sánh đa trình tự Subtitution Matrix, 13 Scoring Method, 15 Sum-of-Pair, 16, 18, 32, 40, 50 Selection, 58 Sequence Alignment Global, Local, Multiple, 2, 3, 4, 5, 9, 10, 13, 16, 17, 18, 19, 20, 21, 22, 23, 24, 32, 33, 34, 37, 39, 41, 42, 49, 50, 60, 61, 62, 63, 65, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79 Phạm Mạnh Hùng Pairwise, 2, 3, 4, 5, 7, 8, 15, 18, 23, 24, 25, 26, 33, 34, 35, 37, 38, 42, 43, 44, 48, 49, 51, 53, 57, 60, 61, 65, 78 Similarity, 7, 12, 13, 14, 16, 17, 39, 40, 51, 68 Substitution, 10, 14 T Tertiary Structure of Protein, 6, 9, 68 Traceback, 20, 26, 27, 45 transmembrane protein, 68 Traveling Salesmans Problem(TSP), 3, 5, 50, 51, 52, 53, 55, 57, 59, 60, 62, 65, 78, 79 Trang 89 ... so sánh trình tự theo hướng cục Chỉ phần chuỗi so sánh: TGKG AGKG Tùy thuộc vào số lượng trình tự, tốn so sánh trình tự chia làm mức độ: ƒ So sánh trình tự ƒ So sánh nhiều trình tự 2.1.3 So sánh. .. chuỗi trình tự( sequence), đo lường giống trình tự Là cách thức so sánh hay nhiều trình tự dựa việc so sánh chuỗi thành phần(ký tự) trình tự để tìm điểm tương đồng, giống trình tự Các trình tự đề... khơng cao, có số gene giống trình tự, trình tự có kích thước khác biệt lớn Phạm Mạnh Hùng Trang Các kỹ thuật toán học cho tốn so sánh đa trình tự Ví dụ so sánh trình tự theo hướng tồn cục: LGPSSKQTGKGS−

Ngày đăng: 11/02/2021, 23:09

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w