bài giảng nhập môn tin sinh học của thầy Đặng Đức Long trường Đại học Bách Khoa Đà Nẵng.... giúp các bạn ngành công nghệ sinh học có thể học tốt hơn...............................................................................................................................................................................
Draft version - Confidential Giáo trình Nmôn tin sinh 80 5.1. ADN 5.1.1. ADN Hình 5.1. Hình 5.1ADN ADN ADN 5.1. Draft version - Confidential Giáo trình Nmôn tin sinh 81 1 2 3 4 5 6 i T G A C G T Tinh tinh T G A C T T Kh t C G A C T Kh nâu G A C G 5.1: ADN ADN dài. ADN và Tinh tinh nuclêôtít, chui ADN ca Kh t cha 5 nuclêôtít và chui ADN ca Khi nâu ch còn cha 4 nuclêôtít. Tóm li, quá trình tin hóa s làm cho các chung khác nhau c v ni dung dài. Sp 5.1.2. Sp hàng hai chui và ho chúng ta bit mi quan h gia hai chui và . khác nhau, chúng ta hành ADN ADN. nuclêôtít ADN ADN sau: 1. 2. Các nuclêôtít nuclêôtít 3. i nào 4. 5.2 ADN ADN Draft version - Confidential Giáo trình Nmôn tin sinh 82 1 2 3 4 5 6 i T G A C G T Tinh tinh T G A C T T Kh t C G A C T Kh nâu G A C G 5.2ADN h t và Kh nâu. Ta thy có các bii v trí 1, 5 và 6. , chúng ta d dàng nhn thy n (5.3 minh ). 1 2 3 4 5 6 i T G A C G T Tinh tinh T G A C T T Kh t C G A C T Kh nâu G A C G i T G A C G T Tinh tinh T G A C T T Kh t C G A C T Kh nâu G A C G 5.3ADN 5.1.3. ng ta s tìm hiu cách nh m ging nhau ca m chui sp hàng. nuclêôtítnuclêôtít Gi là tp n chui ADN ; nuclêôtítADN Gi ng, . s. Draft version - Confidential Giáo trình Nmôn tin sinh 83 m ging nhau ca mp hàng t c các cp chu pairs) 5.1 t , và c tính c th : 5.2 theo 5.1 dng , c th là: 5.3 sau: 5.4 Ví d: Vi ma trn m ging nhau : nuclêôtít ; nuclêôtít ; nuclêôtít ; tnh ADN 5.4 hàng - 1 2 3 4 5 6 i T G A C G T Draft version - Confidential Giáo trình Nmôn tin sinh 84 Tinh tinh T G A C T T Kh t C G A C T Kh nâu G A C G -6 10 10 10 -6 0 18 i T G A C G T Tinh tinh T G A C T T Kh t C G A C T Kh nâu G A C G -2 3 3 3 -9 0 -2 i T G A C G T Tinh tinh T G A C T T Kh t C G A C T Kh nâu G A C G -6 3 3 3 -2 0 -2 5.4ADN i 5.1.4. chui bt ( sp) bt cp sp hàng bt cp là: , 5.5 (xem 5.5). Draft version - Confidential Giáo trình Nmôn tin sinh 85 XY = AAAATTTT TTTTGGGG XYZ = AAAATTTT TTTTGGGG AAAAGGGG XZ = AAAATTTT AAAAGGGG YZ = AAAAGGGG TTTTGGGG 5.5 sp hàng 3 bt cp , 5.6 , . XY = AAAATTTT TTTTGGGG XYZ = ? XZ = AAAATTTT GGGGAAAA YZ = TTTTGGGG GGGGAAAA 5.6: Ba bt cp Draft version - Confidential Giáo trình Nmôn tin sinh 86 5.2. asp hàng i. ng 5.1 bao : ba ba là 0. ba chui, nghim ta bài toán vi ba chui tin t và c xây dng trên nghim t Nghim ca bài toán vi ba chui tin t ài toán vi ba chui tin t Nghim ca bài toán vi ba chui tin t Nghim ca bài toán vi ba chui tin t Nghim ca bài toán vi ba chui tin t Nghim ca bài toán vi ba chui tin t Nghim ca bài toán vi ba chui tin t d liu vào. Draft version - Confidential Giáo trình Nmôn tin sinh 87 Thut ba chui ADN D liu vào: Ba chui ADN ; Ma trn m th hin m ging nhau gia các kí t thuc tp kí t Yêu cu: Sp hàng ba chui và tm ging nhau là ln nht. D liu ra: Ba chui , và là kt qu ca vic sp hàng. ng: Gi : Chui tin t gm i nuclêôtít u tiên ca ; : Chui tin t gm j nuclêôtít u tiên ca . : Chui tin t gm v nuclêôtít u tiên ca . ba . s ba Ta thba nuclêôtít : nh 5.5 t m ging nhau khi sp 3 kí t Draft version - Confidential Giáo trình Nmôn tin sinh 88 vào cùng mt ct trên ba chui sp hàng. . , theo 5.5. s là nghim tt nht ca bài toán cho ba chui . ng thc hin chèn các d chui c ba chui sp hàng , và 5.1: Thut toán quy hong gii quy ADN. 5.7. 1 2 3 4 5 6 T G A C G T T G A C T T C G A C T 0 6 6 6 -5 6 5.7ADN . Tm ging nhau là 19. phc tp ca thut toán quy hong cho bài toán sp hàng ba chui là . chui là O( ) vi Draft version - Confidential Giáo trình Nmôn tin sinh 89 n Ngôi sao 5.3. ng ta . Ngôi sao vào so v cho mc vi các chui khác là ln nht. ) 5.6 t Th5.2. Thut toán Ngôi sao (Star) D liu vào: Tp n chui ADN Yêu cu: S vi tng ln nht. D liu ra: chui là chui theo 5.6 gi s chui trung tâm Gi là ). c 2: Lt sp hàng các chui . Vii vào c thc hi Bt cp chui chuc sp hàng [...]... Kết quả chạy chương trình trực tuyến Muscl với 5 chuỗi ADN Giáo trình Nhập môn tin sinh học 106 Draft version - Confidential 5.7 Bài tập chương 1 Tại sao cần phải sắp hàng đa chuỗi ADN? ho ví dụ minh họa về một đa sắp hàng của 4 chuỗi ADN 2 Trình bày thuật toán quy hoạch động đ giải bài toán sắp hàng ba chuỗi ADN Tính độ phức tạp của thuật toán quy hoạch động trên và áp dụng nó với ví dụ 3 chuỗi ADN... Emboss Maf Mega Metafasta Nexus Pfam Stockholm Giáo trình Nhập môn tin sinh học 99 Draft version - Confidential hiều chương trình trực tuyến đã đư c phát tri n cho phép người dùng chuy n đổi định dạng các file chứa các đa sắp hàng Hình 5.5 minh họa hệ thống chuy n đổi định dạng cho các đa sắp hàng đư c phát tri n bởi Trung tâm tin sinh học V tại địa ch http://www.ibi.vu.nl/programs/convertalignwww/... Hình 5.10 là giao diện trang chủ của Muscle tại địa ch www.drive5.com/muscle Tại đây người dùng có th tải chương trình Muscle về máy tính cá nhân đ tiến hành sắp hàng đa chuỗi Giáo trình Nhập môn tin sinh học 104 Draft version - Confidential Hình 5.10: Giao diện trang chủ của Muscl tại địa chỉ www.drive5.com/muscle gười dùng c ng có th sử dụng chương trình trực tuyến của Muscle tại B theo địa ch website... nhau họn định dạng dữ liệu ra của đa sắp hàng (F ST , lustalW, ) hạy chương trình bằng cách ân n t “Submit”, sau đó đ i chương trình Muscle chạy và trả lại kết quả là một đa sắp hàng như ở Hình 5.12 Tải kết quả đa sắp hàng về máy tính của người dùng đ lưu giữ và tiến hành phân tích Giáo trình Nhập môn tin sinh học 105 Draft version - Confidential Hình 5.11: Giao diện của chương trình sắp hàng đa chuỗi... phức tạp của Bước 2 là ( ) Vậy tổng độ phức tạp của thuật toán Ngôi sao là Với độ phức tạp này, thuật toán gôi sao có th sắp hàng các tập dữ liệu lớn với hàng nghìn chuỗi Giáo trình Nhập môn tin sinh học 91 Draft version - Confidential 5.4 Thuật toán sắp hàng lũy tiến (aggressive alignment) 5.4.1 Giới thiệu Sắp hàng l y tiến là một trong các chiến lư c sắp hàng gần đùng tốt nh t đ giải quyết bài toán... giữ đa chuỗi sắp hàng của các chuỗi prôtêin hay các chuỗi ADN ác đa sắp hàng đư c lưu theo chuẩn lustalW đư c sử dụng rộng rãi trong các chương trình phân tích các chuỗi File văn bản theo định dạng dữ liệu lustalW có c u tr c tương đối đơn giản như sau: 1 Dòng đầu của file bắt đầu với từ “ L ST LW” ho c “ L ST L W”; tiếp theo có th là các dòng rỗng Giáo trình Nhập môn tin sinh học 96 Draft version -... nguyên tử, nhưng không có cùng các tính ch t hóa học chung Hình 5.3 là một ví dụ minh họa về một đa sắp hàng đư c lưu giữ trong file văn bản theo định dạng lustalW Giáo trình Nhập môn tin sinh học 97 Draft version - Confidential Hình 5.3: Định dạng CLUSTAL W 5.5.2 Định dạng dữ liệu Phylip ịnh dang dữ liệu Phylip đư c sử dụng đ lưu giữ đa chuỗi sắp hàng của các chuỗi prôtêin và các chuỗi ADN ác đa sắp... chuỗi ADN Thuật toán gôi sao đư c tiến hành như sau: Bước : Tìm chuỗi trung tâm i m giống nhau giữa các c p chuỗi: i m trung tâm của các chuỗi là: Giáo trình Nhập môn tin sinh học 90 như Draft version - Confidential Vậy là chuỗi trung tâm vì đi m trung tâm của nó lớn nh t Bước 2: Sắp hàng các chuỗi Sắp hàng h ỗi ới h ỗi m h ắ y 1 2 3 4 5 6 7 8 9 10 A A T T T T T T – – – – T T T T T T G... chuỗi ADN sau khi đư c sắp hàng Giáo trình Nhập môn tin sinh học 108 Draft version - Confidential Ví dụ: multiple_sequence.in multiple_sequence.out 3 13 TGACGT TGACGT TGACTT TGACTT CGACT CGACT 2 -1 -1 -1 -2 -1 2 -1 -1 -2 -1 -1 2 -1 -2 -1 -1 -1 2 -2 -2 -2 -2 -2 0 6 Trình bày thuật toán sắp hàng l y tiến cơ bản đ giải bài toán sắp hàng đa chuỗi ADN Tính độ phức tạp của thuật toán trên và áp dụng nó với ví... đ sắp hàng đa chuỗi i m cải tiến của ClustalW so với thuật toán l y tiến cơ bản là lustalW xây dựng một cây phân loài th hiện mối quan hệ giữa các chuỗi đầu vào; sau đó việc tìm hai đa sắp hàng gần nhau nh t trong quá trình sắp hàng l y tiến đư c xác định theo c u tr c cây phân loài đã xây dựng Thuật toán lustalW đư c minh họa ở Hình 5.6 Giáo trình Nhập môn tin sinh học 100 Draft version - Confidential . -2 3 3 3 -9 0 -2 i T G A C G T Tinh tinh T G A C T T Kh t C G A C T Kh nâu G A C G -6 3 3 3 -2 0 -2