Nhập môn tin sinh học

231 2 0
Nhập môn tin sinh học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Draft version Confidential Giáo trình Nhập môn tin sinh học 1 Mục lục Danh sách ký hiệu và kí tự viết tắt 6 Một số các thuật ngữ thường dùng 7 iới thiệu 9 iới thiệu về sinh học phân tử 12 hương 1 Axít.

Draft version - Confidential Mục lục Danh sách ký hiệu kí tự viết tắt Một số thuật ngữ thường dùng iới thiệu hương iới thiệu sinh học phân tử 12 1.1 Axít nuclêic Nuclêơtít 12 1.2 Prơtêin axít amin 15 1.3 1.4 en mối quan hệ chuỗi D chuỗi prơtêin 16 Tập kí hiệu nuclêơtít/axít amin theo P 18 1.5 hi m sắc th hệ gen 19 1.6 uá trình biến đổi biến đổi 1.7 20 Bài tập chương 24 hương 2.1 2.2 D sở liệu sinh học phân tử 26 iới thiệu 26 Trung tâm thông tin công nghệ sinh học 2.3 SDL ucleotide oa Kỳ 28 B 30 2.3.1 iới thiệu 30 2.3.2 ịnh dạng liệu 31 2.3.3 Tìm kiếm liệu 34 2.3.4 Tải liệu máy tính người dùng 37 2.4 2.5 ịnh dạng liệu chuẩn F ST 38 CSDL Protein B 40 2.6 SDL Structure B 41 2.7 SDL PubMed B 42 2.8 SDL B 43 2.9 enome Bài tập chương 44 hương Sắp hàng hai chuỗi 46 Giáo trình Nhập mơn tin sinh học Draft version - Confidential 3.1 iới thiệu 46 3.2 Thuật toán hàng hai chuỗi 50 3.3 Sắp hàng địa phương hai chuỗi (local pairwise alignment) 53 3.4 Sắp hàng hai chuỗi prôtêin 57 3.5 Bài tập chương 59 hương Tìm kiếm sở liệu BL ST 64 4.1 iới thiệu 64 4.2 Thuật toán BL ST 65 4.3 ệ thống trực tuyến BL ST 67 4.3.1 hương trình trực tuyến nucleotide blast 68 4.3.2 hương trình trực tuyến protein blast 75 4.4 Bài tập chương 77 hương Sắp hàng đa chuỗi 80 5.1 iới thiệu toán 80 5.1.1 uá trình biến đổi chuỗi D 80 5.1.2 Sắp hàng đa chuỗi 81 5.1.3 i m giống đa chuỗi hàng 82 5.1.4 Sự thương thích bắt c p hai chuỗi 84 5.2 Thuật toán quy hoạch động giải toán hàng đa chuỗi 86 5.3 Thuật toán 5.4 Thuật toán hàng l y tiến (aggressive alignment) 92 gôi 89 5.4.1 iới thiệu 92 5.4.2 i m giống hai đa hàng 93 5.4.3 Sắp hàng hai đa hàng 94 5.4.4 Thuật toán 94 5.5 ác định dạng liệu đa hàng 96 5.5.1 ịnh dạng liệu lustalW 96 5.5.2 ịnh dạng liệu Phylip 98 Giáo trình Nhập môn tin sinh học Draft version - Confidential 5.5.3 5.6 hương trình chuy n đổi định dạng liệu 99 Một số phương pháp hàng đa chuỗi phổ biến 100 5.6.1 Phương pháp lustalW 100 5.6.2 Phương pháp Muscle 103 5.7 Bài tập chương 107 hương Xây dựng phân loài 112 6.1 iới thiệu toán 112 6.2 Cây phân loài 115 6.2.1 iới thiệu 115 6.2.2 Duyệt 116 6.2.3 u tr c phân nhánh 117 6.2.4 So sánh hai c u tr c phân nhánh 119 6.3 Tiêu chuẩn cực ti u số lư ng biến đổi 121 6.4 Phương pháp duyệt tìm phân lồi theo tiêu chuẩn MP 122 6.5 Phương pháp xây dựng bước (Stepwise addition) 127 6.6 ịnh dạng liệu 6.6.1 ewick 131 iới thiệu 131 6.6.2 Xây dựng xâu bi u di n có gốc theo chuẩn ewick 132 6.6.3 Xây dựng xâu bi u di n không gốc theo chuẩn 6.6.4 ewick 133 ác lỗi thường g p 134 6.7 ác chương trình bi u di n 134 6.8 ói phần mềm xây dựng phân lồi P YL P 135 6.9 Bài tập chương 136 hương Xây dựng phân loài theo phương pháp khoảng cách 139 7.1 iới thiệu 139 7.2 Tiêu chuẩn khoảng cách bình phương nh nh t (least squares) 141 7.3 Phương pháp 7.4 Bài tập chương 155 eighbor-Joining 145 Giáo trình Nhập mơn tin sinh học Draft version - Confidential hương Mơ hình biến đổi nuclêơtít 158 8.1 t v n đề 158 8.2 Mơ hình biến đổi nuclêơtít 159 8.2.1 Mơ hình hóa q trình biến đổi nuclêơtít 159 8.3 Một số mơ hình biến đổi nuclêơtít 163 8.3.1 Mơ hình biến đổi nuclêơtít ukes-Cantor 163 8.3.2 Mơ hình biến đổi nuclêơtít Kimura (K8 ) 164 8.3.3 Mơ hình biến đổi nuclêơtít F81 166 8.3.4 Mơ hình biến đổi nuclêơtít 8.3.5 Mơ hình biến đổi KY85 167 T 168 8.4 Ước lư ng khoảng cách di truyền 171 8.5 Bài tập chương 173 hương Mơ hình biến đổi axít amin 176 9.1 iới thiệu 176 9.2 Phương pháp đếm 177 9.3 Phương pháp cực đại h p lý 183 9.4 Một số mơ hình biến đổi axít amin thường dùng 187 9.4.1 BLOSUM 187 9.4.2 Mơ hình biến đổi axít amin W 188 9.4.3 Mơ hình biến đổi axít amin L 189 9.4.4 Ma trận biến đổi axít amin FL 190 9.4.5 Ma trận biến đổi axít amin MtMam 191 9.5 Bài tập chương 192 hương Xây dựng phân loài theo tiêu chuẩn cực đại h p lý 194 10.1 iới thiệu toán 194 10.2 Tính giá trị h p lý 195 10.2.1 Tính giá xác su t với có đ nh 195 10.2.2 Tính xác su t với tổng quát 196 Giáo trình Nhập môn tin sinh học Draft version - Confidential 10.3 Duyệt tồn tìm theo tiêu chuẩn cựu đại h p lý 198 10.4 Phương pháp gần đ ng 199 10.5 Phần mềm xây dựng phát sinh loài theo tiêu chuẩn ML 200 10.5.1 IQPNNI 200 10.5.2 PhyML 204 10.6 Bài tập chương 207 hương 11 Prơtêin chuẩn đốn c u tr c bậc cao Prôtêin 209 11.1 iới thiệu 209 11.2 huẩn đoán c u tr c bậc hai prôtêin 210 11.3 Phương pháp hou-Fasman 212 11.4 Phương pháp 11.5 OR 218 ác phương pháp khác 222 11.5.1 Phương pháp mạng nơron P D 222 11.5.2 Phương pháp P D T 224 11.6 gân hàng liệu prôtêin PDB (Protein Data Bank) 226 11.7 Bài tập chương 227 Giáo trình Nhập mơn tin sinh học Draft version - Confidential Danh sách ký hiệu kí tự viết tắt Tập kí tự, ví dụ tập nuclêơtít Chuỗi nuclêơtít/chuỗi axít amin Tập đa chuỗi Số lư ng chuỗi ộ dài đa hàng Cây phân loài ML ực đại h p lý (maximum likelihood) MP ực ti u số lư ng biến đổi (maximum parsimony) Ma trận tốc độ biến đổi tức nuclêơtít hay axít amin Véctơ tần số xu t nuclêơtít hay axít amin Ma trận hệ số hốn đổi (exchangeability matrix) nuclêơtít hay axít amin Ma trận khoảng cách chuỗi Giáo trình Nhập mơn tin sinh học Draft version - Confidential Một số thuật ngữ thường dùng Bioinformatics Tin sinh học Molecular biology Sinh học phân tử Nucleic acid Axít nuclêic DNA ADN RNA ARN Nucleotide Nuclêơtít Protein Prơtêin Amino acid Axít amin Gene Gen Genome ệ gen Chromosome Nhi m sắc th Accession number Số hiệu truy cập Substitution Thay thế/biến đổi Mutation Biến đổi Transcription Phiên mã Translation Dịch mã Maximum likelihood ực đại h p lý Maximum parsimony ực ti u số lư ng biến đổi Phylogenetic tree Cây phân lồi Model Mơ hình Sequence Pairwise alignment huỗi Sắp hàng hai chuỗi/bắt c p hai chuỗi (động từ) chuỗi hàng/bắt c p (danh từ) Giáo trình Nhập mơn tin sinh học Draft version - Confidential Local pairwise alignment Sắp hàng/bắt c p địa phương hai chuỗi Multiple sequence alignment Sắp hàng đa chuỗi (động từ) a chuỗi hàng/đa hàng (danh từ) Rate matrix Ma trận tốc độ biến đổi Instantaneous substitution rate matrix Ma trận tốc độ biến đổi tức Exchangeability matrix Ma trận hệ số hốn đổi Frequency vector Véctơ tần số xu t Distance matrix Ma trận khoảng cách Giáo trình Nhập mơn tin sinh học Draft version - Confidential Giới thiệu Tin sinh học lĩnh vực khoa học có tính ứng dụng cao sống, đ c biệt lĩnh nông nghiệp vực y-dư c Tin sinh học lĩnh vực khoa học liên ngành, chủ đạo sinh học phân tử tin học Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phương pháp c ng kĩ thuật tin học đ giải toán sinh học phân tử iáo trình đư c thiết kế cho sinh viên (học viên cao học) ngành công nghệ thông tin công nghệ sinh học iáo trình c ng cung c p kiến thức bổ ích cho người làm việc liên quan đến lĩnh vực công nghệ sinh học Việt am iáo trình ch u cầu người đọc có kiến thức hi u biết r t tin học, sử dụng máy tính, mạng internet làm đư c việc trên, giáo trình tập trung vào giới thiệu khái niệm, toán quan trọng sinh học phân tử c ng tin sinh học ác phương pháp đ giải tốn tin sinh học đư c trình bày chi tiết kèm theo ví dụ minh họa đ người đọc có th d dàng hi u mà không yêu cầu kiến thức chuyên sâu sinh học phân tử hay tin học Giáo trình c ng tập trung giới thiệu phương pháp phần mềm đại nh t đ giải toán nêu, qua gi p người đọc có khả sử dụng phương pháp c ng phần mềm cách hiệu nh t đ phân tích liệu iáo trình đư c chia thành 11 chương với nội dung từ d đến khó đư c tổ chức sau: hương trình bày khái niệm sinh học phân tử nuclêơtít, axít amin, chuỗi nuclêơtít, chuỗi axít amin, nhi m sắc th , hệ gen, đ c biệt trình biến đổi nuclêơtít hương gi p cho người đọc, đ c biệt sinh viên công nghệ thông tin, làm quen với sinh học phân tử tin sinh học cách đơn giản nhanh chóng hương giới thiệu với người đọc hệ thống thông tin liệu sinh học phân tử, tài liệu tham khảo, c ng công cụ phân tích liệu đư c sử dụng phổ biến giới hương đ c biệt tập trung vào giới thiệu hệ thống thông tin công nghệ sinh học oa Kỳ (NCBI), qua gi p nguời đọc Giáo trình Nhập mơn tin sinh học Draft version - Confidential hi u có khả khai thác liệu từ nh t B cách nhanh chóng hiệu hương trình bày toán quan trọng sinh học phân tử tin sinh học hàng hai chuỗi Thuật toán quy hoạch động đ giải tốn đư c trình bày chi tiết với ví dụ minh họa gi p người đọc hi u toán phương pháp giải cách nhanh chóng xác hương trình bày tốn tìm kiếm chuỗi giống sở liệu Thuật tốn (chương trình phần mềm) phổ biến nh t, BL ST, đư c trình bày hướng dẫn sử dụng đ người đọc có th hi u thực hành cách nhanh chóng việc tìm kiếm chuỗi giống cao sở liệu hương trình bày tốn hàng đa chuỗi Các thuật toán đ giải tốn đư c trình bày tiết ở phần đầu chương Phần cuối chương giới thiệu cho người đọc thuật tốn chương trình phần mềm (hướng dẫn sử dụng) tốt nh t đ giải tốn hương trình bày tốn xây dựng phân lồi ây tốn quan trọng gi p ch ng ta hi u mối quan hệ c ng q trình tiến hóa lồi sinh vật hương c ng trình bày cho người đọc tiêu chuẩn cực ti u số lư ng biến đổi đ chọn phân loài tốt nh t ác thuật toán với ví dụ minh họa gi p người đọc d dàng nắm vững đư c thuật toán Phần cuối chương giới thiệu cho người đọc gói phần mềm phổ biến, P YL P, đ xây dựng phân loài theo tiêu chuẩn cực ti u số lư ng biến đổi hương trình bày phương pháp xây dựng phân loài dựa vào ma trận khoảng cách loài Phương pháp phổ biến nh t, eighbor- oining, đư c trình bày minh họa cụ th chương hương trình bày mơ hình biến đổi nuclêơtít sử dụng chuỗi Markov ác mơ hình biến đổi nuclêơtít khác đư c giới thiệu đ người đọc hi u có th sử dụng mơ hình vào phân tích liệu nuclêơtít cách h p lý nh t hương trình bày mơ hình biến đổi axít amin hương tập trung trình bày phương pháp ước lư ng mơ hình biến đổi axít amin từ tập liệu axít amin đầu vào ác mơ hình biến đổi axít amin quan trọng đư c giới thiệu đ người đọc hi u có th sử dụng mơ hình vào phân tích axít amin cách h p lý nh t hương 10 trình bày phương pháp xây dựng phân loài theo tiêu chuẩn cực đại h p lý Phần đầu chương tập trung vào cách tính giá trị h p lý cho phân loài đa chuỗi hàng Phần cuối chương giới Giáo trình Nhập mơn tin sinh học 10 Draft version - Confidential  Bước 5: Các axít amin khơng thuộc c u trúc H, E, T đư c gọi khơng xác định c u trúc kí hiệu C Thuật toán 11.1: Thuật toán hou-Fasman chuẩn đoán c u tr c bậc hai prôtêin từ c u tr c bậc Thuật tốn hou-Fasman có độ phức tạp th p có th làm việc với chuỗi axít amin dài gười dùng có th sử dụng chương trình trực tuyến đ chuẩn đốn c u tr c bậc hai prơtêin thuật tốn hou-Fasman Hình 11.5 minh họa việc thực thuật tốn hou-Fasman trực tuyến từ trang web http://www.biogem.org/tool/chou-fasman/ Hình 11.5: Chạy thuật toán Chou-Fasman trực tuyến w bsit http://www.biogem.org/cgi-bin/cho-fas.pl Giáo trình Nhập mơn tin sinh học 217 Draft version - Confidential 11.4 Phương pháp G Phương pháp hou-Fasman xác định c u tr c bậc hai axít amin vị trí ch dựa vào xu hướng axít amin đó, mà khơng thực quan tâm đến axít amin xung quanh arnier, ibrat obson đề xu t phương pháp cải tiến, , phương pháp hou-Fasman đ chuẩn đoán c u tr c bậc hai prôtêin [15] i m khác biệt phương pháp so với phương pháp hou-Fasman c u tr c bâc hai axít amin vị trí thứ đư c chuẩn đốn dựa vào mối quan hệ với 16 axít amin khác vị xung quanh i-8 W i-7 R i-6 Q i-5 I i-4 C i-3 T i-2 V i-1 N i A i+1 F i+2 L i+3 C i+4 E i+5 H i+6 S Bảng 11.3: Cấu trúc bậc hai vị trí chuẩn đốn dựa vào xung quanh vị trí Phương pháp prơtêin: i+7 Y i+8 K axít amin tiến hành bước sau đ chuẩn đốn c u trúc bậc hai Bước : Tính thơng tin bi u di n mối quan hệ axít amin c u tr c bậc hai theo công thức sau: l | Công thức 11.2 ] | xác su t có điều kiện quan sát th y c u tr c bậc hai amin có trạng thái ; xác su t xu t c u tr c bậc hai Ta có th th y xác su t điều kiện sau: với | axít có th đư c tính từ xác su t chung | Công thức 11.3 xác xu t chung axít amin xác su t xu t axít amin Tức là, thông tin c u tr c bậc hai ; cịn có th tính theo cơng thức sau: l Cơng thức 11.4 có th đư c ước lư ng cách đơn giản từ sở liệu chứa chuỗi axít amin c u tr c bậc hai ch ng ụ th là:  ⁄ , số lần xu t axít amin c u tr c bậc hai ; số lư ng axít amin sở liệu  , số lần xu t axít amin sở liệu Giáo trình Nhập mơn tin sinh học 218 Draft version - Confidential  , trong sở liệu Tức là, thông tin số lần xu t c u tr c bậc hai có th tính theo cơng thức sau: Cơng thức 11.5 l Bước 2: Tính thơng tin khác biệt hai khác axít amin ) c u tr c l Xét đoạn axít amin khác biệt ) c u tr c bậc hai chuỗi đư c tính sau: l axít amin Cơng thức 11.6 l tập c u tr c bậc hai khác với tập c u tr c với c u tr c bậc Ví dụ, gồm axít amin liên tiếp, thơng tin với c u tr c bậc hai khác vị trí Cơng thức 11.7 l xác su t chung c u tr c bậc hai vị trí thứ đoạn Số lư ng đoạn khác với độ dài , việc ước lư ng ) từ sở liệu khơng xác Phương pháp đề xu t cách ước lư ng thơng tin khác biệt dựa vào 17 axít amin xung quanh vị trí sau: ∑ ( ) Cơng thức 11.8 Bước : huẩn đốn c u tr c bậc hai cho vị trí chuỗi axít amin Với vị trí chuỗi axít amin, tính độ khác biệt thông tin cho bốn loại c u tr c khác nhau:     h h cho h ấ ấ ấ ấ h li h il Giáo trình Nhập mơn tin sinh học 219 Draft version - Confidential u tr c bậc hai có giá trị khác biệt thông tin lớn nh t đư c chọn c u tr c bậc hai axít amin vị trí thứ ụ th , c u tr c bậc hai axít amin vị trí nếu: m Cơng thức 11.9 Ví dụ, với chuỗi axít amin phía dưới: >sp|O15105|SMAD7_HUMAN Mothers against decapentaplegic homolog OS=Homo sapiens GN=SMAD7 PE=1 SV=1 MFRTKRSALVRRLWRSRAPGGEDEEEGAGGGGGGGELRGEGATDSRAHGAGGG GPGRAGCCLGKAVRGAKGHHHPHPPAAGAGAAGGAEADLKALTHSVLKKLKER QLELLLQAVESRGGTRTACLLLPGRLDCRLGPGAPAGAQPAQPPSSYSLPLLLCKV FRWPDLRHSSEVKRLCCCESYGKINPELVCCNPHHLSRLCELESPPPPYSRYPMDF LKPTADCPDAVPSSAETGGTNYLAPGGLSDSQLLLEPGDRSHWCVVAYWEEKTR Kết chạy thuật toán Bảng 11.4 với vị trí chuỗi Vị trí Axít amin M 144* F 154* R 146* T 113* K 84* R 45* S 53* A 72* L 94* 10 V 102* 11 R 91 12 R 95 13 L 88 14 W 67 15 R 19 16 S -35 Giáo trình Nhập mơn tin sinh học -53 -117 -168 -194 -223 -135 -10 65 102* 95* 89* 79* 62* 10 220 -140 -158 -122 -57 -12 39 43 23 -73 -158 -123 -71 -52 -67 23 69* đư c mô tả chi tiết -102 -110 -105 -75 -63 -60 -57 -90 -122 -175 -167 -157 -138 -127 -110 -80 u tr c bậc hai H H H H H H H H H H E E E E E T Draft version - Confidential 17 R -84 -62 18 A -199 -210 19 P -161 -268 20 G -176 -303 21 G -115 -273 22 E 12 -169 23 D 80* -141 24 E 160* -140 25 E 168* -71 26 E 144* -13 27 G 55 -7 28 A -9 -11 29 G -123 -18 30 G -194 -24 31 G -265 -18 32 G -280 -38 33 G -292 -39 34 G -245 -12 35 G -195 52 36 E -79 137* 37 L -34 184* 38 R -10 112* 39 G -45 40 E -31 41 G -24 -73 42 A 29* -39 43 T 65* 17 44 D 108* 33 45 S 93* -3 46 R 102* 47 47 A 43 108* 48 H -35 119* 49 G -177 95* 50 A -232 84 Bảng 11.4: Kết chạy thuật toán G Giáo trình Nhập mơn tin sinh học 118* -18 T -44 127* C 205* 70 T 199* 120 T 127 165* C 37 125* C 30 H -20 -65 H 23 -130 H 87 -140 H 68* -100 T 50* -30 T 105* T 130* 85 T 122 138* C 125 168* C 120 178* C 72 160* C -5 120* C -48 35 E -102 -55 E -5 -87 E 33* -60 T 99* -35 T 45* -10 T -52 20 H -62 -7 H -30 -60 H -31 -70 H 13 -80 H 13 -72 E 54 -40 E 78 20 E 120* 80 T với 50 vị trí chuỗi 221 Draft version - Confidential ộ xác thuật tốn nằm khoảng từ %-65% cao độ xác thuật tốn hou-Fasman gười dùng có th sử dụng thuật tốn trực tuyến từ trang web http://cib.cf.ocha.ac.jp/bitool/GOR/ Hình 11.6 minh họa cách chạy trực tuyến chương trình Hình 11.6: Chạy trực tuyến chương trình GOR 11.5 Các phương pháp khác ác phương pháp khác đư c đề xu t đ giải toán chuẩn đốn c u tr c bậc hai prơtêin Một số phương pháp cho kết tốt đư c sử dụng rộng rãi là: phương pháp mạng ơron P D (Profile network from eiDelberg), phương pháp P D T 11.5.1 Phương pháp mạng nơron PHD Phương pháp mạng ơron, P D (Profile network from eiDelberg), ost Sander đề xu t phương pháp học máy tốt nh t đ chuẩn Giáo trình Nhập môn tin sinh học 222 Draft version - Confidential đốn c u tr c bậc hai prơtêin P D xây dựng mạng nơron nhiều tầng đ học mẫu từ tập liệu hu n luyện chuỗi axít amin c u tr c bậc hai tương ứng ch ng Sau đư c hu n luyện, P D có khả chuẩn đốn c u tr c bậc hai prôtêin dựa vào mẫu đư c học ộ xác trung bình P D vào khoảng 72% chương trình đư c sử dụng rộng rãi nh t đ chuẩn đoán c u tr c bậc hai prơtêin Hình 11.7 c u tr c mạng nơron phương pháp P D ost Sander đề xu t đ học chuẩn đốn c u tr c bậc hai cua prơtêin Hình 11.7: Cấu trúc mạng nơron phương pháp PHD gười dùng có th sử dụng hệ thống trực tuyến PredicProtein địa ch www.predictprotein.org đ chuẩn đoán c u tr c bậc hai prôtêin sử dụng phương pháp P D có th sử dụng hệ thống, người dùng phải đăng kí kích hoạt tài khoản email Sau kích hoạt tài khoản, người dùng có th truy cập vào hệ thống tiến hành chuẩn đoán c u tr c bậc hai prôtêin cách nhập vào chuỗi axít amin theo đinh dạng F ST n nut “PredictProtein” đ tiến hành chạy chương trình Giáo trình Nhập mơn tin sinh học 223 Draft version - Confidential Hình 11.8 minh họa cách nhập chuỗi axít amin cần chuẩn đoán c u tr c bậc hai vào hệ thống PredictProtein đ chạy Kết chuẩn đoán đư c trả lại cho người dùng nhiều ki u khác nhau: visual, html, text, xml, fasta Hình 11.8: Sử dụng hệ thống Pr dictProtein để chuẩn đoán cấu trúc bậc hai prôtêin b ng phương pháp PHD 11.5.2 Phương pháp P DAT P D T phương pháp chuẩn đoán c u tr c bậc hai prôtêin tốt nh t P D T thuộc vào lớp phương pháp chuẩn đoán dựa vào c u tr c bậc hai biết hàng xóm gần nh t (nearest neighbor methods) tập liệu hu n luyện ộ xác trung bình phương pháp P D T vào khoảng từ %-75% gười dùng có th sử dụng chương trình P D T trực tuyến cổng thông tin Mobyle@Pasteur (http://mobyle.pasteur.fr/cgi-bin/portal.py? #forms:: predator) gười dùng có th nhập liệu đầu vào theo nhiều cách khác nhau, ví dụ dạng FASTA tiến hành chạy chương trình chuẩn đốn Hình 11.9 minh họa cách nhập liệu chạy chương trình P D T hương trình chuẩn đoán thị kết chuẩn đoán cho người dùng Người dùng c ng có th tài kết máy tính dạng file văn Giáo trình Nhập mơn tin sinh học 224 Draft version - Confidential Hình 11.9: Sử dụng chương trình trực tuyến P DAT trúc bậc hai prơtêin Giáo trình Nhập mơn tin sinh học 225 để chuẩn đoán cấu Draft version - Confidential 11.6 Ngân hàng liệu prôtêin PDB (Protein Data Bank) PDB (Protein Data Bank) ngân hàng liệu chuyên biệt đư c thành lập vào năm 71 đ lưu giữ thông tin chuỗi prôtêin, đ c biệt c u tr c c ng chức ch ng gười dùng có th truy cập PDB từ địa ch trang web www.pdb.org (xem Hình 11.10) PDB lưu giữ c u tr c prơtêin Hình 11.10: Ngân hàng liệu prơtêin (Protein Data Bank) gười dùng có th tiến hành tìm kiếm thơng tin prơtêin mà họ quan tâm từ ngân hàng liệu prôtêin dựa vào:    Số hiệu chuỗi prôtêin PDB Tên chuỗi prôtêin Tên tác giả PDB c ng cho phép người dùng giới hạn việc tìm kiếm buộc khác nhằm tìm kết xác nh t Giáo trình Nhập mơn tin sinh học 226 Draft version - Confidential 11.7 Bài tập chương Trình bày c u tr c khác prơtêin Trong c u đó, c u tr c xác định đến chức chuỗi prơtêin Trình bày ki u c u tr c bậc hai prơtêin Tìm ví dụ chuỗi axít amin c u tr c bậc hai tương ứng Trình bày cách tính bảng xu hướng cho axít amin khác phương pháp hou-Fasman đ chuẩn đoán c u tr c bậc hai chuỗi protein từ c u tr c bậc Dựa vào bảng xu hướng axít amin đư c tính hou-Fasman, xác định:  hững axít amin có khả cao thuộc c u tr c  hững axít amin có khả thuộc c u tr c  hững axít amin có khả khơng thuộc thuộc c u tr c  hững axít amin có khả cao khơng thuộc thuộc c u tr c Dựa vào bảng xu hướng axít amin đư c tính hou-Fasman, xác định:  hững axít amin có khả cao thuộc c u tr c h  hững axít amin có khả thuộc c u tr c h  hững axít amin có khả không thuộc thuộc c u tr c h  hững axít amin có khả cao khơng thuộc thuộc c u tr c h Dựa vào bảng xu hướng axít amin đư c tính hou-Fasman, xác định:  hững axít amin có khả thuộc c u tr c h li khơng thuộc h  hững axít amin có khả thuộc c u tr c h khơng thuộc h li  hững axít amin có khả thuộc c u tr c h li h  hững axít amin có khả khơng thuộc c u tr c h li hay h Trình bày phương pháp hou-Fasman đ chuẩn đoán c u tr c bậc hai prơtêin dựa chuỗi axít amin ho ví dụ minh họa q trình chuẩn đốn sử dụng phương pháp Giáo trình Nhập mơn tin sinh học 227 Draft version - Confidential Trình bày phương pháp hou-Fasman đ chuẩn đoán c u tr c prơtêin dựa chuỗi axít amin ho ví dụ minh họa q trình chuẩn đoán c u tr c sử dụng phương pháp ho chuỗi axít amin ãy áp dụng phương pháp hou-Fasman đ chuẩn đoán c u tr c bậc hai chuỗi axít amin 10 Viết chương trình chuẩn đốn c u tr c bậc hai prơtêin từ chuỗi axít amin phương pháp hou-Fasman Dữ liệu đầu vào từ file văn “chou fasman.in” chứa chuỗi axít amin theo định chuẩn F ST Kết c u tr c bậc hai chuỗi axít amin đầu vào đư c ghi file văn “chou fasman” chứa xâu kí tự mơ tả c u tr c bậc hai chuẩn đoán đư c Ví dụ: chou_fasman.in >example axít amin sequence chou_fasman.out EEETHHCCCCC MFRTKRSALVR 11 Sử dụng phương pháp hou-Fasman trực tuyến đ chuẩn đoán c u tr c bậc hai cho chuỗi axít amin = “MF TK S LV LW S P D ” 12 Trình bày tư tưởng phương pháp đ chuẩn đoán c u tr c bậc hai prơtêin dựa chuỗi axít amin cách tính hàm thơng tin cho c u tr c bậc hai axít amin 13 Sử dụng phương pháp trực tuyến đ chuẩn đoán c u tr c bậc hai cho chuỗi axít amin = “MF TK S LV LW S P D ” So sánh kết thu đư c phương pháp với kết thu đư c sử dụng phương pháp hou-Fasman 14 Sử dụng phương pháp P D trực tuyến đ chuẩn đoán c u tr c bậc hai cho chuỗi axít amin = “MF TK S LV LW S P D AG” So sánh kết thu đư c phương pháp P D với kết thu đư c sử dụng phương pháp hou-Fasman, phương pháp Giáo trình Nhập môn tin sinh học 228 Draft version - Confidential 15 Sử dụng phương pháp P D T trực tuyến đ chuẩn đoán c u tr c bậc hai cho chuỗi axít amin = “MF TK S LV LW S P D ” So sánh kết thu đư c phương pháp P D với kết thu đư c sử dụng phương pháp hou-Fasman, phương pháp , phương pháp P D 16 Tìm hi u c u tr c bậc một, c u tr c bậc hai, c u tr c bậc ba, thông tin liên quan đến prôtêin myoglobin người từ ngân hàng liệu prơtêin PDB Giáo trình Nhập mơn tin sinh học 229 Draft version - Confidential Tài liệu tham khảo [ C Darwin, "The Origin of Species.," Hayes Barton Press., 1928 1] 2] [ Needleman, Saul B.& Wunsch, Christian D., "A general method applicable to the search for similarities in the amino acid sequence of two proteins," Journal of Molecular Biology, no 48, p 443–453, 1970 3] [ Altschul, S; Gish, W; Miller, W; Myers, E; Lipman, D, "Basic local alignment search tool," Journal of Molecular Biology, no 215 (3), p 403–410, 1990 4] [ Thompson, J D.; Higgins, D G.; Gibson, T J., "CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice," no 22 (22), p 4673–4680., 1994 5] [ Edgar, R.C , "MUSCLE: multiple sequence alignment with high accuracy and high throughput," no 32(5):1792-179, 2004 6] [ J Felsenstein, Inferring Phylogenies, Sunderland: Sinauer Asociates, Inc., 2004 7] [ V A ( Salemi M., The Phylogenetics Handbook A Practical Approach to DNA and Protein Phylogeny, Cambridge: Cambridge University Press, Cambridge, 2003 8] [ D R Robinson and L R Foulds, "Comparison of phylogenetic trees," no volume 53, pages 131-147, 1981 9] [ W M Fitch, "Toward defining the course of evolution: minimum change for a specified tree topology.," no 20 (4): 406-416, 1971 [ Saitou N, Nei M, "The neighbor-joining method: a new method for 10] reconstructing phylogenetic trees," no volume 4, issue 4, pp 406-425, 1987 [ Richard Durbin, Sean R Eddy, Anders Krogh, Graeme Mitchison, 11] Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids, Cambridge: Cambridge University Press, 1998 [ Dayhoff, M O.; Schwartz, R M.; Orcutt, B C , "A model of evolutionary Giáo trình Nhập mơn tin sinh học 230 Draft version - Confidential 12] change in proteins," Atlas of Protein Sequence and Structure , no (3): 345–352., 1978 [ Cao, Y et al., " Conflict amongst individual mitochondrial proteins in 13] resolving the phylogeny of eutherian orders," no 15:1600-1611, 1998 [ Chou PY, Fasman GD, "Prediction of the secondary structure of proteins 14] from their amino acid sequence," no 47:45-148., (1978 [ G J R B Garnier J, " GOR method for predicting protein secondary 15] structure from amino acid sequence.," Methods Enzymol , Vols 266:540-53, 1996 [ Branden, Carl, and John Tooze, Introduction to Protein Structure, 16] Garland Publishing Inc., 1999 Giáo trình Nhập mơn tin sinh học 231 ... chủ đạo sinh học phân tử tin học Về bản, tin sinh học tập trung vào nghiên cứu áp dụng phương pháp c ng kĩ thuật tin học đ giải tốn sinh học phân tử iáo trình đư c thiết kế cho sinh viên (học viên... trình Nhập mơn tin sinh học Draft version - Confidential Giới thiệu Tin sinh học lĩnh vực khoa học có tính ứng dụng cao sống, đ c biệt lĩnh nông nghiệp vực y-dư c Tin sinh học lĩnh vực khoa học. .. n lĩnh vực tin sinh học Việt am; c ng trang bị kiến thức tin sinh học quan trọng cho người làm việc liên quan đến lĩnh vực công nghệ sinh học Việt am Giáo trình Nhập mơn tin sinh học 11 Draft

Ngày đăng: 06/12/2022, 07:08

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan