Các phương pháp xây dựng ma trận biến đổi axít amin

105 141 0
Các phương pháp xây dựng ma trận biến đổi axít amin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẶNG CAO CƯỜNG CÁC PHƯƠNG PHÁP XÂY DỰNG MA TRẬN BIẾN ĐẶĐỔING AXÍTTHỊHUAMINHIỀ N LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN I TỐN NỘI SUY VÀ MẠNG NƠRON RBF Hà Nội – 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐẶNG CAO CƯỜNG CÁC PHƯƠNG PHÁP XÂY DỰNG MA TRẬN BIẾN ĐỔI AXÍT AMIN Chuyên ngành: Khoa học Máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Sỹ Vinh TS Lê Sĩ Quang Hà Nội – 2013 Lời cam đoan Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa cơng bố cơng trình khác Tác giả Lời cảm ơn Luận án thực Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, hướng dẫn TS Lê Sỹ Vinh TS Lê Sĩ Quang Tơi xin bày tỏ lòng biết ơn sâu sắc tới TS Lê Sỹ Vinh, TS Lê Sĩ Quang giáo sư Oliver Gascuel, người có định hướng giúp tơi thành cơng việc nghiên cứu Các thầy động viên bảo giúp tơi vượt qua khó khăn để tơi hồn thành luận án Tơi chân thành cảm ơn thầy Hoàng Xuân Huấn, thầy cho nhiều kiến thức quý báu nghiên cứu khoa học sống Những bảo quý giá thầy giúp tơi hồn thành tốt luận án Tôi xin cảm ơn tới Thầy, Cô thuộc Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tạo điều kiện thuận lợi giúp trình làm nghiên cứu sinh Cuối cùng, tơi xin gửi lời cảm ơn sâu sắc tới gia đình bạn bè, người cho điểm tựa vững để tơi có thành cơng ngày hơm MỤC LỤC Lời cam đoan Lời cảm ơn MỤC LỤC Danh mục ký hiệu chữ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị 12 Danh mục thuật toán 14 MỞ ĐẦU 15 Chương BÀI TỐN ƯỚC LƯỢNG SỰ BIẾN ĐỔI CỦA AXÍT AMIN 19 1.1 Giới thiệu chung 19 1.1.1 ADN axít amin 19 1.1.2 Các phép biến đổi chuỗi axít amin 21 1.1.3 Sắp hàng đa chuỗi axít amin 22 1.1.4 Cây phân loài 23 1.2 Mơ hình hố q trình biến đổi axít amin 24 1.2.1 Sự khác biệt hai chuỗi tương đồng 24 1.2.2 Mô hình Markov cho q trình biến đổi axít amin 26 1.3 Bài tốn ước lượng mơ hình biến đổi axít amin 29 1.4 Các phương pháp ước lượng mơ hình biến đổi axít amin 31 1.4.1 Phương pháp đếm 31 1.4.2 Phương pháp cực đại khả (maximum likelihood) 34 1.5 Xây dựng phân loài phương pháp ML 36 1.6 Các phương pháp so sánh hai mơ hình 38 1.6.1 So sánh việc xây dựng ML 38 1.6.2 So sánh cấu trúc 38 1.6.3 So sánh độ tương quan Pearson 39 1.7 Kết luận chương 39 Chương PHƯƠNG PHÁP ƯỚC LƯỢNG NHANH MƠ HÌNH BIẾN ĐỔI AXÍT AMIN BẰNG PHƯƠNG PHÁP CỰC ĐẠI KHẢ NĂNG 41 2.1 Giới thiệu 41 2.2 Ước lượng mơ hình phương pháp cực đại khả 41 2.2.1 Mô tả phương pháp 41 2.2.2 Phân tích phương pháp 42 2.3.Các phương pháp chia tách liệu 44 2.3.1 Phương pháp chia tách ngẫu nhiên 44 2.3.2 Phương pháp chia tách dựa theo cấu trúc 45 2.3.3 Nhận xét phương pháp chia tách hàng 47 2.4 Kết thực nghiệm 48 2.4.1 Dữ liệu kiểm tra 48 2.4.2 Kết với liệu vi rút cúm 49 2.4.3 Kết với liệu Pfam 50 2.5 Kết luận chương 52 Chương XÂY DỰNG MƠ HÌNH BIẾN ĐỔI ĐA MA TRẬN 54 3.1 Tính khơng đồng tốc độ biến đổi theo vị trí 54 3.2 Mơ hình biến đổi đa ma trận 55 3.3.Thuật tốn ước lượng mơ hình đa ma trận 58 3.4 Kết thực nghiệm 61 3.4.1 Dữ liệu kiểm tra 61 3.4.2 Tiêu chuẩn đánh giá AIC 61 3.4.3 So sánh kết mơ hình 62 3.4.4 So sánh dung lượng nhớ sử dụng thời gian chạy 66 3.5 Kết luận chương 66 Chương HỆ THỐNG ƯỚC LƯỢNG MƠ HÌNH TỰ ĐỘNG 68 4.1 Mở đầu 68 4.2 Phương pháp ước lượng nhanh 68 4.3 Kết thực nghiệm 70 4.3.1 Dữ liệu kiểm tra 70 4.3.2 Kết với liệu Pfam 70 4.3.3 Kết với liệu FLU 71 4.4 Hệ thống ước lượng mơ hình tự động 73 4.5 Kết luận chương 74 Chương MƠ HÌNH BIẾN ĐỔI AXÍT AMIN CHO VI RÚT CÚM 76 5.1 Giới thiệu vi rút cúm cần thiết mơ hình biến đổi axít amin riêng biệt cho loài 5.2 Ước lượng mơ hình FLU 76 77 5.3 Kết thực nghiệm 77 5.3.1 Phân tích đánh giá mơ hình 78 5.3.2 So sánh hiệu FLU với mơ hình khác 83 5.3.3 Tính bền vững mơ hình 87 5.4 Kết luận chương 88 KẾT LUẬN 89 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 91 TÀI LIỆU THAM KHẢO 92 Danh mục ký hiệu chữ viết tắt l Chiều dài hàng m Số lượng chuỗi có hàng N Số lượng hàng tập hàng S Tậ hợ 20 axít amin qij πi Tốc độ biến đổi tức thời axít amin i axít amin j Tần số axít amin i rij Hệ số hốn đổi axít amin i axít amin j α Tham số định hình phân phối gamma A Tập hàng D Một sắ hàng đa chuỗi Da Sắ hàng đa chuỗi thứ a tập hàng Di Vị trí thứ i sắ hàng đa chuỗi D Q Ma trận tốc độ biến đổi tức thời Π Véc tơ tần số 20 axít amin R Ma trận hệ số hốn đổi T Cây hân loài tương ứng với hàng D Qk Ma trận thứ k mô hình đa ma trận wk Trọng số ma trận Qk ρk Tốc độ ma trận Qk EM Thuật toán cực đại hoá kỳ vọng (expectation maximization) ML Phương há cực đại khả (maximum likelihood) STT Số thứ tự RF Khoảng cách Robinson-Fould st nd th Bảng 5.5: So sánh xây dựng FLU với 14 mơ hình khác Các cột , , … 15 cho biết số lượng hàng mà mơ hình đứng thứ hạng tương ứng tổng số 15 mơ hình thử nghiệm Ví dụ, mơ hình FLU đứng thứ hạng với 2499, đứng vị trí thư hai với 482 tổng số 3970 hàng Cột LogLK/vị trí cho biết giá trị trung bình log-likelihood vị trí mơ hình Mơ hình FLU HIVb JTT HIVw LG CpREV VT WAG Dayhoff RtREV Blosum62 MtREV DCMut MtMam MtArt 1st 2nd 3rd 4th 5th 6th 7th 8th 9th 2499 874 309 176 88 13 1 1 0 0 482 871 913 1230 152 54 54 192 11 0 489 1113 1203 307 264 111 223 195 39 11 14 0 170 411 1350 357 633 433 355 137 50 24 46 0 119 157 111 223 562 1341 639 591 90 82 47 0 101 109 65 267 415 813 1160 643 108 12 181 93 51 157 13 287 333 557 953 790 259 68 380 120 22 91 195 361 281 300 1189 425 233 545 317 12 53 271 221 179 224 183 712 574 1029 498 10 85 th 10 12 28 208 406 130 55 44 548 1296 522 10 701 10 th 11 13 105 64 433 48 1523 577 536 25 615 26 th 12 385 95 10 0 163 1167 617 23 1463 40 th 13 0 0 0 18 12 18 3158 30 402 325 th 14 0 0 0 0 20 12 17 626 20 2528 747 th 15 0 0 0 0 123 946 2891 LogLK/vị trí -4.621 -4.664 -4.667 -4.684 -4.701 -4.695 -4.699 -4.703 -4.743 -4.745 -4.731 -4.914 -4.743 -4.944 -4.962 Cây phân lồi xây dựng với FLU có giá trị log-likelihood trung bình cao nhất, cao khoảng 0,043 điểm log-likelihood so với mơ hình tốt thứ hai HIVb (xem thêm Bảng 5.6) Trong tổng số 3970 có 84,5% xây dựng với FLU tốt (theo giá trị log-likelihood) xây dựng với mơ hình lại Bảng 5.6: So sánh đơi FLU với mơ hình HIVb, HIVw, JTT LG M1 M2: trung bình log-likelihood khác xây dựng với M1 M2, giá trị dương (âm) có nghĩa M1 tốt (kém hơn) so với M2 M1> M2: số hàng tổng số 3970 hàng mà M1 tốt M2 M2> M1: số lượng hàng tổng số 3970 hàng mà M2 tốt M1 M1 M2 FLU HIVb FLU JTT FLU HIVw FLU LG M1 - M2 M1 > M2 M2 > M1 0.043 0.046 0.063 0.080 3356 3357 3371 3367 614 613 599 603 5.3.2.3 Phân tích đánh giá Để đo khác biệt cấu trúc hai cây, sử dụng khoảng cách Robinson-Fould (RF) [51] Khoảng cách RF cấu trúc hai tỷ lệ số phân vùng có hai tổng số phân vùng hai Như vậy, khoảng cách RF có khoảng giá trị từ 0,0 đến 1,0 Giá trị RF nhỏ cấu trúc giống So sánh xây dựng FLU với với mô hình khác, chúng tơi thấy phần lớn có cấu trúc khác (khoảng cách RF > 0) Cụ thể: với HIVb 2579 (~65%), với HIVw 2699 (~68%), với JTT 2612 (~66%) với LG 2751 (~69%) Hình 5.5 cho thấy chi tiết số lượng xây dựng với FLU có cấu trúc khác xây dựng với mơ hình khác Cụ thể, khoảng cách RF 0,2 ~600 (tương đương khoảng 15% tổng số cây), khoảng cách RF 0,4 ~340 (tương đương khoảng 8.5% tổng số cây) 86 Hình 5.5: Khoảng cách Robinson-Foulds (RF) FLU với HIVb, HIVw, JTT LG Trục hoành thể khoảng cách RF, trục tung thể số lượng Độ dài trung bình cạnh xây dựng với FLU dài xây dựng với mơ hình khác: FLU 0,074 LG 0,028, JTT 0,047 Phát cho thấy xây dựng với FLU thể nhiều biến đổi ẩn trình tiến hóa vi rút cúm hay nói FLU mơ tả tốt đặc điểm q trình tiến hóa vi rút cúm so với mơ hình chung 5.3.3 Tính bền vững mơ hình Chúng tơi phân tích tính bền vững vi rút cúm cách đo độ tương quan Pearson mơ hình FLU, FLU1 FLU2 (xem mục 5.3.2.2 Thử nghiệm chéo) Bảng 5.7 cho thấy mối tương quan cao (độ tương quan Pearson lớn 0,990) FLU, FLU1 FLU2 hệ số hoán đổi (R) tần số axít amin (Π) Như vậy, liệu D đủ lớn để ước lượng mô hình biến đổi axít amin cho prơtêin cúm 87 gồm Bảng 5.7: Độ tương quan Pearson mô hình FLU, FLU1 FLU2 FLU với FLU1 FLU với FLU2 FLU1với FLU2 R 0,9995 0,9995 0,9981 Π 0,9998 0,9998 0,9994 Chúng đánh giá ảnh hưởng yếu tố thời gian q trình tiến hóa vi rút cúm FLU Chúng chia tập liệu D thành hai tập gần Dt1 chuỗi prôtêin trước năm 2004 Dt2 gồm chuỗi prơtêin từ năm 2004 trở Sau đó, hai tập Dt1 Dt2 sử dụng để ước lượng hai mơ hình FLUt1 FLUt2 tương ứng Cả hai mơ hình FLU t1 FLUt2 giống (độ tương quan Pearson lớn 0,998) Hơn thế, hai giống với FLU (độ tương quan Pearson lớn 0,998) Độ tương quan cao ảnh hưởng yếu tố thời gian q trình tiến hóa tới việc ước lượng mơ hình biến đổi axít amin khơng đáng kể Như vậy, FLU áp dụng để phân tích prôtêin vi rút cúm xuất xuất từ lâu 5.4 Kết luận chương Vi rút cúm nguy hiểm cho sinh vật nói chung lồi người nói riêng Do nghiên cứu y sinh học vi rút cần thiết Tuy nhiên mơ hình chung chưa đáp ứng nhu cầu nghiên cứu Do mơ hình biến đổi axít amin dành riêng cho vi rút cúm thành phần quan trọng hỗ trợ cho nghiên cứu Chúng tơi ước lượng mơ hình FLU phân tích cho thấy FLU mơ hình hố đặc điểm tiến hóa vi rút cúm tốt so với mơ hình Các thử nghiệm toàn cục thử nghiệm chéo khẳng định FLU tốt mơ hình việc xây dựng ML 88 KẾT LUẬN Các nghiên cứu chuỗi axít amin đóng vai trò quan trọng sinh học phân tử tin sinh học Mơ hình biến đổi axít amin thành phần có vai trò quan trọng nghiên cứu chuỗi axít amin Phương pháp cực đại khả phương pháp tốt để ước lượng mô hình biến đổi axít amin Tuy nhiên phương pháp gặp nhiều hạn chế thời gian thực độ xác Luận án đề xuất hai cải tiến quan trọng để giảm thời gian phương pháp ước lượng mơ hình biến đổi axít amin Đề xuất hai phương pháp chia tách nhỏ liệu đầu vào giúp giảm đáng kể thời gian ước lượng mơ hình Đề xuất thứ hai giảm bớt bước tối ưu tham số xây dựng phân loài giúp giảm 50% thời gian ước lượng mơ hình Độ xác phương pháp cải tiến tương đương với phương pháp cũ Luận án đưa mô hình đa ma trận giúp mơ hình hố tốt q trình biến đổi chuỗi axít amin Mơ hình chứng tỏ ưu việt so với mơ hình độ xác cải thiện đáng kể thời gian chạy tương đương với mơ hình đơn ma trận Luận án xây dựng hệ thống ước lượng mơ hình tự động giúp ước lượng ma trận biến đổi axít amin từ liệu người dùng Hệ thống kết nghiên cứu kết hợp Viện nghiên cứu LIRMM, Cộng hoà Pháp Hệ thống hoạt động gần hai năm có nhiều người sử dụng Chúng tơi xây dựng mơ hình FLU cho vi rút cúm Mơ hình FLU tích hợp vào phần mềm xây dựng phân loài PhyML chứng tỏ hiệu phân tích chuỗi axít amin vi rút cúm Mơ hình giúp tăng cường hiểu biết vi rút cúm, giúp có cách đối phó hữu hiệu với loại vi rút nguy hiểm 89 Như luận án tập trung phân tích đề xuất cải tiến cho thành phần quan trọng phương pháp xây dựng mô hình biến đổi axít amin gồm: Dữ liệu đầu vào (Chương 2), Mơ hình biến đổi (Chương 3) Xây dựng phân loài ML (Chương 4) Những cải tiến giúp giảm đáng kể thời gian xây dựng tăng độ xác ma trận Các kết chương gộp lại thành kết thống cải tiến cho phương pháp xây dựng ma trận biến đổi axít amin Tuỳ vào điều kiện toán cụ thể mà lựa chọn áp dụng hay nhiều cải tiến 90 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN Cuong DC, Quang LS, Gascuel O, and Vinh LS (2010), “FLU, an amino acid substitution model or in luenza proteins”, BMC Evolutionary Biology Vol 10 (1), pp 99-110 Cuong DC, Lefort V, Vinh LS, Quang LS and Gascuel O (2011), “ReplacementMatrix: a web server or maximum-likelihood estimation of amino acid replacement rate matrices”, Bioinformatics Vol 27 (19), pp 2758– 2760 Dat LV, Cuong DC, Quang LS and Vinh LS (2011), “A Fast and E icient Method or Estimating Amino Acid Substitution Models”, Proc of the 2011 Third International Conference on Knowledge and Systems Engineering, pp 85 –91 Sau NV, Cuong DC, Quang LS and Vinh LS (2011), “Protein Type Speci ic Amino Acid Substitution Models or In luenza Viruses”, Proc of the 2011 Third International Conference on Knowledge and Systems Engineering, pp 98 –103 Quang LS, Cuong DC, and Gascuel O (2012), “Modeling Protein Evolution with Several Amino Acid Replacement Matrices Depending on Site Rates”, Mol Biol Evol Vol 29 (10), pp 2921–2936 91 TÀI LIỆU THAM KHẢO Tiếng Việt Phạm Thị Trân Châu, Trần Thị Áng (2006), Hóa sinh học, Nhà xuất Giáo dục Nguyễn Tiến Dũng (2008), “Vài nét virut cúm gia cầm H5N1,” Tạp chí Khoa học Kỹ thuật Thú y Tập 15 (4), pp 80–86 Lê Thanh Hòa, Trương Nam Hải, Nông Văn Hải, Đinh Duy Khang, Phan Văn Chi, Quyền Đình Thi, Lê Trần Bình (2009), “Nguồn gen chế tiến hoá phân tử virus cúm A/H1N1 - 2009 gây đại dịch người nay,” Tạp chí Cơng nghệ Sinh học Tập (2), pp 133–153 Phạm Thành Hổ (2008), Di truyền học, Nhà xuất Giáo dục Lê Đức Trình (2001), Sinh học phân tử tế bào, Nhà xuất Khoa học Kỹ thuật Tiếng Anh Adachi J and Hasegawa M (1996), “Model o amino acid substitution in proteins encoded by mitochondrial DNA”, Journal of Molecular Evolution Vol 42 (4), pp 459–468 Akaike H (1974), “A new look at the statistical model identi ication”, IEEE Transactions on Automatic Control Vol 19 (6), pp 716– 723 Bao Y, Bolotov P, Dernovoy D, Kiryutin B, Zaslavsky L, Tatusova T, Ostell J, and Lipman D (2008), “The in luenza virus resource at the National Center or Biotechnology In ormation”, Journal of Virology Vol 82 (2), pp 596–601 92 Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, GriffithsJones S, Howe KL, Marshall M, and Sonnhammer ELL (2002), “The P am Protein Families Database”, Nucl Acids Res Vol 30 (1), pp 276–280 10 Baxevanis AD and Ouellette BFF (2001), Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 2nd Edition, Wiley-Blackwell 11 Bergsten J (2005), “A review o long-branch attraction”, Cladistics Vol 21 (2), pp 163–193 12 Boeckmann B, Bairoch A, Apweiler R, Blatter M-C, Estreicher A, Gasteiger E, Martin MJ, et al (2003), “The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003”, Nucl Acids Res Vol 31 (1), pp 365–370 13 Bouvier NM and Palese P (2008), “The biology o in luenza viruses”, Vaccine Vol 26, pp 49–53 14 Brinkmann H, Giezen M van der, Zhou Y, Raucourt GP de, and Philippe H (2005), “An Empirical Assessment o Long-Branch Attraction Artefacts in Deep Eukaryotic Phylogenomics”, Syst Biol Vol 54 (5), pp 743–757 15 Chor B and Tuller T (2005), “Maximum likelihood of evolutionary trees: hardness and approximation”, Bioinformatics Vol 21 (1), pp 97–106 16 Creighton TE (1992), Proteins: Structures and Molecular Properties, 2nd Edition, W H Freeman 17 Cuong DC, Lefort V, Vinh LS, Quang LS, and Gascuel O (2011), “ReplacementMatrix: a web server or maximum-likelihood estimation of amino acid replacement rate matrices”, Bioinformatics Vol 27 (19), pp 2758– 2760 18 Cuong DC, Quang LS, Gascuel O, and Vinh LS (2010), “FLU, an amino acid substitution model for in luenza proteins”, BMC Evolutionary Biology Vol 10 (1), pp 99–110 93 19 Darwin C (1928), The Origin of Species, Hayes Barton Press 20 Dat LV, Cuong DC, Quang LS, and Vinh LS (2011), “A Fast and E icient Method for Estimating Amino Acid Substitution Models”, Proc of the 2011 Third International Conference on Knowledge and Systems Engineering, pp 85 –91 21 Dayho M, Schwartz R, and Orcutt B (1978), “A Model o Evolutionary Change in Proteins”, Atlas of protein sequence and structure Vol 5, pp 345– 351 22 Durbin R, Eddy SR, Krogh A, and Mitchison G (1998), Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids, Cambridge University Press 23 Edgar RC (2004), “MUSCLE: multiple sequence alignment with high accuracy and high throughput”, Nucleic Acids Research Vol 32 (5), pp 1792–1797 24 Fauci AS (2005), “Race against time”, Nature Vol 435 (7041), pp 423–424 25 Felsenstein J (1978), “The Number o Evolutionary Trees”, Syst Biol Vol 27 (1), pp 27–33 26 Felsenstein J (1981), “Evolutionary trees rom DNA sequences: A maximum likelihood approach”, Journal of Molecular Evolution Vol 17, pp 368–376 27 Felsenstein J (1989), “PHYLIP - Phylogeny In erence Package (Version 3.2)”, Cladistics Vol 5, pp 164–166 28 Felsenstein J (2004), Inferring phylogenies, Sinauer Associates 29 Fitch WM (1971), “Toward De ining the Course o Evolution: Minimum Change or a Speci ic Tree Topology”, Syst Biol Vol 20 (4), pp 406–416 30 Gascuel O (1997), “BIONJ: an improved version of the NJ algorithm based on a simple model o sequence data”, Mol Biol EVol Vol 14 (7), pp 685–695 94 31 Ghedin E, Sengamalay NA, Shumway M, Zaborsky J, Feldblyum T, Subbu V, Spiro DJ, et al (2005), “Large-scale sequencing of human influenza reveals the dynamic nature o viral genome evolution”, Nature Vol 437 (7062), pp 1162– 1166 32 Goldman N, Thorne JL, and Jones DT (1998), “Assessing the impact o secondary structure and solvent accessibility on protein evolution.”, Genetics Vol 149 (1), pp 445–458 33 Guindon S, Dufayard J-F, Lefort V, Anisimova M, Hordijk W, and Gascuel O (2010), “New Algorithms and Methods to Estimate Maximum-Likelihood Phylogenies: Assessing the Per ormance o PhyML 3.0”, Syst Biol Vol 59 (3), pp 307–321 34 Guindon S and Gascuel O (2003), “A simple, ast, and accurate algorithm to estimate large phylogenies by maximum likelihood”, Systematic Biology Vol 52 (5), pp 696–704 35 Hasegawa M and Fujiwara M (1993), “Relative e iciencies o the maximum likelihood, maximum parsimony, and neighbor-joining methods for estimating protein phylogeny”, Mol Phylogenet EVol Vol (1), pp 1–5 36 Heniko S and Heniko JG (1991), “Automated assembly o protein blocks or database searching”, Nucleic Acids Res Vol 19 (23), pp 6565–6572 37 Heniko S and Heniko JG (1992), “Amino acid substitution matrices rom protein blocks”, Proc Natl Acad Sci U.S.A Vol 89 (22), pp 10915–10919 38 Janies D, Hill AW, Guralnick R, Habib F, Waltari E, and Wheeler WC (2007), “Genomic analysis and geographic visualization o the spread o avian in luenza (H5N1)”, Systematic Biology Vol 56 (2), pp 321–329 39 Jones DT, Taylor WR, and Thornton JM (1994), “A mutation data matrix or transmembrane proteins”, FEBS Letters Vol 339 (3), pp 269–275 95 40 Jones DT, Taylor WR, and Thornton JM (1992), “The rapid generation o mutation data matrices rom protein sequences”, Computer applications in the biosciences : CABIOS Vol (3), pp 275 –282 41 Klosterman PS, Uzilov AV, Bendaña YR, Bradley RK, Chao S, Kosiol C, Goldman N, and Holmes I (2006), “XRate: a ast prototyping, training and annotation tool for phylo-grammars”, BMC Bioinformatics Vol 7, pp 428– 453 42 Koshi JM and Goldstein RA (1995), “Context-dependent optimal substitution matrices”, Protein Eng Vol (7), pp 641–645 43 Lamb RA and Choppin PW (1983), “The Gene Structure and Replication o In luenza Virus”, Annual Review of Biochemistry Vol 52 (1), pp 467–506 44 Lemey P, Salemi M, and Vandamme A-M (Editors) (2009), The Phylogenetic Handbook: A Practical Approach to Phylogenetic Analysis and Hypothesis Testing, Cambridge University Press 45 Li W-H (1997), Molecular Evolution, Sinauer Associates 46 Minh BQ, Vinh LS, von Haeseler A, and Schmidt HA (2005), “pIQPNNI: parallel reconstruction o large maximum likelihood phylogenies”, Bioinformatics Vol 21 (19), pp 3794–3796 47 Nickle DC, Heath L, Jensen MA, Gilbert PB, Mullins JI, and Kosakovsky Pond SL (2007), “HIV-specific probabilistic models o protein evolution”, PloS One Vol (6), pp 503-514 48 Quang LS, Cuong DC, and Gascuel O (2012), “Modeling Protein Evolution with Several Amino Acid Replacement Matrices Depending on Site Rates”, Mol Biol Evol Vol 29 (10), pp 2921–2936 96 49 Quang LS and Gascuel O (2008), “An Improved General Amino Acid Replacement Matrix”, Molecular Biology and Evolution Vol 25 (7), pp 1307 –1320 50 Quang LS, Lartillot N, and Gascuel O (2008), “Phylogenetic mixture models or proteins”, Philos Trans R Soc Lond B Biol Sci Vol 363 (1512), pp 3965– 3976 51 Robinson DF and Foulds LR (1981), “Comparison o phylogenetic trees”, Mathematical Biosciences Vol 53 (1), pp 131–147 52 Saitou N and Nei M (1987), “The neighbor-joining method: a new method for reconstructing phylogenetic trees.”, Mol Biol Evol Vol (4), pp 406–425 53 Sanderson M, Donoghue M, Piel W, and Eriksson T (1994), “TreeBASE: a prototype database of phylogenetic analyses and an interactive tool for browsing the phylogeny of life”, American Journal of Botany Vol 81 (6), pp 183–193 54 Sau NV, Cuong DC, Quang LS, and Vinh LS (2011), “Protein Type Speci ic Amino Acid Substitution Models or In luenza Viruses”, Proc of the 2011 Third International Conference on Knowledge and Systems Engineering, pp 98 – 103 55 Schneider R, de Daruvar A, and Sander C (1997), “The HSSP database o protein structure-sequence alignments.”, Nucleic Acids Res Vol 25 (1), pp 226–230 56 Spencer M, Susko E, and Roger AJ (2005), “Likelihood, Parsimony, and Heterogeneous Evolution”, Mol Biol Evol Vol 22 (5), pp 1161–1164 57 Strimmer K and Haeseler A von (1996), “Quartet Puzzling: A Quartet Maximum-Likelihood Method for Reconstructing Tree Topologies”, Mol Biol Evol Vol 13 (7), pp 964-969 97 58 Tateno Y, Takezaki N, and Nei M (1994), “Relative e iciencies o the maximumlikelihood, neighbor-joining, and maximum-parsimony methods when substitution rate varies with site.”, Mol Biol Evol Vol 11 (2), pp 261– 277 59 Thorne JL (2000), “Models o protein sequence evolution and their applications”, Current Opinion in Genetics & Development Vol 10, pp 602– 605 60 Vinh LS (2005), Phylogeny Reconstructions Come of Age, Ph.D Thesis, University of Düsseldorf, Düsseldorf, Germany 61 Vinh LS and Haeseler A von (2004), “IQPNNI: Moving Fast Through Tree Space and Stopping in Time”, Mol Biol Evol Vol 21 (8), pp 1565–1571 62 Wang H-C, Li K, Susko E, and Roger A (2008), “A class requency mixture model that adjusts for site-specific amino acid frequencies and improves in erence o protein phylogeny”, BMC Evolutionary Biology Vol (1), pp 331– 344 63 Whelan S and Goldman N (2001), “A general empirical model o protein evolution derived from multiple protein families using a maximum-likelihood approach”, Molecular Biology and Evolution Vol 18 (5), pp 691–699 64 Yang Z (1993), “Maximum-likelihood estimation of phylogeny from DNA sequences when substitution rates di er over sites”, Molecular Biology and Evolution Vol 10 (6), pp 1396–1401 65 Yang Z (1994), “Maximum likelihood phylogenetic estimation rom DNA sequences with variable rates over sites: approximate methods”, J Mol EVol Vol 39 (3), pp 306–314 66 Yang Z (2006), Computational molecular evolution, Oxford University Press 98 ... hai axít amin biến đổi tương đối) hai axít amin axít amin và ) hệ số hoán đổi Hệ số hoán đổi (hay tốc độ lớn thể biến đổi hai xảy nhiều ngược lại Ma trận tốc độ biến đổi tức biểu diễn ma trận. .. hình biến đổi axít amin Q trình biến đổi axít amin mơ hình hố mơ hình Q Các tham số mơ hình Q ước lượng từ hàng đa chuỗi axít amin Bài tốn xây dựng mơ hình biến đổi axít amin từ hàng đa chuỗi axít. .. là, amin có ( ) xác xuất axít amin biến đổi thành axít biến đổi axít amin axít amin Q trình biến đổi axít amin thường giả sử có tính thuận nghịch theo thời gian (time reversible), tức số lượng biến

Ngày đăng: 07/04/2019, 11:43

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan