Sau khi có 489 alignment của virút cúm ở dạng PHILIP (phần 4.2 đã nói rõ về định dạnh PHILIP), ta sử dụng PhyML để chạy với 15 mô hình amino acid đã nói ở trên với các tham số như ở phần 4.2 đã nói. Quá trình chạy rất lâu mỗi mô hình chạy hết khoảng 24 tiếng trên máy tính: cpu intel core 2 duo 4400 (2.0 GHz), RAM 1G và chạy trên may ao linux ubuntu 8.04 256 ram.
Kết quả thu được sau khi chạy PhyML, ứng với mỗi mô hình ta sẽ có 3 thư mục tương ứng lk, stats, tree. Thư mục lk sẽ cung cấp cho ta giá trị likelihood của từng vị trí (site) đối với mỗi alignment. Thư mục stats cung cấp cho ta rất nhiều thông tin như : tên file, Tên mô hình, số taxa, giá trị log-likelihood của alignment, tree size, gama shape parameter , tỷ lệ thay đổi, thời gian chạy của alignment. Thư mục tree cung cấp hình dạng tree của alignment dưới dạng chuỗi.
Chạy 15 mô hình amino acid, mỗi mô hình sẽ cho 3 thư mục, mỗi thư mục sẽ có 489 file ghi kết quả tương ứng của 489 alignment.
Sử dụng chương trình viết bằng Perl kết hợp với MySQL để xử lý.
So sánh giá trị trung bình loglikelihood trên (205337 site) của 15 mô hình sẽ được thể hiện ở bảng 3. Cách tính giá trị trung bình loglikelihood trên site: bằng tổng tất cả loglikelihood của 489 alignment trên 205337 site.
Các giá trị xếp theo thứ tự giảm dần. Ta so sánh giá trị trung bình loglikelihood, giá trị trung bình loglikelihood của mô hình nào càng lớn thì mô hình đó càng tốt. Qua bảng 3 ta thấy được rằng giá trị trung bình loglikelihood của I09 là tốt nhất lớn hơn HIVb đứng thứ 2 là 0.0623 và Hibw đứng thứ 3 là 0.06615.
Bảng 3: Giá trị trung bình log likelihood/site của 15 mô hình amino acid.
Model Average log_likelihood/site (205337site) I09 -5.73055 HIVb -5.79285 HIVw -5.7967 JTT -5.83168 CpREV -5.88387 WAG -5.91403 LG -5.91724 VT -5.96466 Dayhoff -5.97079 DCMut -5.9708 RtREV -5.9814 Blosum62 -5.98325 MtREV -6.14294 MtMam -6.16878 MtArt -6.24941
Tiếp tục thực hiện một so sánh nữa, ứng với mỗi aligment ta sẽ so sánh kết quả loglikelihood của từng alignement ứng với 15 mô hình. Sau khi so sánh 489 alignment ra xem xem mội mô hình đứng đầu bao nhiều lần, đứng thứ 2, 3 ….15 bao nhiêu lần.Và ta có kết quả như sau:
Bảng 4: Bảng kết quả so sánh thứ hạng của 15 mô hình amino acid với giá trị loglikelihood Model 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 I09 434 31 5 4 7 1 3 1 2 0 1 0 0 0 0 HIVb 23 191 213 34 14 9 2 2 0 0 0 1 0 0 0 HIVw 13 196 79 75 25 23 7 9 17 26 2 16 0 0 1 LG 11 21 14 34 69 95 138 9 86 7 4 1 0 0 0 JTT 5 45 155 273 8 2 1 0 0 0 0 0 0 0 0 CpREV 2 2 14 48 293 78 21 23 3 2 2 1 0 0 0 Blosum62 1 1 2 4 3 20 25 37 70 88 78 152 6 1 1 MtArt 0 0 1 0 0 0 0 0 0 1 0 1 20 53 413 MtMam 0 0 0 1 0 1 0 2 1 2 3 5 45 358 70 VT 0 0 3 9 20 24 30 121 59 111 78 29 3 2 0 WAG 0 1 3 5 45 214 148 52 12 4 0 4 1 0 0 DCMut 0 0 0 0 0 4 19 90 91 50 87 142 3 2 1 Dayhoff 0 0 0 0 2 9 81 87 59 80 142 21 4 4 0 MtREV 0 0 0 1 1 0 0 5 3 3 4 8 398 64 2 RtREV 0 1 0 1 2 9 14 51 86 115 88 108 9 5 0
với cột đầu tiên là tên mô hình amino acid, cột 1 nghĩa là số lần các mô hình đứng đầu trong khi so sánh giá trị loglikelihood của 489 alignment, cột 2,…, cột 15 có ý nghĩa tương tự, mỗi hàng ngang ứng với các mô hình thay thế amino acid giao điểm của cột và hàng là số lần đứng các vị trí 1,2,…., 15.
Bảng 4 đã thể hiện một cách đầy đủ nhất thứ tự của các mô hình trong khi so sánh giá trị loglikelihood của 489 alignement. Ta thấy được mô hình I09 [31] có 434
lần đứng đầu trong 489 alignement so sánh, và 31 lần đứng thứ 2, 5 lần đứng thứ 3. Mô hình có nhiều số lần đứng đầu sau I09 đó là HIVb và HIVw [2] có số lần đứng đầu lần lượt là 23 và 13 trên tổng số 489 alignment so sánh 2 mô hình này được xây dựng để nghiên cứu virút HIV ở người vì cùng là nghiên cứu về virút nên có độ tương đồng cao. Vì vậy chúng đứng vị trí thứ 2 và thứ 3 là hoàn toàn hợp lý. Những kết quả cho thấy I09 chiếm 89% số lần đứng đầu trong các lần chạy chuỗi alignement.
Sign Test
Để cho kết quả đáng tin cậy hơn chúng tôi sử dụng một kỹ thuật thống kê rất thú vị đó là Sign Test. Phương pháp này so sánh một mô hình lớn hơn mô hình kia với một giá trị p-value cho trước bao nhiêu trường hợp.Trong chương trình chọn p-value=0.05 ứng với 5%. Điều này có nghĩa là so sánh 2 mô hình xem kết quả của 2 mô hình có độ chênh lệnh quá 5% (chênh lệch đáng kể) là bao nhiêu lần so với mô hình còn lại. Phương pháp Sign test này được sử dụng để so sánh mô hình đứng đầu với một số mô hình đứng ngay sau đó để khẳng định một điều là mô hình đứng đầu thực sự tốt hơn so với mô hình đứng thứ 2 và thứ 3 …
Sau khi thực hiện sign test (so sánh I09 với từng mô hình HIVb, HIVw, JTT, LG) ta có kết quá sau: với 489 alignments. I09 lớn hơn JTT 464 alignement trong đó có 448 alignement thực sự lớn hơn (độ chênh lệch là 5% ) và có chỉ có 1 giá trị JTT thực sự lớn hơn I09 (độ chệnh lệch lớn hơn 5%).
Tương tự với các cặp còn lại I09 với LG, I09 với HIVw, I09 với HIVb, những kết quả này được thống kê ở bảng 5 với #M1> M2: số lần mô hình M1 > M2 trong 489 alignment, #M1>M2 (p<0.05): số lần mô hình M1>M2 có chênh lệch 5%, #M1<M2 (p<0.05): số lần mô hình M1<M2 có chênh lệch 5%.
Bảng 5: Kết quả so sánh sign test của I09 với các mô hình JTT, LG, HIVw, HIVb
M1 M2 #M1 > M2 #M1 > M2 #M1 < M2 (p < 0.05) (p < 0.05) I09 JTT 464 448 1 I09 LG 468 247 71 I09 HIVw 476 470 0 I09 HIVb 455 184 47
Ngoài ra còn một số so sánh về các giá trị khác như treesize, gamma shape parameter, những giá trị này chỉ mang ý nghĩa tham khảo đối với những người quan tâm tới treesize và gamma shape parameter. Mục đích chính vẫn là so sánh loglikelihood mà ở phần trên đã trình bày.
Thực hiện một so sánh nữa, ứng với mỗi aligment ta sẽ so sánh kết quả treesize của từng alignement ứng với 15 mô hình. Sau khi so sánh 489 alignment ra xem xem mội mô hình đứng đầu bao nhiều lần, đứng thứ 2, 3,...,15 bao nhiêu lần. Và ta có kết quả như sau:
Bảng 6: Bảng kết quả so sánh thứ hạng của 15 mô hình amino acid với giá trị treesize Model 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 MtArt 306 150 9 5 3 7 4 3 0 1 0 0 0 0 1 MtMam 148 311 6 6 4 3 2 2 4 0 0 1 0 1 0 MtREV 8 3 416 19 23 4 6 3 1 1 2 1 2 0 0 HIVw 7 0 30 114 93 40 15 34 19 16 25 26 26 28 16 HIVb 5 6 3 6 12 78 56 40 19 42 28 30 37 60 67 CpREV 5 5 5 4 13 8 22 29 32 50 48 46 59 50 113 Blosum62 3 3 4 2 6 33 78 47 43 31 36 21 16 24 142 I09 3 3 9 68 112 66 19 32 40 23 10 17 27 26 34 VT 2 0 0 251 43 56 47 22 20 22 13 7 3 2 1 WAG 2 6 6 2 6 2 8 17 37 49 44 60 49 166 35 DCMut 0 0 0 3 13 24 35 39 75 72 56 51 66 28 27 Dayhoff 0 1 0 4 22 36 34 74 61 52 56 51 39 47 12 JTT 0 0 0 1 5 30 13 38 51 61 91 88 64 29 18 LG 0 0 0 2 104 70 112 68 40 41 23 19 7 3 0 RtREV 0 1 1 2 30 32 38 41 47 28 57 71 94 25 22
với cột đầu tiên là tên mô hình amino acid, cột 1 nghĩa là số lần các mô hình đứng đầu trong khi so sánh giá trị treesize của 489 alignment, cột 2,…, cột 15 có ý nghĩa tương tự, mỗi hàng ngang ứng với các mô hình thay thế amino acid giao điểm của cột và hàng là số lần đứng các vị trí 1,2, …..,15.
Theo bảng so sánh giá tri treesize thì ta thu được những kết quả sau. Mô hình thay thế amino acid MtArt là đứng đầu với 306 lần đứng đầu trên tổng số 489 alignment.Đứng thứ 2 và thứ 3 là các mô hình MtMan và MtREV với số lần đứng đầu lần lượt là 148 và 8.
Thực hiện một so sánh nữa, ứng với mỗi aligment ta sẽ so sánh kết quả gamma shape parameter của từng alignement ứng với 15 mô hình. Sau khi so sánh 489 alignment ra xem xem mội mô hình đứng đầu bao nhiều lần, đứng thứ 2, 3 ….15 bao nhiêu lần.Và ta có kết quả như sau:
Bảng 7: Bảng kết quả so sánh thứ hạng của 15 mô hình amino acid với giá trị gamma shape parameter
Model 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Blosum62 65 51 40 52 40 42 39 36 28 23 21 18 15 12 7 HIVw 51 22 27 20 18 22 26 26 27 23 28 44 74 28 53 WAG 50 65 60 47 48 31 39 28 24 23 23 17 21 11 2 I09 44 34 33 30 23 25 19 35 38 40 57 58 30 18 5 JTT 44 46 62 66 41 48 35 40 27 23 21 14 8 7 7 CpREV 31 36 46 37 54 47 43 41 36 42 27 23 8 9 9 Dayhoff 30 35 22 34 40 27 39 45 43 33 29 37 30 23 22 VT 30 31 19 27 36 28 31 26 41 48 52 70 25 13 12 MtREV 28 10 26 23 24 27 11 19 29 24 36 54 159 15 4 HIVb 24 35 36 35 34 31 50 41 33 42 46 37 11 17 17 DCMut 19 41 43 35 32 41 43 38 36 37 40 28 22 24 10 MtMam 19 22 9 14 13 11 10 7 9 9 21 20 29 157 138 MtArt 19 20 9 10 9 10 12 11 12 14 9 11 28 135 180 RtREV 19 19 26 25 39 50 40 47 43 48 48 37 17 15 16 LG 16 22 31 34 38 49 52 49 63 60 31 21 12 5 6
với cột đầu tiên là tên mô hình amino acid, cột 1 nghĩa là số lần các mô hình đứng đầu trong khi so sánh giá trị gamma shape parameter của 489 alignment, cột 2, … , cột 15 có ý nghĩa tương tự, mỗi hàng ngang ứng với các mô hình thay thế amino acid giao điểm của cột và hàng là số lần đứng các vị trí 1,2 ...15.
Với gamma shape parameter ta so sánh giá trị trung bình của gamma shape parameter trên site của 15 mô hình thay thế amino acid và có được bản kết quả sau: sắp theo thứ tự giảm dần.Tính giá trị trung bình của gamma shape parameter ta cũng cộng tổng tất cả các giá trị gama shape parameter của 489 alignment chia cho tổng số site (205337 site)
Bảng 8: Giá trị trung bình gamma shape parameter /site của 15 mô hình amino acid.
Model
average gamma shape parameter/site (205337site) WAG 0.0681385 DCMut 0.0583194 Dayhoff 0.0576008 HIVw 0.0522065 MtArt 0.0466356 Blosum62 0.030153 JTT 0.0273762 RtREV 0.0238494 CpREV 0.0237556 LG 0.022444 HIVb 0.0207305 I09 0.0190945 VT 0.0184902 MtREV 0.0164782 MtMam 0.00880454
Kết luận
Với những so sánh kiểm định của 15 mô hình amino acid đã nêu trên.Có thể đưa ra kết luận cuối cùng như sau. Mô hình I09 là mô hình rất đáng để các nhà nghiên cứu về virút cúm quan tâm. Họ có thể sử dụng I09 trong nhiều trường hợp, ví dụ như sử dụng chúng để chạy với PhyML sẽ cho ra những giá trị liên quan, và cây phân loài chính xác nhất, từ cây phân loài có thể biết được rất nhiều điều như: Nguồn gốc, sự tương đồng giữa các gen …. từ những hiểu biết này có thể thuận lợi trong việc nghiên cứu và điều chế ra những loại vácxin cho virút cúm phù hợp nhất và nhanh nhất.
Chương 5: Tổng kết – Đánh giá
Chương này sẽ tổng kết lại những việc đã làm được, sau đó đưa ra những đóng góp của khóa luận và hướng phát triển của luận văn.
5.1 Tổng kết
Trong giai đoạn hiện nay, nhiều loại dịch cúm xảy ra ở khắp mọi nơi trên thế giới như cúm H5N1, H1N1 … vì vậy việc tìm ra một loại mô hình amino acid tốt nhất để nghiên cứu virút cúm là rất cần thiết và thực tiễn.
Chúng tôi đã tìm ra mô hình I09 [31] là tốt nhất để nghiên cứu các loại virút cúm.
5.2 Những đóng góp
Khóa luận là tài liệu tham khảo cho những ai muốn nghiên cứu về virút cúm và các mô hình để xử lý virút cúm.
Tìm ra I09 là tốt nhất trong tất cả các mô hình amino acid ước lượng cho virút cúm đã quan trọng nhưng để ứng dụng nó vào trong thực tiễn còn đòi hỏi rất nhiều tới các nhà khoa học Việt Nam. Hiện nay lĩnh vực tin sinh ở Viết Nam mới trong giai đoạn đầu vì vậy việc nghiên cứu tìm hiểu về vácxin phòng chống cúm là còn rất ít. Với mong muốn phổ biến I09 trên toàn thế giới tác giả của mô hình amino acid này đang hoàn thiện hơn các dữ liệu để viết bài đăng trên các tạp trí khoa học nổi tiếng của thế giới.Và những đánh giá và kiểm định này cũng được góp một phần trong những dữ liệu mà tác giả của I09 sử dụng để viết bài.
5.3 Hướng phát triển
Khóa luận này đã đưa ra được mô hình tốt nhất để nghiên cứu với dữ liệu virút cúm. Hướng phát triển rất rõ ràng của khóa luận là: Không chỉ dừng lại ở virút cúm mà các kiểm định thống kê này còn hướng tới áp dụng trên nhiều loại amino acid khác nhau (HIV, viêm gan C,…) để đưa ra các mô hình amino acid tốt nhất giúp cho các nhà khoa học thuận lợi hơn trong quá trình nghiên cứu.
Tài liệu tham khảo
Tiếng Anh:
[1] Adachi, J. and Hasegawa, Model of amino acid substitution in proteins encoded by mitochondrial DNA. J. Mol. Evol., 1996, pages. 459–468.
[2] David C. Nickle, HIV-Specific Probabilistic Models of Protein Evolution, 2007, pages. 1-11.
[3] Dayhoff, M. O., Schwartz, R. M. and Orcutt, A model of evolutionary change in proteins. In Dayhoff et al. (1978),1978, pages 345–352.
[4] Eck, R. and Dayhoff, In Atlas of protein sequence and structure. National Biomedical Research Foundation, Silver Spring, Maryland, USA, 1966.
[5] Edgar, R. C, MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucl. Acids Res., 2004, pages. 1792–1797.
[6] Felsenstein, Infering Phylogenies. Sinauer Associates, Sunderland, Massachusetts, 2004
[7] Felsenstein, Evolutionary trees from gene frequencies and quantitative characters:Finding maximum likelihood estimates. Evolution, 1981, pages. 1229–1242.
[8] Gu, X. and Li, A general additive distance with time-revesibility and rate
variation among nucleotide sites. Proc. Natl. Acad. Sci. USA, 1996, pages. 4671– 4676.
[9] Hasegawa, M., Kishino, H. and Yano,Dating of the human–ape splitting
by a molecular clock of mitochondrial DNA. J. Mol. Evol., 1985, pages.160–174. [10] Jones, D. T., Taylor, W. R. and Thornton, The rapid generation of mutation
data matrices from protein sequences. Comput. Appl. Biosci., 1992,pages. 275– 282.
[11] Jukes, T. H. and Cantor, Evolution of protein molecules. In Munro, H. N.
(ed.), Mammalian Protein Metabolism, vol. 3, 1969, pages 21–123, Academic Press, New York.
[12] Keilson, Markov chain models: rarity and exponentially. Spinger, New York, USA., 1979.
[13] Kimura, A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. J. Mol. Evol., 1980, pages. 111–120.
[14] Krause, A., Nicod`eme, P., Bornberg-Bauer, E., Rehmsmeier, M. and Vingron, WWW-access to the SYSTERS protein sequence cluster set. Bioinformatics, 1999, pages. 262–263.
[15] Marco salemi Anne –Mieke Vandamme, “The Phylogenetic Handbook”, 2003, pages. 1 -160.
[16] M¨uller, T. and Vingron, Modeling amino acid replacement. J. Comput. Biol., 2000,pages. 761–776.
[17] Notredame, C, Higgins, D. and Heringa, J., T-COFFEE: A novel method for multiple sequence alignments. Journal of Molecular Biology, 2000, pages. 205– 217.
[18] Press, W. H., Teukolsky, S. A., Vetterling, W. T. and Flannery, Numerical
Repcipes in C: The art of scientific computing. Cambridge University Press, New York, 2002.
[19] Ronquist, F. and Huelsenbeck, MRBAYES 3: Bayesian phylogenetic inference under mixed models. Bioinformatics, 2003, pages. 1572–1574.
[20] Schmidt, H. A., Strimmer, K., Vingron, M. and von Haeseler, TREE-PUZZLE: Maximum likelihood phylogenetic analysis using quartets and parallel computing. Bioinformatics, 2002, pages. 502–504.
[21] Si Quang Le and Olivier Gascuel, An Improved General Amino Acid Replacement Matri, 2008, pages. 1-14.