Trong phương pháp được đề xuất ở đây, tôi chưa xử lý việc tìm cách phát hiện kiểu của các dữ liệu đầu vào có độ tương đồng thấp.
Ở đây ta mặc định với các chuỗi có độ tương tự nhỏ (<= 35 %), chúng ta chỉ sử
dụng 2 phương pháp L-INS-i và PROBCONS (là 2 phương án cho kết quả tốt nhất hiện nay). Tuy nhiên kết quả cuối cùng khi chưa xử lý vấn đề này cũng rất khả quan.
Chương 4: Kết quả thực nghiệm và bình luận
Một đánh giá toàn diện và so sánh được các chương trình sắp hàng đa chuỗi đòi hỏi một số lượng lớn các sự dữ liệu được sắp xếp chính xác mà có thể được sử dụng như các bộ kiểm thử. Các bộ dữ liệu này có thể chỉ ra được hiệu suất của các chương trình sắp hàng đa chuỗi phụ thuộc vào số lượng các chuỗi, mức độ giống nhau giữa các chuỗi và số lượng các phép chèn thêm vào liên kết này. Các yếu tố khác cũng có thể ảnh hưởng đến chất lượng liên kết chẳng hạn như độ dài của chuỗi, … BAliBASE là bộ dữ liệu đáp ứng được đầy đủ các yêu cầu như thế. Do đó trong khóa luận này tôi sẽ
sử dụng BAliBASE để kiểm tra hiệu năng của hai phương pháp sử dụng cây quyết
định (cả về tốc độ lần điểm chuẩn) và so sánh nó với các chương trình sắp hàng đa chuỗi khác.
4.1 Giới thiệu về BAliBASE
BAliBASE - Benchmark Alignment dataBASE là một bộ dữ liệu được xây dựng bởi các nhà khoa học Julie D. Thompson, Olovier Poch và một số nhà khoa học khác. Việc xây dựng bộ dữ liệu BAliBASE hoàn toàn dựa trên những kết quảđã được kiểm chứng trước đó đồng thời bắt cặp dựa trên kinh nghiệm của chính những nhà khoa học này. BAliBASE là một bộ dữ liệu mở, được thiết kếđể phục vụ cho mục đích đánh giá các chương trình sắp hàng đa chuỗi. Nó đặt ra tất cả các trường hợp gặp phải trong quá trình sắp hàng. Cơ sở dữ liệu của BAliBASE được làm một cách thủ công với các chú thích chi tiết.
4.1.1 BAliBASE 2
BAliBASE 2 có tất cả 8 reference, nhưng chỉ thường sử dụng 5 reference đầu tiên. Các file dữ liệu được cung cấp dưới định dạng RSF hoặc MSF.
4.1.2 BAliBASE 3
BAliBASE 3 bao gồm 5 reference. Mỗi reference bao gồm một số lượng file. Các file có tên là BBnnnnn bao gồm các chuỗi full-length, trong khi các file có tên là BBSnnnnn là các chuỗi chỉ chứa các vùng tương đồng (homologous).
4.1.3 Cách đánh giá của BAliBASE
BAliBASE sử dụng hai hệ số điểm là sum of pair (SP) và total colum (TC) để
kiểm tra tính chính xác của một đa chuỗi thẳng hàng so với kết quả mà các nhà khoa học bắt cặp một cách thủ công.
Điểm SPđược tính theo thuật toán sau:
- Đặt s(x, y). Ở đây x và y là hai amino axit, s(x, y) là điểm khi bắt cặp x với y
trong đa chuỗi thẳng hàng. khi đó ta sẽ có giá trị của s(x, y) tương ứng là:
s(x, y) = 1 nếu x và yđều là một amino axit.
s(x, y) = -1 nếu x và y là hai amino acid khác nhau.
s(x, y) = -2 nếu x là gap, y khác gap và ngược lại.
s(x, y) = 0 nếu x và yđều là gap.
- Giả sửSP(mi) là giá trị của điểm “sum of pair” ở cột thứ i của đa chuỗi thẳng hàng mà ta cần tính điểm ( phân biệt với đa chuỗi thẳng hàng mà các nhà khoa học đã sắp hàng bằng tay để làm kết quả so sánh ), giá trị SP(mi)được tính bằng cách lấy tổng của các s(x, y) trong đó x và y là các amino axit được lấy từ cột thứ i của đa chuỗi thẳng hàng. Sau đó điểm SP của cảđa chuỗi sẽđược tính bằng cách lấy tổng tất cả các
điểm SP(mi) của tất cả các cột trong đa chuỗi.
Một ví dụđơn giản cho việc tính toán SP(mi) như sau:
Bảng 6: Tính toán SP(mi) m1 m2 m3 m4 m5 m6 m7 m8 m9 seq1 G T T C C T G - T seq2 - T G C - T G - T seq3 G T G C - T T - T Score -3 3 -1 3 -4 3 -1 0 3
Ví dụ trên thể hiện một đa chuỗi thẳng hàng với 3 chuỗi và độ dài mỗi chuỗi là 9.
Ởđây với cột thứ 1. Ta có:
SP(m1) = s(G, -) + s (G, G) + s (-, G) = -2 + 1 + -2 = -3. Tương tự với các điểm SP của các cột từm2 cho đến m9.
- Sau đó điểm SP(m) với đa chuỗi thẳng hàng cần tính điểm sẽđược so sánh với kết quảSP(R) mà các nhà khoa học đã làm một cách thủ công có sẵn trong BAliBASE và điểm SP cuối cùng của đa chuỗi thẳng hàng mà phương pháp đưa ra sẽ được tính theo công thức: SP(m) / SP(R) * 100. Đây chính là cách tính điểm sum of pair (SP) của BAliBASE.
Hệ số điểm thứ hai của BAliBASE là total column (TC). Điểm TC chính là tỉ lệ
số cột mà đa chuỗi thẳng hàng cần tính điểm chứa các amino axit giống hệt với cột của đa chuỗi thằng hàng mà các nhà khoa học đã làm thủ công trong BAliBASE.
Qua hai hệ số điểm SP và TC chúng ta có thể xác định được phần nào độ chính xác của kết quả của phương pháp sắp hàng đa chuỗi cần kiểm tra.
4.2 Kết quả thực nghiệm
Kết quả dưới đây, là kết quả của 2 bộ dữ liệu BAliBASE 2 và 3 với các phương pháp:
- CLUSTALW version 2.0.12 - MUSCLE version 3.6
- PROBCONS version 1.12 - MAFFT version 6.617
BAliBASE 2
Ref11(27) Ref12(27) Ref13(28) Ref20(23) Ref30(12) Ref40(12) Ref50(12) Average
Programs SP TC SP TC SP TC SP TC SP TC SP TC SP TC SP TC Time(s) CLUSTALW 87.21 80.15 83.87 76.26 86.38 78.75 93.26 59.26 72.33 48.08 85.55 69.76 85.78 63.42 83.74 68.26 1383 MUSCLE 84.96 77.11 88.78 81.96 88.76 91.46 93.56 59.61 78.33 53.92 88.13 75.33 97.25 90.08 86.37 73.04 281 PROBCONS 89.48 84.26 90.46 84.89 91.95 94.85 94.01 61.04 81.68 63.08 92.25 77.91 98.58 94.00 91.24 81.18 4733 LINSI 84.91 78.59 78.59 82.12 89.84 84.28 84.28 57.30 57.30 51.17 51.17 51.17 94.02 83.67 83.67 74.67 371 Automatic-FAST 89.48 84.26 90.46 84.89 90.95 91.11 93.88 60.17 81.58 61.83 92.25 77.91 98.49 93.08 91.02 80.16 2280 Automatic-ACCURACY 89.48 84.26 90.46 84.89 90.95 91.11 93.88 60.17 81.59 61.92 92.25 77.91 98.58 94.00 91.02 80.20 2716 Bảng 7: Kết quả các phương pháp với BAliBASE 2
BAliBASE 3 Homologous
RV11(38) RV12(44) RV20(41) RV30(30) RV40(49) RV50(15) Average
Programs
SP TC SP TC SP TC SP TC SP TC SP TC SP TC
Time(s)
CLUSTALW 66.25 41.76 90.30 78.95 92.35 45.00 81.77 48.30 N/A N/A 79.76 41.73 82.90 53.46 7020
MUSCLE 74.84 54.92 92.89 82.30 95.55 55.02 86.47 53.83 N/A N/A 87.25 51.13 87.81 61.58 450
PROBCONS 80.72 62.92 95.06 87.20 95.68 59.93 90.69 64.97 N/A N/A 90.91 60.53 90.82 68.70 13030
LINSI 69.57 48.60 92.57 80.73 93.93 49.76 87.55 59.30 N/A N/A 88.38 51.47 86.43 59.47 1100
EINSI 69.46 48.46 92.55 80.68 93.82 50.05 87.58 59.66 N/A N/A 89.86 59.62 86.51 60.28 1300
BAliBASE 3 full-length RV11(38) RV12(44) RV20(41) RV30(30) RV40(49) RV50(16) Average Programs SP TC SP TC SP TC SP TC SP TC SP TC SP TC Time(s) CLUSTALW 50.02 22.74 86.50 71.30 85.16 21.98 72.56 27.30 78.93 39.55 74.25 30.75 75.37 37.39 17015 MUSCLE 59.39 35.56 91.82 80.70 89.07 34.32 80.38 38.43 86.82 46.76 85.46 48.00 82.48 48.26 1905 PROBCONS 66.80 41.48 94.17 85.55 91.69 40.66 84.6 54.3 90.24 52.86 89.17 56.69 86.37 55.66 32012 LINSI 66.31 43.81 93.56 83.49 92.72 45.21 86.6 59.31 92.69 61.53 90.15 59.26 87.25 59.33 3445 EINSI 66.11 43.6 93.48 83.19 92.51 44.6 86.81 59.53 92.37 61.13 89.76 59.55 87.09 59.08 3781 Automatic-FAST 66.65 41.18 93.75 84.30 91.31 41.90 84.77 52.13 91.59 57.08 88.45 54.69 86.46 56.09 7200 Automatic-ACCURACY 66.73 41.26 93.53 83.82 91.10 42.17 85.37 53.03 89.55 52.86 87.26 52.19 85.92 55.05 7530
Nhận xét
Bảng 7 chỉ ra kết quả của các phương pháp với bộ dữ liệu BAliBASE 2. Với mỗi phương pháp và 1 reference tương ứng, bảng 7đưa ra 2 chỉ số lần lượt là điểm SP, TC của phương pháp đó với reference tương ứng. Cột cuối cùng thể hiện tổng sốđiểm SP, TC của từng phương pháp với bộ dữ liệu BAliBASE 2, cũng như tổng thời gian xử lý của từng phương pháp với bộ dữ liệu BAliBASE 2.
Từbảng 7, ta có thể thấy, PROBCONS với bộ dữ liệu BAliBASE 2 cho kết quả
tốt nhất, nhưng thời gian xử lý của nó quá lâu (lên đến 4733 s). Mặc dù BAliBASE 2 phần lớn gồm toàn những bộ dữ liệu nhỏ (chỉ khoảng vài đến vài chục chuỗi). Các phương pháp còn lại cho kết quả không tốt bằng mặc dù tốc độ xử lý cao hơn hẳn. Còn 2 phương án sử dụng cây quyết định cho kết quả tốt gần tương đương trên từng reference (đôi khi các phương án này cho kết quả tốt nhất). Mặc dù kết quả trung bình trên bộ dữ liệu BAliBASE 2, PROBCONS cao hơn 2 phương pháp sử dụng cây quyết
định, nhưng không đáng kể (SP: 91.24 so với 91.02 và TC: 81.18 so với 80.20 và 80.16), tuy nhiên thời gian xử lý của phương pháp PROBCONS cao hơn gấp đôi so với 2 phương pháp sử dụng cây quyết định (4733 s so với 2280 s và 2716 s).
Bảng 8 chỉ ra kết quả với bộ dữ liệu BAliBASE 3 – homologous. Qua đó ta có thể thấy, PROBCONS cho kết quả tốt nhất với bộ dữ liệu này, tuy nhiên thời gian xử
lý của nó quá lớn (13030 s). Còn các phương pháp khác lại cho kết quả tồi hơn hẳn mặc dù thời gian xử lý thấp hơn. Còn 2 phương pháp sử dụng cây quyết định, thì phương pháp Automatic – ACCURACY cho kết quả tốt nhất trên RV11 và bằng với PROBCONS. Còn kết quả cuối cùng chỉ kém phương án PROBCONS một ít. Điểm SP: PROBCONS là 90.82 so với 90.55 và 90.37 lần lượt của Automatic – ACCURACY và Automatic – FAST. Điểm TC: PROBCONS: 68.70 so với 67.36 và 67.37. Mặc dù 2 phương án này cho kết quả thấp hơn một chút, nhưng bù lại thời gian xử lý của chúng lại nhanh hơn rất nhiều ( 3850 và 3340 so với 13030
Bảng 9 chỉ ra kết quả của các phương pháp với bộ dữ liệu BAliBASE 3 – full length. Ở đây, MAFFT-L-INS-i và MAFFT-E-INS-i cho kết quả cao nhất với hầu hết các reference. PROBCONS cho kết quả thấp hơn một chút. 2 phương pháp sử dụng cây quyết định ở bộ dữ liệu này cho kết quả không thật sự khả quan. Nó không cho kết quả cao nhất ở bộ dữ liệu nào. Tuy nhiên kết quả cuối cùng nó cũng chỉ thấp hơn 2
Qua những kết quả trên, ta có thể thấy rằng: Mặc dù 2 phương pháp sử dụng cây quyết định không cho kết quả tốt nhất trên từng bộ dữ liệu riêng biệt nhưng kết quả của chúng luôn đứng lần lượt là thứ 2 và thứ 3 trên từng bộ, chỉ kém kết qua tốt nhất một tỉ
lệ rất nhỏ và hơn hẳn những phương pháp khác. Trong khi những phương pháp PROBCONS, MAFFT có thể tốt nhất trên 1 vài bộ dữ liệu, nhưng chúng vẫn mang những nhược điểm nhất định trên những bộ dữ liệu khác nhau.
Do 2 bộ dữ liệu chuẩn ở trên, chỉ bao gồm những dữ liệu nhỏ (chỉ khoảng vài chục đến trên một trăm chuỗi) không đủđể thể hiện hết những ưu điểm của hai phương pháp sử dụng cây quyết định này (do không thể thể hiện ưu điểm về mặt tốc độ khi xử
lý các bộ test lớn, và không thể hiện được khả năng xử lý những bộ test ngoại cỡ - số
lượng chuỗi cực lớn, độ dài chuỗi cực lớn).
Qua đó có thể nhận thấy ưu điểm của 2 phương án sử dụng cây quyết định mà tôi
Chương 5: Kết Luận
Mặc dù có một lịch sử lâu dài, nhưng việc nghiên cứu trong lĩnh vực sắp hàng đa chuỗi vẫn tiếp tục phát triển mạnh mẽ. Mỗi năm, hàng chục bài báo mô tả các phương pháp mới cho việc sắp hàng đa chuỗi được công bố. Mặc dù nhiều phương pháp trong các phương pháp đó đều tiếp cận dựa trên các nguyên tắc cơ bản giống nhau, nhưng các chi tiết của việc triển khai có thể có tác động đáng kể đến hiệu suất, cả về tính chính xác và tốc độ. Lý do chính cho việc vấn đề này vẫn được tiếp tục quan tâm trong lĩnh vực tin sinh học là sắp hàng đa chuỗi vẫn là trung tâm của phân tích so sánh trình tự trong sinh học tính toán hiện đại: sự sắp hàng chính xác tạo thành cơ sở của nhiều nghiên cứu trong lĩnh vực tin sinh học, và những tiến bộ trong các phương pháp sắp hàng đa chuỗi có thể tạo ra những lợi ích sâu rộng trong nhiều lĩnh vực ứng dụng khác nhau.
Trong những năm gần đây, xu hướng trong việc sắp hàng đa chuỗi có bao gồm việc phát triển các công cụ thích hợp cho xử lý hiệu quả cao trên máy tính (MUSCLE, MAFFT, POA, KAlign), ứng dụng kỹ thuật học máy (PROBCONS, CONTRAlign, MUMMALS), và khai thác các cơ sở dữ liệu được công bố công khai để cải thiện tính chính xác của việc sắp hàng đa chuỗi (PRALINE, MAFFT, PROMALS). Tuy nhiên mỗi một phương pháp đều có một ưu nhược điểm của riêng mình. Do đó một số nhà khoa học đã nhận ra một vấn đề quan trọng là tích hợp nhiều phương pháp vào cùng một công cụ, và sử dụng cây hướng dẫn để có thể giúp đỡ cho các nhà khoa học khác có thểứng dụng dễ dàng.
Nội dung của khóa luận này cũng mang ý nghĩa tương tự. Phần mềm được thiết kế được tích hợp các phương pháp hiện đại và tôi đã đưa ra một phương án tiếp cận trong việc chọn lựa, sử dụng các phương pháp đó một cách hiệu quả. Hai phương pháp sử dụng cây quyết định cho kết quả trên từng bộ dữ liệu chuẩn riêng lẻ luôn cho kết quả khá tốt (xấp xỉ với kết quả của phương án tốt nhất trên bộ dữ liệu đó). Đặc biệt là
điều này vẫn đúng với nhiều bộ dữ liệu chuẩn khác nhau, điều mà các phương pháp khác không thực hiện được. Ngoài ra, một ưu điểm nổi trội của hai phương pháp này là, nó có thể thực hiện được nhiều kiểu dữ liệu khác nhau và cố gắng cho kết quả tốt nhất trong khoảng thời gian cho phép. Đây là một ưu điểm lớn của phương pháp này,
Tài Liệu Tham Khảo
[1] Lê Sỹ Vinh. PhD in 2005 (Heinrich-Heine-University Duesseldorf, Germany). Topic : Phylogenetic tree reconstruction.
[2] Felsenstein, J. (2004). Inferring Phylogenies. Sinauer Associates, Sunderland, Mass.
[3] Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD (2003). "Multiple sequence alignment with the Clustal series of programs"
[4] Kazutaka Katoh,Kazuharu Misawa1,Kei-ichi KumaandTakashi Miyata (2002). MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform
[5] B. Do, Mahathi SP. Mahabhashyam, Michael Brudno, and Serafim Batzoglou (2005). PROBCONS: Probabilistic consistency – based multiple sequence alignment.
[6] Robert C. Edgar (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput
[7] Wilbur, W.J. and Lipman, D.J. (1983). Proc. Natl. Acad. Sci. USA, 80, 726- 730
[8] Saitou, N. and Nei, M. (1987). Mol. Biol. Evol. 4, 406-425. [9] Myers, E.W. and Miller, W. (1988). CABIOS, 4, 11-17. [10] Thompson, J.D. (1994). CABIOS, (Submitted).
[11] Edgar R.C. (2004) Local homology recognition and distance measures in linear time using compressed amino acid alphabets. Nucleic Acids Res., 32, 380 – 385.
[12] Kimura M. (1983) The Neutral Theory of Molecular Evolution. Cambridge University Press
[13] Sneath & Sokal (1973). Numerical Taxonomy. W.H. Freeman and Company, San Francisco, pp 230-234 Unweighted Pair Group Method with Arithmetic Mean.
[14] Muller T., Spang,R. and Vingron,M. (2002) Estimating amino acid substitution models: a comparison of Dayhoff’s estimator, the resolvent approach and a maximum likelihood method. Mol. Biol. Evol., 19, 8–13.
[15] Hirosawa M., Totoki,Y., Hoshida,M. and Ishikawa,M. (1995) Comprehensive study on iterative algorithms of multiple sequence alignment. CABIOS, 11, 13–18.
[16] Miyata,T., Miyazawa,S. and Yasunaga,T. (1979) Two types of amino acid substitutions in protein evolution. J. Mol. Evol., 12, 219–236.
[17] Grantham,R. (1974) Amino acid difference formula to help explain protein evolution. Science, 185, 862–864.
[18] Press,W.H., Teukolsky,S.A., Vetterling,W.T. and Flannery, B.P(1995) Numerical Recipes in C: The Art of Scientific Computing, 2nd Edn. Cambridge University Press, Cambridge, UK.
[19] Vogt,G., Etzold,T. and Argos,P. (1995) An assessment of amino acid exchange matrices in aligning protein sequences: the twilight zone revisited. J. Mol. Biol., 249, 816–831.
[20] Eddy, S.R. (1995). Multiple alignment using hidden Markov models. In.
[21] Viterbi, A.J. (1967). Error bounds for convolutional codes and an
asymptotically optimal decoding algorithm. IEEE Trans. Inf. Theory IT-13: 260- 269.
[22] Henikoff, S. and Henikoff, J.G. (1992). Amino acid substitution matrices
from protein blocks. Proc. Nat. Acad. Sci. 89: 10915-10919.
[23] Thompson, J.D., Plewniak, F., and Poch, O. (1999). BAliBASE: A
benchmark alignment database for the evaluation of multiple alignment programs.Bioinformatics 15: 87-88.
[24] Julie Thompson, Frédéric Plewniak and Olivier Poch (1999) Bioinformatics, 15,87-88. BAliBASE: A benchmark alignments database for the evaluation of multiple sequence alignment programs
[25] Sonnhammer EL, Eddy SR, Durbin R (1997). Sanger Centre, Wellcome Trust Genome Campus, Hinxton, Cambridge, United Kingdom. Pfam: a comprehensive database of protein domain families based on seed alignments.
[26] Chuong B. Do, Kazutaka Katoh (2008) ,Protein Multiple Sequence Alignment, Methods in Molecular Biology vol. 484: Functional Proteomics.