chất của histone.
Các feature hữu ích được chọn ra sau khi huấn luyện mô hình cho chúng ta thấy được mối quan hệ giữa các tính chất của histone và dãy DNA. Nhìn vào Bảng 9 và Bảng 10 chúng ta có thể thấy (1) các feature hữu ích đối với mức độ choán chỗ của các histone H3, H4 (2) các feature hữu ích đối với tính chất acetyl hóa và (3) các feature hữu ích đối với tính chất methyl hóa của histone. Chúng ta thấy những vùng có mức choán chỗ của histone thấp xuất hiện các feature TATA, và các feature giàu cặp CG9 (Bảng 10). Điều này cho thấy ở vùng khởi đầu và vùng promoter của gene sự choán chỗ của các histone là thấp, phù hợp với các nghiên cứu trước đó [7,15]. Trong khi đó tại vùng promoter và vị trí bắt đầu phiên mã của gene thì tính chất acetyl hóa tại H3K9 và H3K14 lại ở mức cao (Bảng 9), điều này cũng phù hợp với các kết luận trong [25] và [27]. Riêng tính chất methyl hóa thì phức tạp hơn, chúng thường xuất hiện cao ở đoạn đầu của vùng mã hóa gene (H3K4me2, H3K4me3) và một số vị trí khác lại có mức methyl hóa cao ởđoạn giữa và đoạn kết thúc vùng mã hóa gene (H3K4me1, H3K36me3, H3K39me3). Các kết quả này đều phù hợp với kết luận trong các nghiên cứu thực nghiệm trước đó [5,14,27].
KẾT LUẬN
5.1 Nội dung của luận văn
5.1.1 Các kết quả đạt được
Sau một thời gian nghiên cứu và thực hiện luận văn tôi thấy đã đạt được những kết quả chính sau đây:
Trình bày một hướng tiếp cận mới cho bài toán dựđoán sự choán chỗ và các trạng thái thay đổi của histone trong chuỗi DNA. Đây là một trong những nghiên cứu đầu tiên áp dụng mô hình tính toán vào dạng bài toán này. Kết quả các thí nghiệm cho thấy kết quả chúng tôi thu được phù hợp với các nghiên cứu thực nghiệm. Kết quả dự đoán tương đối cao (cao nhất 88.36%) thể hiện bản chất bài toán tận dụng được thế mạnh của mô hình CRFs.
Đưa ra cách biểu diễn dãy DNA để tích hợp được các đặc trưng của dãy DNA vào mô hình xác suất điều kiện. Đồng thời việc tìm ra các feature liên quan đến các vùng có tính chất acetyl hóa và methyl hóa với mức độ cao/thấp là có ích đối với những người làm thực nghiệm. Kết quả này có thể giúp các nhà thực nghiệm kiểm tra lại các kết quả trên một dãy DNA mới, hoặc giúp họ có một định hướng trong việc lựa chọn các kháng thểđể nghiên cứu.
Tìm hiểu được các vấn đề tổng quan trong tin-sinh học. Bằng những kiến thức thu được trong quá trình làm luận văn tôi đã có được một lượng kiến thức khá đầy đủ về các khái niệm, cấu tạo và chức năng của các đại phân tử trong sinh học phân tử, cũng như cơ chế và sự tương tác giữa chúng trong tế bào. Đồng thời tôi cũng phát hiện ra được các bài toán quan trọng trong tin- sinh học nhằm xử lý khối lượng dữ liệu mà các nhà sinh học đưa ra hàng năm.
Ngoài ra, trong quá trình nghiên cứu tôi cũng tự tích lũy thêm cho mình các kiến thức về toán học, về kỹ thuật xử lý dữ liệu lớn,…Và quan trọng là rèn luyện kỹ năng để thực hiện một nghiên cứu khoa học. Tuy mới chỉ là bước đầu, nhưng những kết quả này sẽ giúp ích cho tôi trong những nghiên cứu sau này để thu được những kết quả tốt hơn.
5.1.2 Một số hạn chế cần khắc phục.
Bên cạnh những kết quả đạt được, cũng còn một số hạn chế mà luận văn chưa đạt được.
Cách chọn nhãn (0,1) cho dữ liệu để huấn luyện và thử nghiệm mô hình là định tính. Việc chọn ngưỡng 0.8 và 1.2 có thể bỏ sót nhiều phần tử quan trọng trong dữ liệu thực nghiệm.
Các feature biểu diễn dãy DNA để tích hợp vào mô hình CRFs còn đơn giản, chỉ dựa vào chuỗi DNA. Vì thực tế, các dãy DNA không tồn tại riêng lẻ mà chúng luôn chịu tác động của các phần tử phức tạp khác trong tế bào.
Mô hình CRFs chưa tích hợp được được các thông tin về tần xuất xuất hiện của các feature. Trong cùng một quan sát thì những feature xuất hiện với tần xuất lớn hơn sẽ có ý nghĩa hơn.
5.2 Công việc tiếp theo
Dựa trên những kết quả đạt được trong luận văn, tôi đề xuất một số cải tiến trong trong tương lai để tăng độ chính xác cho mô hình dựđoán.
Thực hiện dựđoán trên dữ liệu định lượng.
Khám phá mối quan hệ giữa các trạng thái (acetyl hóa, methyl hóa,..) tại một số vị trí trên histone protein và quá trình thể hiện gene. Kết hợp với dữ liệu
Đưa thêm các thông tin khác vào dữ liệu huấn luyện và thử nghiệm mô hình. Các thông tin này có thểđược lấy từ các cơ sở dữ liệu TRANSFAC10 và dữ liệu thể hiện gene.
PUBLICATION
1. Tran D.H, Pham T.H., Satou K. and Ho T.B. (2006), “Conditional Random Fields for Predicting and Analyzing Histone Occupancy, Acetylation and Methylation Areas in DNA Sequences”, 4th European Workshop on Evolutionary Computation and Machine Learning in Bioinformatics, Budapest, 10-12 April, Lecture Notes in Computer Science, LNCS 3907, Springer, pp.221-230.
2. Pham T.H., Tran D.H., Ho T.B., Satou K., Valiente G. (2005). Qualitatively Predicting Acetylation and Methylation Areas in DNA Sequences, Genome Informatics 2005, Yokohama, Universal Academic Press, Vol. 15, No. 2
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Hồ Huỳnh Thùy Dương (2003), Sinh học phân tử, NXB Giáo dục. 2. Nguyễn Tiến Thắng, Nguyễn Đình Huyên (1998), Giáo trình sinh hóa
hiện đại, NXB Giáo dục.
Tiếng Anh
3. Alberts B. et al. (2002), Molecular Biology of the CELL, 4th edition, Gerland Science Publishing.
4. Ben B., Robert F., and et al. (2000), “Genome-wide location and function of DNA binding proteins”, Science, 290(500) , pp.2306-2309. 5. Berger S.L (2002), “Histone modifications in transcriptional
regulation”, Curr. Opin. Genet. Dev., (12), pp.142-148.
6. Bernstein B.E., Humphrey E.L., Erlich R.L and Schreiber S.L. (2002), “Methylation of histone H3 Lys 4 in coding regions of active genes”,
Pro. Natl. Acad. Sci. USA
7. Bernstein B.E.,Liu C.L., Humphrey E.L and Schreuber S.L. (2004), “Global nucleosome occupancy in yeast”, Genome Biology, 5(9),R62. 8. Boeger H., Griesenbeck J., Strattan J.S., and Kornberg R.D. (2003),
“Nucleosomes unfold completely at a transcriptionally active promoter”, Mol.Cell 11,pp.1587-1598.
9. Culotta A, Kulp D. and McCallum A. (2005), “Gene Prediction with Conditional Random Fields”, Techical Report IR-443, University of
Massachusetts.
10. Darroch J. and Ratcliff D. (1972), “Generalized iterative scaling”, The
Annals of Mathematical Statistics, (43), pp.1470-1480.
11. Deckert J. and Struhl K. (2001), “Histone acetylation at promoters is differentially affected by specific activators and repressors”, Mol. Cell.
Biol.,( 21),pp. 2726-2735.
12. Della S., Della V., and Lafferty J. (1997), “Inducing features of random fields”, IEEE transaction on pattern analysis and machine intelligence
models, 19(4), pp. 380-393.
13. Feng Q., Wang H, Ng H.H., Tempst P., Struhl K., Zhang Y. (2002), “Methylation of H3-Lysine 79 is Mediated by a New Family of HMTases without a SET Domain”, Current Biology, 12(2), pp.1052- 1058.
14. Kouzarides T. (2002), “Histone methylation in transcriptional control”,
Curr. Opin. Genet. Dev., 12(2), pp.198-209.
15. Kurdistani S.K., Tavazoie S., and Grunstein M. (2004), “Mapping global histone acetylation patterns to gene expression”, Cell, 117(6), pp.721-733.
16. Lafferty L., McCallum A. and Fereia F. (2001), “Conditional Random Fields: Probabilistic Models for Segmenting and Labelling Seqence Data”, Proc. International Conference on Machine Learning.
17. Lee C.K., Shibata Y., Rao B., Strahl B.D, and Lieb J.D (2004), “Evidence for nucleosome depletion at active regulatory regions genome-wide”, Nat. Genet., 36(8), pp.900-905.
18. Luger K., Mader A.W., Richmond R.K., Sargent D.F., and Richmond T.J. (1997), “Crystal structure of the nucleosome core particle at 2.8 A resolution”, Nature, 389(6648), pp.251-260.
19. McCallum A. (2003), “Efficiently Inducing Features of Conditional Random Fields”, Proc. Uncertainty in Artifical Intelligence.
20. McCallum A. and Pereira F. (2000), “Maximum Entropy Markov Models for Information Extraction and Segmentation”, Proc.
International Conference on Machine Learning.
22. Mitchell T. (1997), Machine Learning, McGraw-Hill, Singapo.
23. Nagy P., Cleary M.L., Brown P.O. Leib J.D. (2003), “Genomewide demarcation of RNA polymerase II transcription units revealed by physical fractionation of chromatin”, PNAS, 100(11), pp.6364-6369. 24. Narlikar G.J., Fan H.Y., and Kingston R.E. (2002), “Cooperation
between complexes that regulate chromatin structure and transcription”, Cell, 108(4), pp.475-487.
25. Peterson C.L., and Laniel M.A. (2004), “Histones and histone modifications”, Curr. Biol., 14(14), pp.:546-551.
26. Pham T.H., Tran D.H., Ho T.B., Satou K. and Valiente G. (2005), “Qualitatively predicting acetylation and methylation areas in DNA sequences”, Genome informatics, 16(2), pp.3-11.
27. Pokholok D.K, Harbison C.T, Levine S., Cole M., Hannett N.M, Lee T.I., Bell G.W., Walker K., Rolfe P.A., Herbolsheimer E., Zeitlinger J., Lewitter F., Gifford D.K., and Young R.A. (2005), “Genome-wide map of nucleosome acetylation and methylation in yeast”, Cell, 122(4), pp.517-527.
28. Rabiner L.R. (1989), “A tutorial on hidden markov models and selected applications in speech recognition”, Proceedings of IEEE, pp.257-286. 29. Robert F., Pokholok D.K, Hannett N.M., Rinaldi N.J., Chandy M.,
Rolfe A., Workman J.L., Gifford D.K and Young R.A. (2004), “Global position and recruitment of HATs and HDACs in the yeast genome”,
Mol.Cell, (16),pp.199-209.
30. Robyr D. Suka Y., Xenarios I., Kurdistani S.K., Wang A., Suka N., and Grunstein M. (2002), “Microarray deacetylation maps determine genome-wide functions for yeast histone deacetylaces”, Cell, 109(4), pp.437-446.
31. Roh T.Y, Ngau W.C., Cui K., Landsman D., and Zhao K. (2004), “High-resolution genome-wide mapping of histone modifications”,
32. Schubeler D., MacAlpine D.M., Scalzo D., Wirbelauer C., Kooperberg C. and et al. (2004), “The histone modifications patterns of active genes revealed through genome-wide chromatin analysis of a higher eukaryote”, Genes Dev. (18), pp.1263-1271.
33. Sha F. and Pereira F. (2003), “Shallow Parsing with Conditional Random Fields”, Proc. International Conference on Machine Learning. 34. Tran D.H, Pham T.H., Satou K. and Ho T.B. (2006), “Conditional
Random Fields for Predicting and Analyzing Histone Occupancy, Acetylation and Methylation Areas in DNA Sequences”, 4th European
Workshop on Evolutionary Computation and Machine Learning in Bioinformatics, Budapest, 10-12 April, Lecture Notes in Computer
Science, LNCS 3907, Springer, pp.221-230.
35. Wallach H. (2002), Efficient Training of Conditional Random Fields, Master thesis on Computer Science, University of Edinburgh.
36. http://www.ece.northwestern.edu/~nocedal/lbfgs.html
37. http://crf.sourceforge.net/