Kết quả và thảo luận

- Output: l(k) (2 k≤ m) các chuỗi con và độ dài của nó.

KẾT QUẢ THỰC NGHIỆM

4.4. Kết quả và thảo luận

Việc tìm kiếm bicluster là một bài toán khó, dựa trên từng loại dữ liệu cụ thể mà chúng ta quyết định sử dụng thuật toán nào cho phù hợp. Đặc biệt với dữ liệu biểu hiện gien theo chuỗi thời gian, đòi hỏi bicluster tìm được phải nằm trong một khoảng thời điểm liên tục, với sự gắn kết các cột láng giềng. Ngoài ra, số lượng cũng ảnh hưởng đến chất lượng của các bicluster tìm được. Với ma trận biểu hiện gien theo chuỗi thời gian việc xác định tất cả biclusters dựa trên cây hậu tố tổng quát là một đề xuất hiệu quả.

Với hai bộ dữ liệu Yeaststress và CellCycle chúng tôi đã chạy thử nghiệm trên thuật toán CCC-Biclustering, chọn 10 bicluster đầu tiên chúng tôi thấy khả năng thể hiện của các gien trong một bicluster là rất tương đồng, chẳng hạn như bicluster 8 (hình 4.4) có 14 gien trong 4 thời điểm liên tục. Điều này có nghĩa nhóm gien trong cùng một phản ứng nhiệt có sự biến thiên tương đồng trong khoảng thời gian. Ngoài ra, để tham khảo chức năng sinh học của các gien trong bicluster tìm được, chúng tôi sử dụng thông tin chú

giải gien từ dữ liệu từ điển gien GO (Gene Ontology) là GoToolBox mô tả cấu trúc gien gồm: từ điển chức năng phân tử (molecular function), từ điển các tiến trình sinh học (boilogical processes), và từ điển các thành phần tế bào (cellular componets). Mỗi nút của một cấu trúc được gọi là một term và được đánh số duy nhất, có thể có nhiều gien liên kết với một term. Như trong bicluster8 (hình 4.4) có một gien là PMP1 có từ điển sinh học là:

Gene: PMP1

Annotated GO Terms: 5

GO:0030234 enzyme regulator activity GO:0016020 membrane

GO:0006812 cation transport GO:0005886 plasma membrane GO:0016021 integral to membrane

Những phát triển gần đây của các kỹ thuật DNA và công nghệ hiện đại, người ta có thể đo được mức độ biểu hiện của một số lượng lớn các gien trong các điều kiện thực nghiệm khác nhau. Phương pháp học máy không có giám sát đã được sử dụng trong phân tích dữ liệu biểu hiện gien. Gần đây, biclustering một cách tiếp cận không giám sát thực hiện phân nhóm đồng thời kích thước gien và điều kiện của ma trận biểu hiện gien, đã được chứng minh là hiệu quả đáng kể trong một loạt các ứng dụng. Những lợi thế của biclustering trong việc khám phá mẫu cục bộ, mô tả liên kết chặt chẽ của tập các gien trong tập các điều kiện đã được nghiên cứu.

Một kiểu đặc biệt của dữ liệu biểu hiện gien được thể hiện theo thời gian thu được từ thí nghiệm microarray thực hiện trong thời gian chốc lát, là một phương thức ngày càng phổ biến để nghiên cứu một loạt các tiến trình sinh học phức tạp chuyên nghiệp, chẳng hạn như tiến triển bệnh, tăng trưởng, phát triển, và phản ứng thuốc [10]. Tuy nhiên, khi phân tích các nhà nghiên cứu thí nghiệm phải đối mặt với nhiều thách thức tính toán mới. Các thuật

dụng lợi thế của các tính năng độc đáo và giải quyết những vấn đề duy nhất. Mặc dù hầu hết các công thức của biclustering vẫn là NP-khó, khi làm việc với các dữ liệu biểu hiện gien theo chuỗi thời gian.

Thuật toán CCC-Biclustering là một thuật toán hiệu quả trong việc tìm và đưa ra tất cả các bicluster cực đại gắn kết cột liên tục có thời gian tuyến tính với kích thước ma trận thể hiện. Phương pháp chấm điểm để xếp hạng CCC-Biclusters dựa trên ý nghĩa thống kê. Các kết quả thu được bằng cách sử dụng một bản dịch mô hình hiện tượng xảy ra trong phản ứng stress nhiệt, cho thấy không chỉ khả năng của phương pháp đề xuất để trích xuất thông tin có liên quan tương thích với kiến thức sinh học mà còn tiện ích của thuật toán. Hơn nữa, những thí nghiệm đã chứng minh rằng việc chuẩn hóa ma trận dữ liệu được sử dụng như một bước tiền xử lý của biclustering không tác động tiêu cực đến ý nghĩa thống kê của kết quả tìm được.

CCC-Biclustering xác định các mẫu biểu hiện hoàn hảo do đó không thể giải quyết hết các lỗi đo lường, vốn có trong các thí nghiệm microarray, và các lỗi chuẩn hóa do ngưỡng lựa chọn nghèo làn hoặc số lượng ký tự, do vậy e-CCC-Biclustering, một thuật toán tìm các mẫu biểu hiện gần đúng trong thời gian đa thức với kích thước của ma trận. Các kết quả với dữ liệu thực cho thấy việc xét các mô hình gần đúng có thể xác định các gien liên quan.

Việc xác định các gien, đồng thời tham gia vào các tiến trình sinh học, vẫn là một trong những con đường mở cho các nhà nghiên cứu, khả năng hiệu quả của các phương pháp được đề xuất để xác định các bộ gien theo thống kê và sinh học, hiển thị các mẫu có liên quan phát hiện ra các hiện tượng sinh học, dẫn đến bằng chứng thuyết phục của cơ chế cụ thể.

KẾT LUẬN

Sau quá trình tìm hiểu, nghiên cứu và thực hiện luận văn tôi đã tích lũy cho mình thêm nhiều kiến thức về sinh học, toán học, kỹ thuật xử lý dữ liệu, và đặc biệt là rèn luyện kỹ năng để thực hiện nghiên cứu khoa học cụ thể là những kết quả sau đây:

Tìm hiểu được một số kiến thức tổng quan về cây hậu tố, một trong những phương pháp xử lý chuỗi hiệu quả, những ưu điểm của cây hậu tố là nó cho phép dễ dàng thay đổi và mở rộng cấu trúc mỗi khi có sự cập nhật dữ liệu. Tính chất này cho phép xử lý trên một tập dữ liệu lớn với nhiều dạng dữ liệu khác nhau, tiết kiệm được thời gian và không gian xử lý dữ liệu. Ứng dụng cây hậu tố để xử lý, tìm kiếm chuỗi, ngoài ra ứng dụng của cây hậu tố trong Sinh học để tìm kiếm chuỗi DNA và ứng dụng trong Hóa học để xử lý các Protein.

Nắm được các kiến thức tổng quan về biclustering, một trong những phương pháp hiệu quả trong khai phá dữ liệu biểu hiện gien theo chuỗi thời gian. Nội dung của hai thuật toán tìm kiếm bicluster dựa trên cây hậu tố tổng quát. Thuật toán CCC-Biclustering tìm kiếm bicluster với mẫu biểu hiện hoàn hảo. Mỗi bicluster tương ứng với một nút trong của cây hậu tố thể hiện một chuỗi con (các hàng của ma trận). Thuật toán e-CCC-Biclustering có mối quan hệ tương đồng giữa các e-CCC-Biclusters cực đại với các mẫu motifs phổ biến của tập các chuỗi (strings). Việc tìm kiếm tất cả các e-CCC-Bicluster cực đại cho đến nay vẫn chưa có một thuật toán hiệu quả nào được đề xuất để giải quyết. Song đối với việc tìm kiếm các mẫu motifs phổ biến đến nay có một số thuật toán hiệu quả dựa trên các kỹ thuật xử lý chuỗi đã được đề xuất.

đã áp dụng một số thuật toán vào hai bộ dữ liệu biểu hiện gien theo thời gian. Khi thu được các bicluster chúng tôi tiến hành phân tích chúng để tìm ra các ý nghĩa sinh học liên quan.

Với tầm quan trọng của phát hiện các mẫu tổng quát hơn cho việc nghiên cứu dữ liệu biểu hiện gien theo chuỗi thời gian. Chúng tôi đề xuất mở rộng cả thuật toán CCC-Biclustering và e-CCC Biclustering có thể khám phá biclusters với quy mô hơn, chất lượng hơn, thời gian trễ giữa các mẫu biểu hiện, xử lý giá trị khuyết thiếu và thống nhất phương pháp chấm điểm để giải quyết biclusters với những mô hình biểu hiện chung.

Trong thời gian tới, chúng tôi sẽ nghiên cứu và cải tiến các thuật toán biclustering để nâng cao hiệu quả hơn khi làm việc với cơ sở dữ liệu biểu hiện gien lớn. Vì các thuật toán CCC-biclustering và e-CCC-biclustering dựa trên cây hậu tố rất tốn không gian lưu trữ, chúng tôi sẽ đề xuất sử dụng mảng hậu tố kết hợp với phương pháp sử dụng hàm băm (hash table) để khắc phục hạn chế này.

Tài liệu tham khảo

[1]. A.P. Gasch, P. T. Spell man, C. M. Kao, O. Carmel-Harel, M. B. Eisen, G. Storz, D. Botstein, and P. O. Brown. Genomic expression programs in the response of yeast cells to environmental changes. Molecular Biology of the Cell, 11: 4241–4257, 2000.

[2]. BiGGEsTS: http://kdbio.inesc-id.pt/software/biggests/ [October 6, 2008]

[3]. CCC- Biclustering. http://kdbio.inesc-id.pt/software/ccc-biclutering [October 6,

2008].

[4]. Cheng & Church. Biclustering of Expression Data. In proc, of the 8th International

Conference on Intelligent Systems for Molecular Biology, pages 93–103, 2000.

[5]. D. Gusﬁeld. Algorithms on strings, trees, and sequences. Computer Science and Computational Biology Series. Cambridge University Press, 1997.

[6]. E. Ukkonen. On-line construction of suffix trees. Algorithmica, 14:249-260, 1995 [7]. e-CCC- Biclustering. http://kdbio.inesc-id.pt/software/e-ccc-biclutering [October 6,

2008].

[8]. G. J. McLachlan, K. Do, and C. Ambroise. Analysing microarray gene expression data. Wiley Series in Probability and Statistics, 2004.

[9]. I. P. Androulakis, E. Yang, and R .R .Almon. Analysis of time-series gene expression data: methods, challenges, and opportunities. Annual Review of Biomedical Engineering, 9: 205–228, 2007.

[10]. I. Van Mechelen, H. H. Bock, and P. De Boeck. Two mode clustering methods: a structured overview. Statistical Methods in Medical Research, 13(5):979–981, 2004.

[11]. Inferene of Complex Motifs using Bilustering Tehniques

[12]. L. Ji and K. Tan. Identifying time-lagged gene clusters using gene expression data.

Bioinformatics, 21(4): 509-516, 2005

[13]. L. Ji and K. Tan. Mining gene expression data for positive and negative co- regulated gene clusters. Bioinformatics, 20(16): 2711–2718, 2004.

[14]. M.-F. Sagot. Spelling approximate repeated or common motifs using a suffix tree.

In Proc. of Latin’98, pages 111–127. Springer Verlag, LNCS 1380, 1998.

[15]. Materials and methods

[16]. R. Peeters. The maximun edege biclique problem NP-complete

[17]. S. C. Madeira and A. L. Oliveira. A linear time biclustering algorithm for time series gene expression data. In Proc. of 5th Workshop on Algorithms in Bioinformatics, pages 39–52. Springer Verlag, LNCS/LNBI 3692, 2005

[18]. S. C. Madeira and A. L. Oliveira. A polynomial time biclustering algorithm for ﬁnding approximate expression patterns in gene expression time series. BMC

[19]. S. C. Madeira and A. L. Oliveira. An efficient biclustering algorithm for finding genes with similar patterns in time-series gene expression data. In Proc. of the 5th Asia Paciﬁc Bioinformatics Conference, Series in Advances in Bioinformatics and Computational Biology, volume 5, pages 67–80. Imperial College Press, 2007.

[20]. S. C. Madeira and A. L. Oliveira. An evaluation of discretization methods for non- supervised analysis of time series gene expression data

[21]. S. C. Madeira and A. L. Oliveira. Biclustering algorithms for biological data analysis: a survey. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1(1): 24–45, January–March 2004.

[22]. S. C. Madeira and A. L. Oliveira. Efficient Biclustering Algorithms for Time Series Gene Expression Data Analysis

[23]. S. C. Madeira and A. L. Oliveira. Identiﬁcation of regulatory modules in time series gene expression data using a linear time biclustering algorithm. EEE/ACM Transactions on Computational Biology and Bioinformatics, 21 Mar 2008. IEEE Computer Society Digital Library . IEEE Computer Society, 24 March 2008.

[24]. Selnur Erdal , Ozgur Ozturk. A time series analysis of microarray data [25]. Stefano Lonardi Qiaofeng Yang. Finding biclusters by random projections

[26]. S. Tavazoie, J. D. Hughes, M. J. Campbell, R . J. Cho, and G. M. Church. Systematic determination of genetic network architecture. Nature Genetics, 22: 281–285, 1999.

[27]. T. Zeng and J. Liu. Analysis on time-lagged gene clusters in time series expression data. In Proc. of the 2007 International Conference on Computational Intelligence and Security, pages 181–185. IEEE Computer Society, 2007.

[28]. Y. Yin, Y. Zhao, B. Zhang, and G. Wang. Mining time-shifting co-regulation patterns from gene expression data

[29]. Yeast cell cycle project. http://genome-www.stanford.edu/cellcycle

[30]. Y. Zhang, H. Zha, and C. H. Chu. A time-series biclustering algorithm for revealing co-regulated genes. In Proc. of the 5th IEEE International Conference on Information Technology: Coding and Computing, pages 32–37, 2005.

Chuẩn hóa dữ liệu biểu hiện gien

CCC-Bicluster và cây hậu tố tổng quát