Thuật toán phân cụm đồng thời và ứng dụng

14 420 0
Thuật toán phân cụm đồng thời và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LƯU XUÂN VĂN THUẬT TOÁN PHÂN CỤM ĐỒNG THỜI VÀ ỨNG DỤNG Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Hồng Minh Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu thực Các số liệu, kết phân tích luận văn hoàn toàn trung thực chưa công bố công trình nghiên cứu trước Hà Nội, ngày 21 tháng 12 năm 2015 Tác giả Lưu Xuân Văn LỜI CẢM ƠN Được cho phép Khoa Toán-Cơ-Tin, Trường Đại học Khoa học tự nhiên, ĐHQGHN đồng ý cô giáo hướng dẫn TS Nguyễn Thị Hồng Minh, tác giả thực đề tài nghiên cứu “Thuật toán phân cụm đồng thời ứng dụng” Để hoàn thành luận văn này, tác giả xin chân thành cảm ơn thầy cô giáo Bộ môn Tin học, Khoa Toán-Cơ-Tin tận tình hướng dẫn, giảng dạy tạo điều kiện suốt trình học tập, nghiên cứu rèn luyện trường Đại học Khoa học tự nhiên Tác giả xin tỏ lòng biết ơn sâu sắc đến cô giáo TS Nguyễn Thị Hồng Minh tận tình, chu đáo hướng dẫn, giúp đỡ, tạo điều kiện thuận lợi cho tác giả suốt trình nghiên cứu, thực luận văn Xin chân thành cảm ơn bạn bè động viên, khích lệ tinh thần để tác giả có đủ nghị lực hoàn thành luận văn Mặc dù có nhiều cố gắng để thực đề tài cách hoàn chỉnh Song thời gian thực tế vừa công tác, vừa học với hạn chế kiến thức kinh nghiệm nên tránh khỏi thiếu sót định mà thân chưa thấy được, tác giả mong góp ý quý thầy, cô giáo bạn đồng nghiệp để luận văn nghiên cứu hoàn chỉnh Tác giả xin chân thành cảm ơn! MỤC LỤC Nội dung Trang Mở đầu Chương - Tổng quan phân cụm liệu 1.1 Phân cụm liệu 1.2 Ứng dụng yêu cầu thuật toán phân cụm liệu 1.3 Các kiểu liệu phân cụm 11 1.4 Phép đo độ tương tự khoảng cách kiểu liệu 14 1.5 Một số thuật toán phân cụm 21 Chương - Phân cụm đồng thời 25 2.1 Vấn đề phân cụm đồng thời - Biclustering 25 2.2 Phân loại khối kết phân cụm đồng thời 29 2.3 Cấu trúc khối kết phân cụm đồng thời 31 2.4 Thuật toán phân cụm đồng thời 35 2.4.1 Tìm hiểu thuật toán phân cụm đồng thời theo loại 35 khối kết 2.4.2 Thuật toán Hartigan 42 2.4.3 Thuật toán Cheng & Church 45 2.4.4 Thuật toán Bimax 60 Chương - Ứng dụng phân cụm đồng thời 66 3.1 Ứng dụng phân cụm đồng thời 66 3.2 Hoạt động thực nghiệm 68 Kết luận 78 Danh mục tài liệu tham khảo 80 DANH MỤC CÁC HÌNH Nội dung Hình 1.1 Ví dụ phân cụm liệu Số trang Hình 1.2 Mô hình cấu trúc liệu lưới 10 Hình 2.1 Ví dụ phân cụm đồng thời 26 Hình 2.2 Minh họa ma trận liệu 27 Hình 2.3 Phân loại khối kết phân cụm đồng thời - 30 Biclusters Hình 2.4: Cấu trúc khối kết phân cụm đồng thời 31 Hình 2.5 Chuỗi giai đoạn chia tách thuật toán 44 Hartigan Hình 2.6 Ví dụ ma trận biểu ma trận bicluster 46 Hình 2.7 Ví dụ ma trận (bicluster) quán hoàn hảo 47 Hình 2.8 Biểu đồ biểu diễn mức độ biểu gen theo 48 điều kiện Hình 2.9 Ví dụ ma trận biểu biến đổi logarit 49 Hình 2.10 Biểu đồ biểu diễn mức độ biểu gen theo 50 điều kiện (theo liệu ma trận logarit) Hình 2.11 Biểu đồ biểu gien giá trị MSR tương ứng 54 Hình 2.12 Minh họa hai vectơ nghịch đảo 57 Hình 2.13 Ví dụ ma trận nhị phân 62 Hình 2.14 Sắp xếp lại hàng cột theo thuật toán Bimax 63 Hình 2.15 Các ma trận tiếp tục xử lý lặp theo thuật toán 64 Bimax Hình 3.1 Ma trận liệu đầu vào 69 Hình 3.2 Hình ảnh ma trận liệu đầu vào tô màu 70 Hình 3.3 Hình ảnh Bicluster 25x6 tìm thấy thuật toán Bimax 70 Hình 3.4 Hình ảnh Bicluster 19x7 tìm thấy thuật toán Bimax 71 Hình 3.5 Hình ảnh Bicluster 37x19 tìm thấy thuật toán Cheng 71 & Church Hình 3.6 Hình ảnh Bicluster 33x20 tìm thấy thuật toán Cheng 72 & Church Hình 3.7 Thời gian chạy số thuật toán phân cụm đồng 72 thời Hình 3.8 Thực nghiệm thuật toán Cheng & Church với 74 Hình 3.9 Thực nghiệm thuật toán Cheng & Church với 75 Hình 3.10 Thực nghiệm thuật toán Cheng & Church với 76 Hình 3.11 Thực nghiệm thuật toán Cheng & Church với 76 DANH MỤC CÁC BẢNG Nội dung Số trang Bảng 1.1 Bảng tham số 19 Bảng 2.1 Tổng hợp thuật toán phân cụm đồng thời 42 Bảng 3.1 Tính toán số Jaccard số kết phân cụm đồng 73 thời Bảng 3.2 Tính toán giá trị phương sai số thuật toán phân cụm đồng thời 73 MỞ ĐẦU Việc phân tích liệu biểu gene, mà cụ thể phân nhóm gene có biểu giống thời điểm thành nhóm (cluster) thực thuật toán phân cụm (clustering methods) Các thuật toán thường tìm cách nhóm gene có biểu phụ thuộc toàn điều kiện thí nghiệm Tuy nhiên, thực tế gene thường thể phụ thuộc với số điều kiện độc lập với điều kiện khác Điều dẫn đến hạn chế lớn thuật toán clustering tìm gene thể giống số điều kiện thí nghiệm Để khắc phục hạn chế này, nhà khoa học đề xuất phương pháp phân cụm có tên biclustering (hoặc coclustering) Các thuật toán biclustering tìm cách phân cụm đồng thời hàng (gene) cột (condition) ma trận liệu biểu gene nhằm tìm ma trận thoả mãn số tiêu chí đặt ra, từ giúp hiểu thêm tiến trình sinh học gene cá thể Nhưng gần tất phương pháp tiếp cận đến heuristic không đảm bảo để tìm giải pháp tối ưu Trong trường hợp liệu biểu gene theo chuỗi thời gian, mẫu sinh học thường đo theo thời điểm định nhằm quan sát tiến trình sinh học xảy cá thể Vì vậy, việc tìm mẫu giống khoảng thời gian liên tục đó, hình dung chúng vừa hoàn thành tiến trình sinh học, giai đoạn chức sinh học Việc phân tích liệu thể gene cho phép hiểu chế điều khiển gene tương tác chúng Các mẫu liệu coi bicluster gồm hàng cột ma trận Vì lý đó, tác giả lựa chọn đề tài: “Thuật toán phân cụm đồng thời ứng dụng” hướng nghiên cứu cho luận văn Trong luận văn này, tác giả đặt mục tiêu sau: - Nghiên cứu nội dung liên quan tới phân cụm liệu, số tư tưởng thuật toán bản, - Nghiên cứu số thuật toán phân cụm đồng thời công bố - Ứng dụng số thuật toán biclustering vào tập liệu thực cụ thể, phân tích đánh giá cụm bicluster thu Để hướng tới mục tiêu trên, tác giả thu thập tìm đọc tài liệu, tổng hợp nội dung lý thuyết, thực việc phân tích, nghiên cứu công trình nhà khoa học công bố trước theo bước: - Nghiên cứu lý thuyết phân cụm liệu - Nghiên cứu thuật toán phân cụm đồng thời - Nghiên cứu liệu biểu gene, số lĩnh vực, toán mà phân cụm đồng thời áp dụng - Áp dụng số thuật toán phân cụm đồng thời (biclustering) liệu thực để thực nghiệm đối chứng Sau trình nghiên cứu, tác giả hoàn thành luận văn mình, nội dung luận văn trình bày chương sau: Chương 1: Tổng quan phân cụm liệu Trong chương trình bày tổng quan hoạt động phân cụm liệu, số phương pháp phân cụm liệu phổ biến phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, Chương 2: Phân cụm đồng thời Trong chương trình bày số loại hình, cấu trúc bicluster tồn sở liệu, trình bày số thuật toán tìm kiếm bicluster đó, tóm tắt số kết nghiên cứu thuật toán Chương 3: Ứng dụng phân cụm đồng thời Trong chương trình bày ứng dụng thực tế thực nghiên cứu trước Áp dụng thuật toán phân cụm đồng thời (biclustering) vào liệu thực, xem xét, tìm hiểu bicluster thu CHƯƠNG TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu Khai phá liệu (Data mining) trình trích xuất thông tin có giá trị tiềm ẩn bên tập liệu lớn lưu trữ sở liệu, kho liệu Các nhà khoa học xác định: “Phân cụm liệu kỹ thuật khai phá liệu, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan trọng tập liệu lớn, từ cung cấp thông tin, tri thức hữu ích cho việc định” Phân cụm trình nhóm điểm liệu sở liệu thành cụm cho điểm liệu cụm có độ tương đồng lớn điểm không cụm có tương đồng nhỏ Một cụm đối tượng liệu xem nhóm nhiều ứng dụng, ví dụ: mô hình phân cụm trường dựa tiêu chuẩn thu nhập số nợ Cụm cụm người thu nhập cao, số nợ nhiều Cụm gồm người thu nhập cao nợ Cụm gồm đối tượng thu nhập nợ nhiều Cụm Cụm Nợ Cụm Thu nhập Hình 1.1 Ví dụ phân cụm liệu DANH MỤC TÀI LIỆU THAM KHẢO Ben-Dor, A., B Chor, R Karp, and Z Yakhini (2003), “Discovering local structure in gene expression data: The order-preserving submatrix problem”, Journal of Computational Biology 10, 373-384 Bergmann, S., J Ihmels, and N Barkai (2003), “Iterative signature algorithm for the analysis of large-scale gene expression data”, Physical Review E E 67 031902, 1-18 Cheng, Y and G M Church (2000), “Biclustering of expression data”, Proceedings of the Eighth International Conference on Intelligent Systems for Molecular Biology 1, 93-103 Chun Tang, Li Zhang, Idon Zhang, and Murali Ramanathan Interrelated two-way clustering: an unsupervised approach for gene expression data analysis In Proceedings of the 2nd IEEE International Symposium on Bioinformatics and Bioengineering, pages 41–48, 2001 Claycamp, H J and W F Massy (1968), “A theory of market segmentation”, Journal of Marketing Research (4), pp 388-394 Demirtas, H (2006), “A method for multivariate ordinal data generation given marginal distributions and correlations”, Journal of Statistical Computation and Simulation 76(11), 1017-1025 Dolnicar, S (2002), “A review of data-driven market segmentation in tourism”, Journal of Travel and Tourism Marketing 12 (1), - 22 Dolnicar, S., S Kaiser, K Lazarevski, and F Leisch (2011), “Biclustering overcoming data dimensionality problems in market segmentation”, Journal of Travel Research Eran Segal, Ben Taskar, Audrey Gasch, Nir Friedman, and Daphne Koller Rich probabilistic models for gene expression Bioinformatics, volume 17 (Suppl 1), pages S243–S252, 2001 80 In 10 Eran Segal, Ben Taskar, Audrey Gasch, Nir Friedman, and Daphne Koller Decomposing gene expression into cellular processes In Proceedings of the Pacific Symposium on Biocomputing, volume 8, pages 89–100, 2003 11 Everitt, B S., S Landau, and M Leese (2009), “Cluster Analysis”, London: Wiley 12 Getz, G., E Levine, and E Domany (2000), “Coupled two-way clustering analysis of gene microarray data”, Proceedings of the National Academy of Sciences of the United States of America 97(22), 12079-12084 13 Haixun Wang, Wei Wang, Jiong Yang, and Philip S Yu Clustering by pattern similarity in large data sets In Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data, pages 394–405, 2002 14 Hartigan, J A (1972), “Direct clustering of a data matrix”, Journal of the American Statistical Association 67(337), 123-129 15 Jinze Liu and Wei Wang Op-cluster: Clustering by tendency in high dimensional space In Proceedings of the 3rd IEEE International Conference on Data Mining, pages 187–194, 2003 16 Kluger, Y., R Basri, J T Chang, and M Gerstein (2003), “Spectral biclustering of microarray data: Coclustering genes and conditions”, Genome Research 13, 703-716 17 Lazzeroni, L and A Owen (2002), “Plaid models for gene expression data”, Statistica Sinica 12, 61-86 18 Lee, M., H Shen, J Z Huang, and J S Marron (2010, Feb), “Biclustering via sparse singular value decomposition”, Biometrics 19 Madeira, S C and A L Oliveira (2004) “Biclustering algorithms for biological data analysis: A survey”, IEEE/ACM Transactions on Computational Biology and Bioinformatics (1), 24-45 81 20 Mechelen, I V., H.-H Bock, and P D Boeck (2004), “Two-mode clustering methods: a structured overview”, StatisticalMethods in Medical Research 13, 363-394 21 Prelic, A., S Bleuler, P Zimmermann, A Wil, P Buhlmann, W Gruissem, L Hennig, L Thiele, and E Zitzler (2006), “A systematic comparison and evaluation of biclustering methods for gene expression data”, Bioinformatics 22(9), 1122-1129 22 R Tibshirani, T Hastie, M Eisen, D Ross, D Botstein, and P Brown Clustering methods for the analysis of DNA microarray data Technical report, Department of Health Research and Policy, Department of Genetics and Department of Biochemestry, Stanford University, 1999 23 Sheng, Q., Y Moreau, and B D Moor (2003), “Biclustering microarray data by Gibbs sampling”, Bioinformatics 19 24 Smith, W R (1956), “Product differentiation and market segmentation as alternative marketing strategies”, The Journal of Marketing 21 (1), pp 3-8 25 Stanislav Busygin, Gerrit Jacobsen, and Ewald Kramer Double conjugated clustering applied o leukemia microarray data In Proceedings of the 2nd SIAM International Conference on Data Mining, Workshop on Clustering High Dimensional Data, 2002 26 Tanay, A., R Sharan, and R Shamir (2002), “Discovering statistically significant biclusters in gene expression data”, Bioinformatics 18(1), 136-144 27 Tanay, A., R Sharan, and R Shamir (2005), “Biclustering Algorithms: A Survey”, In Handbook of Computational Molecular Biology / CRC Computer and Information Science Series 28 Turner, H., T Bailey, and W Krzanowski (2005), “Improved biclustering of microarray data demonstrated through systematic 82 performance tests”, Computational Statistics and Data Analysis 48, 235-254 29 T M Murali and Simon Kasif Extracting conserved gene expression motifs from gene expression data In Proceedings of the Pacific Symposium on Biocomputing, volume 8, pages 77–88, 2003 30 Williams, G J (2009, December), “Rattle: A data mining gui for r”, The R Journal (2), 45-55 31 Wikipedia, “Biclustering”, http://en.wikipedia.org/wiki/Biclustering 83

Ngày đăng: 29/08/2016, 22:08

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan