1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Thuật toán phân cụm đồng thời và ứng dụng

90 214 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 90
Dung lượng 4,74 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LƯU XUÂN VĂN THUẬT TOÁN PHÂN CỤM ĐỒNG THỜI VÀ ỨNG DỤNG Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Hồng Minh Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu thực Các số liệu, kết phân tích luận văn hoàn toàn trung thực chưa công bố công trình nghiên cứu trước Hà Nội, ngày 21 tháng 12 năm 2015 Tác giả Lưu Xuân Văn LỜI CẢM ƠN Được cho phép Khoa Toán-Cơ-Tin, Trường Đại học Khoa học tự nhiên, ĐHQGHN đồng ý cô giáo hướng dẫn TS Nguyễn Thị Hồng Minh, tác giả thực đề tài nghiên cứu “Thuật toán phân cụm đồng thời ứng dụng” Để hoàn thành luận văn này, tác giả xin chân thành cảm ơn thầy cô giáo Bộ môn Tin học, Khoa Toán-Cơ-Tin tận tình hướng dẫn, giảng dạy tạo điều kiện suốt trình học tập, nghiên cứu rèn luyện trường Đại học Khoa học tự nhiên Tác giả xin tỏ lòng biết ơn sâu sắc đến cô giáo TS Nguyễn Thị Hồng Minh tận tình, chu đáo hướng dẫn, giúp đỡ, tạo điều kiện thuận lợi cho tác giả suốt trình nghiên cứu, thực luận văn Xin chân thành cảm ơn bạn bè động viên, khích lệ tinh thần để tác giả có đủ nghị lực hoàn thành luận văn Mặc dù có nhiều cố gắng để thực đề tài cách hoàn chỉnh Song thời gian thực tế vừa công tác, vừa học với hạn chế kiến thức kinh nghiệm nên tránh khỏi thiếu sót định mà thân chưa thấy được, tác giả mong góp ý quý thầy, cô giáo bạn đồng nghiệp để luận văn nghiên cứu hoàn chỉnh Tác giả xin chân thành cảm ơn! MỤC LỤC Nội dung Trang Mở đầu Chương - Tổng quan phân cụm liệu 1.1 Phân cụm liệu 1.2 Ứng dụng yêu cầu thuật toán phân cụm liệu 1.3 Các kiểu liệu phân cụm 11 1.4 Phép đo độ tương tự khoảng cách kiểu liệu 14 1.5 Một số thuật toán phân cụm 21 Chương - Phân cụm đồng thời 25 2.1 Vấn đề phân cụm đồng thời - Biclustering 25 2.2 Phân loại khối kết phân cụm đồng thời 29 2.3 Cấu trúc khối kết phân cụm đồng thời 31 2.4 Thuật toán phân cụm đồng thời 35 2.4.1 Tìm hiểu thuật toán phân cụm đồng thời theo loại 35 khối kết 2.4.2 Thuật toán Hartigan 42 2.4.3 Thuật toán Cheng & Church 45 2.4.4 Thuật toán Bimax 60 Chương - Ứng dụng phân cụm đồng thời 66 3.1 Ứng dụng phân cụm đồng thời 66 3.2 Hoạt động thực nghiệm 68 Kết luận 78 Danh mục tài liệu tham khảo 80 DANH MỤC CÁC HÌNH Nội dung Hình 1.1 Ví dụ phân cụm liệu Số trang Hình 1.2 Mô hình cấu trúc liệu lưới 10 Hình 2.1 Ví dụ phân cụm đồng thời 26 Hình 2.2 Minh họa ma trận liệu 27 Hình 2.3 Phân loại khối kết phân cụm đồng thời - 30 Biclusters Hình 2.4: Cấu trúc khối kết phân cụm đồng thời 31 Hình 2.5 Chuỗi giai đoạn chia tách thuật toán 44 Hartigan Hình 2.6 Ví dụ ma trận biểu ma trận bicluster 46 Hình 2.7 Ví dụ ma trận (bicluster) quán hoàn hảo 47 Hình 2.8 Biểu đồ biểu diễn mức độ biểu gen theo 48 điều kiện Hình 2.9 Ví dụ ma trận biểu biến đổi logarit 49 Hình 2.10 Biểu đồ biểu diễn mức độ biểu gen theo 50 điều kiện (theo liệu ma trận logarit) Hình 2.11 Biểu đồ biểu gien giá trị MSR tương ứng 54 Hình 2.12 Minh họa hai vectơ nghịch đảo 57 Hình 2.13 Ví dụ ma trận nhị phân 62 Hình 2.14 Sắp xếp lại hàng cột theo thuật toán Bimax 63 Hình 2.15 Các ma trận tiếp tục xử lý lặp theo thuật toán 64 Bimax Hình 3.1 Ma trận liệu đầu vào 69 Hình 3.2 Hình ảnh ma trận liệu đầu vào tô màu 70 Hình 3.3 Hình ảnh Bicluster 25x6 tìm thấy thuật toán Bimax 70 Hình 3.4 Hình ảnh Bicluster 19x7 tìm thấy thuật toán Bimax 71 Hình 3.5 Hình ảnh Bicluster 37x19 tìm thấy thuật toán Cheng 71 & Church Hình 3.6 Hình ảnh Bicluster 33x20 tìm thấy thuật toán Cheng 72 & Church Hình 3.7 Thời gian chạy số thuật toán phân cụm đồng 72 thời Hình 3.8 Thực nghiệm thuật toán Cheng & Church với 74 Hình 3.9 Thực nghiệm thuật toán Cheng & Church với 75 Hình 3.10 Thực nghiệm thuật toán Cheng & Church với 76 Hình 3.11 Thực nghiệm thuật toán Cheng & Church với 76 DANH MỤC CÁC BẢNG Nội dung Số trang Bảng 1.1 Bảng tham số 19 Bảng 2.1 Tổng hợp thuật toán phân cụm đồng thời 42 Bảng 3.1 Tính toán số Jaccard số kết phân cụm đồng 73 thời Bảng 3.2 Tính toán giá trị phương sai số thuật toán phân cụm đồng thời 73 MỞ ĐẦU Việc phân tích liệu biểu gene, mà cụ thể phân nhóm gene có biểu giống thời điểm thành nhóm (cluster) thực thuật toán phân cụm (clustering methods) Các thuật toán thường tìm cách nhóm gene có biểu phụ thuộc toàn điều kiện thí nghiệm Tuy nhiên, thực tế gene thường thể phụ thuộc với số điều kiện độc lập với điều kiện khác Điều dẫn đến hạn chế lớn thuật toán clustering tìm gene thể giống số điều kiện thí nghiệm Để khắc phục hạn chế này, nhà khoa học đề xuất phương pháp phân cụm có tên biclustering (hoặc coclustering) Các thuật toán biclustering tìm cách phân cụm đồng thời hàng (gene) cột (condition) ma trận liệu biểu gene nhằm tìm ma trận thoả mãn số tiêu chí đặt ra, từ giúp hiểu thêm tiến trình sinh học gene cá thể Nhưng gần tất phương pháp tiếp cận đến heuristic không đảm bảo để tìm giải pháp tối ưu Trong trường hợp liệu biểu gene theo chuỗi thời gian, mẫu sinh học thường đo theo thời điểm định nhằm quan sát tiến trình sinh học xảy cá thể Vì vậy, việc tìm mẫu giống khoảng thời gian liên tục đó, hình dung chúng vừa hoàn thành tiến trình sinh học, giai đoạn chức sinh học Việc phân tích liệu thể gene cho phép hiểu chế điều khiển gene tương tác chúng Các mẫu liệu coi bicluster gồm hàng cột ma trận Vì lý đó, tác giả lựa chọn đề tài: “Thuật toán phân cụm đồng thời ứng dụng” hướng nghiên cứu cho luận văn Trong luận văn này, tác giả đặt mục tiêu sau: - Nghiên cứu nội dung liên quan tới phân cụm liệu, số tư tưởng thuật toán bản, - Nghiên cứu số thuật toán phân cụm đồng thời công bố - Ứng dụng số thuật toán biclustering vào tập liệu thực cụ thể, phân tích đánh giá cụm bicluster thu Để hướng tới mục tiêu trên, tác giả thu thập tìm đọc tài liệu, tổng hợp nội dung lý thuyết, thực việc phân tích, nghiên cứu công trình nhà khoa học công bố trước theo bước: - Nghiên cứu lý thuyết phân cụm liệu - Nghiên cứu thuật toán phân cụm đồng thời - Nghiên cứu liệu biểu gene, số lĩnh vực, toán mà phân cụm đồng thời áp dụng - Áp dụng số thuật toán phân cụm đồng thời (biclustering) liệu thực để thực nghiệm đối chứng Sau trình nghiên cứu, tác giả hoàn thành luận văn mình, nội dung luận văn trình bày chương sau: Chương 1: Tổng quan phân cụm liệu Trong chương trình bày tổng quan hoạt động phân cụm liệu, số phương pháp phân cụm liệu phổ biến phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, Chương 2: Phân cụm đồng thời Trong chương trình bày số loại hình, cấu trúc bicluster tồn sở liệu, trình bày số thuật toán tìm kiếm bicluster đó, tóm tắt số kết nghiên cứu thuật toán Chương 3: Ứng dụng phân cụm đồng thời Trong chương trình bày ứng dụng thực tế thực nghiên cứu trước Áp dụng thuật toán phân cụm đồng thời (biclustering) vào liệu thực, xem xét, tìm hiểu bicluster thu CHƯƠNG TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu Khai phá liệu (Data mining) trình trích xuất thông tin có giá trị tiềm ẩn bên tập liệu lớn lưu trữ sở liệu, kho liệu Các nhà khoa học xác định: “Phân cụm liệu kỹ thuật khai phá liệu, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan trọng tập liệu lớn, từ cung cấp thông tin, tri thức hữu ích cho việc định” Phân cụm trình nhóm điểm liệu sở liệu thành cụm cho điểm liệu cụm có độ tương đồng lớn điểm không cụm có tương đồng nhỏ Một cụm đối tượng liệu xem nhóm nhiều ứng dụng, ví dụ: mô hình phân cụm trường dựa tiêu chuẩn thu nhập số nợ Cụm cụm người thu nhập cao, số nợ nhiều Cụm gồm người thu nhập cao nợ Cụm gồm đối tượng thu nhập nợ nhiều Cụm Cụm Nợ Cụm Thu nhập Hình 1.1 Ví dụ phân cụm liệu sử dụng tính toán phân tích bicluster thông qua câu lệnh R Phần mềm bao gồm thuật toán Bimax, thuật toán Cheng & Church, thuật toán Spectral, thuật toán Xmotifs, thuật toán Plaid, - Gói phần mềm Bicluster Analysis Tool (BicAT Barkow, năm 2006): công cụ GUI viết Java dùng để tính toán, phân tích minh họa kết bicluster Phần mềm bao gồm thuật toán Bimax Prelic, thuật toán Cheng & Church, thuật toán xMotifs Murali Kasif, thuật toán ISA Bergmann, thuật toán OPSM Ben-Dor + Dữ liệu: Dữ liệu trích từ liệu biểu gene nấm men Saccharomyces Cerevisiae thực quan sát phòng thí nghiệm Eisen Lab, Pháp + Nội dung thực nghiệm: - Thực nghiệm đánh giá việc sử dụng số thuật toán phân cụm đồng thời liệu - Thực nghiệm đánh giá việc phân cụm đồng thời liệu thuật toán Cheng & Church thay đổi tham số đầu vào 3.2.2 Kết thực nghiệm + Dữ liệu ma trận giá trị biểu 499 gene 80 điều kiện: Hình 3.1 Ma trận liệu đầu vào 69 + Sau đưa vào xử lý tô màu hóa ứng với giá trị số thực trên, liệu đầu vào minh họa sau: Hình 3.2 Hình ảnh ma trận liệu đầu vào tô màu + Thực nghiệm phân cụm đồng thời thuật toán Bimax, kết thu sau: Hình 3.3 Hình ảnh Bicluster 25x6 tìm thấy thuật toán Bimax Bicluster có kích cỡ 25x6, tức 25 gene có phản ứng giống điều kiện thí nghiệm 70 Dưới khối Bicluster khác tìm thuật toán Bimax: Hình 3.4 Hình ảnh Bicluster 19x7 tìm thấy thuật toán Bimax Bicluster có kích cỡ 19x7, tức 19 gene có phản ứng giống điều kiện thí nghiệm + Thực nghiệm áp dụng thuật toán phân cụm đồng thời Cheng Church, thu kết sau: Hình 3.5 Hình ảnh Bicluster 37x19 tìm thấy thuật toán Cheng & Church Bicluster có kích cỡ 37x19, tức 37 gene có phản ứng giống 19 điều kiện thí nghiệm 71 Hình sau kết Bicluster thu từ thuật toán phân cụm đồng thời Cheng Church: Hình 3.6 Hình ảnh Bicluster 33x20 tìm thấy thuật toán Cheng & Church Bicluster có kích cỡ 33x20, tức 33 gene có phản ứng giống 20 điều kiện thí nghiệm Dựa vào bicluster kết thuật toán Bimax thuật toán Cheng & Church, thấy rõ thuật toán Bimax thực tốt việc tìm kiếm bicluster số, Cheng & Church tìm bicluster tổng quát + Ngoài ra, thực nghiệm số thuật toán phân cụm khác Xmotif, Plaid, Spectral liệu trên, có so sánh sau: - Về thời gian xử lý: 16 Thời gian chạy (s) 14 12 10 Xmotifs BiMax CC Spectral Plaid Một số thuật toán phân cụm đồng thời Hình 3.7 Thời gian chạy số thuật toán phân cụm đồng thời 72 - Đối với thuật toán phân cụm đồng thời, kết thu bicluster có kích thước khác nhau, so sánh mức độ tương đồng kết số thuật toán theo số Jaccard: Thuật toán Plaid Xmotif Plaid 1.000000 0.034118 Xmotifs 0.034118 Cheng & Church Spectral Bimax 0.000946 0.008693 0.024682 1.000000 0.010369 0.017186 0.054342 Cheng & Church 0.000946 0.010369 1.000000 0.020775 0.000000 Spectral 0.008693 0.017186 0.020775 1.000000 0.019671 Bimax 0.024682 0.054342 0.000000 0.019671 1.000000 Bảng 3.1 Tính toán số Jaccard số kết phân cụm đồng thời Các thuật toán tìm thấy cấu trúc bicluster khác nhau, điều ngạc nhiên mà số khác kết bicluster gần với giá trị Điều cho biết bicluster tìm thấy hoàn toàn khác thuật toán Nếu tập trung vào cấu trúc (ví dụ bicluster số - constant bicluster), thực so sánh kết tính toán giá trị phương sai, giá trị sau: Thuật toán Plaid Xmotifs Cheng & Church Spectral Bimax Phương sai 1.52410 0.02470 0.423624 1.564422 0.408617 Bảng 3.2 Tính toán giá trị phương sai số thuật toán phân cụm đồng thời Kết cho thấy dự đoán, sử dụng thuật toán Bimax thuật toán Cheng & Church tìm bicluster số, giá trị phương sai tính toán tương đối gần + Thực nghiệm thuật toán Cheng & Church tham số khác liệu: - Lần 1: với 𝛼 = 0.001, 𝛿 = 1.001, kết bicluster tìm thuật toán sau thời gian chạy 1s: 73 Hình 3.8 Thực nghiệm thuật toán Cheng & Church với 𝛼 = 0.001, 𝛿 = 1.001 Thuật toán tìm khối Bicluster gồm có: Các gene: YMR174C, YHL023C, YMR175W, YML073C, YPR042C, YPR115W, YPL016W, YBR286W-700, YIL009C-A, YER007C-A Các điều kiện: Cell.cycle_Alpha.Factor_1, Cell.cycle_Alpha.Factor_2, Cell.cycle_Alpha.Factor_3, Cell.cycle_Alpha.Factor_4, Cell.cycle_Alpha.Factor_5, Cell.cycle_Alpha.Factor_6, Cell.cycle_Alpha.Factor_7, Cell.cycle_Alpha.Factor_8, Cell.cycle_Alpha.Factor_9, Cell.cycle_Alpha.Factor_10, Cell.cycle_Alpha.Factor_11, Cell.cycle_Alpha.Factor_12, Cell.cycle_Alpha.Factor_13, Cell.cycle_Alpha.Factor_14, Cell.cycle_Alpha.Factor_15, Cell.cycle_Alpha.Factor_16, Cell.cycle_Alpha.Factor_18, Cell.cycle_Elutriation_0.5hrs, Cell.cycle_Elutriation_1.0hrs, Cell.cycle_Elutriation_2.5hrs, Cell.cycle_Elutriation_3.0hrs, Cell.cycle_Elutriation_3.5hrs, Cell.cycle_Elutriation_4.0hrs, Cell.cycle_Elutriation_4.5hrs, Cell.cycle_Elutriation_5.0hrs, Cell.cycle_Elutriation_6.0hrs, Cell.cycle_Elutriation_6.5hrs, 74 Các bicluster thu thuộc loại bicluster số, biểu nhóm gene nhóm điều kiện có giá trị biểu giống hệt Do vậy, kích thước bicluster tìm nhỏ - Lần 2: với 𝛼 = 0.01, 𝛿 = 1.01, kết bicluster tìm thuật toán sau thời gian chạy 2s: Hình 3.9 Thực nghiệm thuật toán Cheng & Church với 𝛼 = 0.01, 𝛿 = 1.01 Thuật toán tìm khối Bicluster gồm có: Các gene (25 gene): YGR073C, YCR006C, YGR074W, YMR174C, YMR247C, YHL023C, YGL044C, YJR013W, YMR175W, YMR176W, YML073C, YPR042C, YPR115W, YML075C, YNL056W, YGL190C, YPL016W, YER040W, YCR082W, YBR286W-700, YIL009C-A, YER007CA, YJL206C, YEL014C, YDR424C Các điều kiện (27 điều kiện): Cell.cycle_Alpha.Factor_1, Cell.cycle_Alpha.Factor_2, Cell.cycle_Alpha.Factor_3, Cell.cycle_Alpha.Factor_4, Cell.cycle_Alpha.Factor_5, Cell.cycle_Alpha.Factor_6, Cell.cycle_Alpha.Factor_7, Cell.cycle_Alpha.Factor_8, Cell.cycle_Alpha.Factor_9, Cell.cycle_Alpha.Factor_10, Cell.cycle_Alpha.Factor_11, Cell.cycle_Alpha.Factor_12, Cell.cycle_Alpha.Factor_13, 75 Cell.cycle_Alpha.Factor_14, Cell.cycle_Alpha.Factor_15, Cell.cycle_Alpha.Factor_16, Cell.cycle_Alpha.Factor_18, Cell.cycle_Elutriation_0.5hrs, Cell.cycle_Elutriation_2.0hrs, Cell.cycle_Elutriation_2.5hrs, Cell.cycle_Elutriation_3.0hrs, Cell.cycle_Elutriation_3.5hrs, Cell.cycle_Elutriation_4.0hrs, Cell.cycle_Elutriation_5.0hrs, Cell.cycle_Elutriation_5.5hrs, Cell.cycle_Elutriation_6.0hrs, Cell.cycle_Elutriation_6.5hrs, Diauxic_Shift_19.0g.L, Diauxic_Shift_18.7g.L, Diauxic_Shift_17.6g.L Bicluster thu thuộc loại bicluster số, biểu nhóm gene nhóm điều kiện có giá trị biểu xấp xỉ Kích thước bicluster tìm lớn chút so với lần thực nghiệm - Lần 3: với 𝛼 = 0.1, 𝛿 = 1.1, kết bicluster tìm thuật toán sau thời gian chạy 3s: Hình 3.10 Thực nghiệm thuật toán Cheng & Church với 𝛼 = 0.1, 𝛿 = 1.1 Các bicluster thu thuộc loại bicluster số hàng cột, biểu nhóm gene nhóm điều kiện có giá trị biểu xấp xỉ Kích thước bicluster tìm lớn so với thực nghiệm - Lần 4: với 𝛼 = 0.2, 𝛿 = 1.1, kết bicluster tìm thuật toán sau thời gian chạy 15s: 76 Hình 3.11 Thực nghiệm thuật toán Cheng & Church với 𝛼 = 0.1, 𝛿 = 1.1 Các bicluster thu thuộc loại bicluster giá trị cố kết theo mô hình cộng, giá trị biểu nhóm gene nhóm điều kiện tương quan với Kích thước bicluster tìm lớn so với thực nghiệm 3.2.3 Kết luận Như vậy, thuật toán phân cụm đồng thời Biclustering ứng dụng nhiều vào việc xử lý khối liệu nhằm phát hiện, tìm nhóm tồn có đặc điểm chung có ý nghĩa thống kê, qua giúp cho nhà khoa học, nhà phân tích định hướng nghiên cứu, đánh giá hoạch định hành động, chiến lược tương lai Đối với thuật toán, với tham số đầu vào, tìm kết khác loại bicluster, kích thước bicluster, phù hợp với yêu cầu mục đích 77 KẾT LUẬN Sau trình tìm hiểu, nghiên cứu thực luận văn, em tích lũy cho thêm nhiều kiến thức sinh học, toán học, kỹ thuật xử lý liệu, đặc biệt rèn luyện kỹ để thực nghiên cứu khoa học cụ thể kết sau đây: Nắm kiến thức phân cụm liệu Các hướng tiếp cận để thực việc phân cụm liệu hiệu Nắm kiến thức tổng quan biclustering, phương pháp hiệu khai phá liệu biểu gene Nội dung số thuật toán tìm kiếm bicluster dựa đánh giá tổng phương sai Thuật toán Hartigan thuật toán Bimax tìm kiếm Bicluster có giá trị số Thuật toán Cheng Church tìm Bicluster có giá trị liên kết Ngoài số thuật toán khác nghiên cứu phát triển gần Việc tìm kiếm bicluster hiệu hoàn hảo chưa giải Song loại liệu cụ thể, thuật toán thực hiệu dựa kỹ thuật xử lý đề xuất Đưa số kết áp dụng tập liệu thực Dựa thuật toán Biclustering tìm hiểu số công cụ có sẵn Em áp dụng vào hai liệu khác nhau, không lĩnh vực sinh học, cho thấy đa dạng lĩnh vực áp dụng thuật toán Biclustering Khi thu bicluster, em có tiến hành phân tích chúng để nhận thấy ý nghĩa thống kê liên quan Trong thời gian tới, em cố gắng nghiên cứu thêm mô hình Biclustering khác để nâng cao hiệu làm việc với sở liệu lớn tổng kết đánh giá hiệu thuật toán Biclustering tốt 78 Do thời gian nghiên cứu trình độ có hạn, luận văn không tránh khỏi hạn chế thiếu sót Em mong nhận bảo, đóng góp ý kiến thầy giáo, cô giáo bạn bè đồng nghiệp Em xin chân thành cảm ơn! 79 DANH MỤC TÀI LIỆU THAM KHẢO Ben-Dor, A., B Chor, R Karp, and Z Yakhini (2003), “Discovering local structure in gene expression data: The order-preserving submatrix problem”, Journal of Computational Biology 10, 373-384 Bergmann, S., J Ihmels, and N Barkai (2003), “Iterative signature algorithm for the analysis of large-scale gene expression data”, Physical Review E E 67 031902, 1-18 Cheng, Y and G M Church (2000), “Biclustering of expression data”, Proceedings of the Eighth International Conference on Intelligent Systems for Molecular Biology 1, 93-103 Chun Tang, Li Zhang, Idon Zhang, and Murali Ramanathan Interrelated two-way clustering: an unsupervised approach for gene expression data analysis In Proceedings of the 2nd IEEE International Symposium on Bioinformatics and Bioengineering, pages 41–48, 2001 Claycamp, H J and W F Massy (1968), “A theory of market segmentation”, Journal of Marketing Research (4), pp 388-394 Demirtas, H (2006), “A method for multivariate ordinal data generation given marginal distributions and correlations”, Journal of Statistical Computation and Simulation 76(11), 1017-1025 Dolnicar, S (2002), “A review of data-driven market segmentation in tourism”, Journal of Travel and Tourism Marketing 12 (1), - 22 Dolnicar, S., S Kaiser, K Lazarevski, and F Leisch (2011), “Biclustering overcoming data dimensionality problems in market segmentation”, Journal of Travel Research Eran Segal, Ben Taskar, Audrey Gasch, Nir Friedman, and Daphne Koller Rich probabilistic models for gene expression Bioinformatics, volume 17 (Suppl 1), pages S243–S252, 2001 80 In 10 Eran Segal, Ben Taskar, Audrey Gasch, Nir Friedman, and Daphne Koller Decomposing gene expression into cellular processes In Proceedings of the Pacific Symposium on Biocomputing, volume 8, pages 89–100, 2003 11 Everitt, B S., S Landau, and M Leese (2009), “Cluster Analysis”, London: Wiley 12 Getz, G., E Levine, and E Domany (2000), “Coupled two-way clustering analysis of gene microarray data”, Proceedings of the National Academy of Sciences of the United States of America 97(22), 12079-12084 13 Haixun Wang, Wei Wang, Jiong Yang, and Philip S Yu Clustering by pattern similarity in large data sets In Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data, pages 394–405, 2002 14 Hartigan, J A (1972), “Direct clustering of a data matrix”, Journal of the American Statistical Association 67(337), 123-129 15 Jinze Liu and Wei Wang Op-cluster: Clustering by tendency in high dimensional space In Proceedings of the 3rd IEEE International Conference on Data Mining, pages 187–194, 2003 16 Kluger, Y., R Basri, J T Chang, and M Gerstein (2003), “Spectral biclustering of microarray data: Coclustering genes and conditions”, Genome Research 13, 703-716 17 Lazzeroni, L and A Owen (2002), “Plaid models for gene expression data”, Statistica Sinica 12, 61-86 18 Lee, M., H Shen, J Z Huang, and J S Marron (2010, Feb), “Biclustering via sparse singular value decomposition”, Biometrics 19 Madeira, S C and A L Oliveira (2004) “Biclustering algorithms for biological data analysis: A survey”, IEEE/ACM Transactions on Computational Biology and Bioinformatics (1), 24-45 81 20 Mechelen, I V., H.-H Bock, and P D Boeck (2004), “Two-mode clustering methods: a structured overview”, StatisticalMethods in Medical Research 13, 363-394 21 Prelic, A., S Bleuler, P Zimmermann, A Wil, P Buhlmann, W Gruissem, L Hennig, L Thiele, and E Zitzler (2006), “A systematic comparison and evaluation of biclustering methods for gene expression data”, Bioinformatics 22(9), 1122-1129 22 R Tibshirani, T Hastie, M Eisen, D Ross, D Botstein, and P Brown Clustering methods for the analysis of DNA microarray data Technical report, Department of Health Research and Policy, Department of Genetics and Department of Biochemestry, Stanford University, 1999 23 Sheng, Q., Y Moreau, and B D Moor (2003), “Biclustering microarray data by Gibbs sampling”, Bioinformatics 19 24 Smith, W R (1956), “Product differentiation and market segmentation as alternative marketing strategies”, The Journal of Marketing 21 (1), pp 3-8 25 Stanislav Busygin, Gerrit Jacobsen, and Ewald Kramer Double conjugated clustering applied o leukemia microarray data In Proceedings of the 2nd SIAM International Conference on Data Mining, Workshop on Clustering High Dimensional Data, 2002 26 Tanay, A., R Sharan, and R Shamir (2002), “Discovering statistically significant biclusters in gene expression data”, Bioinformatics 18(1), 136-144 27 Tanay, A., R Sharan, and R Shamir (2005), “Biclustering Algorithms: A Survey”, In Handbook of Computational Molecular Biology / CRC Computer and Information Science Series 28 Turner, H., T Bailey, and W Krzanowski (2005), “Improved biclustering of microarray data demonstrated through systematic 82 performance tests”, Computational Statistics and Data Analysis 48, 235-254 29 T M Murali and Simon Kasif Extracting conserved gene expression motifs from gene expression data In Proceedings of the Pacific Symposium on Biocomputing, volume 8, pages 77–88, 2003 30 Williams, G J (2009, December), “Rattle: A data mining gui for r”, The R Journal (2), 45-55 31 Wikipedia, “Biclustering”, http://en.wikipedia.org/wiki/Biclustering 83 ... - Phân cụm đồng thời 25 2.1 Vấn đề phân cụm đồng thời - Biclustering 25 2.2 Phân loại khối kết phân cụm đồng thời 29 2.3 Cấu trúc khối kết phân cụm đồng thời 31 2.4 Thuật toán phân cụm đồng thời. .. thuật toán phân cụm đồng thời theo loại 35 khối kết 2.4.2 Thuật toán Hartigan 42 2.4.3 Thuật toán Cheng & Church 45 2.4.4 Thuật toán Bimax 60 Chương - Ứng dụng phân cụm đồng thời 66 3.1 Ứng dụng. .. dụng Kết đánh giá cho thuật toán phụ thuộc vào yêu cầu ứng dụng 1.2 Ứng dụng yêu cầu thuật toán phân cụm liệu 1.2.1 Ứng dụng phân cụm liệu Phân cụm liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác

Ngày đăng: 18/10/2017, 10:33

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Ben-Dor, A., B. Chor, R. Karp, and Z. Yakhini (2003), “Discovering local structure in gene expression data: The order-preserving submatrix problem”, Journal of Computational Biology 10, 373-384 Sách, tạp chí
Tiêu đề: Discovering local structure in gene expression data: The order-preserving submatrix problem”, "Journal of Computational Biology 10
Tác giả: Ben-Dor, A., B. Chor, R. Karp, and Z. Yakhini
Năm: 2003
2. Bergmann, S., J. Ihmels, and N. Barkai (2003), “Iterative signature algorithm for the analysis of large-scale gene expression data”, Physical Review E E 67 031902, 1-18 Sách, tạp chí
Tiêu đề: Iterative signature algorithm for the analysis of large-scale gene expression data”, "Physical Review E E 67 031902
Tác giả: Bergmann, S., J. Ihmels, and N. Barkai
Năm: 2003
3. Cheng, Y. and G. M. Church (2000), “Biclustering of expression data”, Proceedings of the Eighth International Conference on Intelligent Systems for Molecular Biology 1, 93-103 Sách, tạp chí
Tiêu đề: Biclustering of expression data”, "Proceedings of the Eighth International Conference on Intelligent Systems for Molecular Biology 1
Tác giả: Cheng, Y. and G. M. Church
Năm: 2000
4. Chun Tang, Li Zhang, Idon Zhang, and Murali Ramanathan. Interrelated two-way clustering: an unsupervised approach for gene expression data analysis. In Proceedings of the 2nd IEEE International Symposium on Bioinformatics and Bioengineering, pages 41–48, 2001 Sách, tạp chí
Tiêu đề: Proceedings of the 2nd IEEE International Symposium on Bioinformatics and Bioengineering
5. Claycamp, H. J. and W. F. Massy (1968), “A theory of market segmentation”, Journal of Marketing Research 5 (4), pp. 388-394 Sách, tạp chí
Tiêu đề: A theory of market segmentation”, "Journal of Marketing Research 5 (4)
Tác giả: Claycamp, H. J. and W. F. Massy
Năm: 1968
6. Demirtas, H. (2006), “A method for multivariate ordinal data generation given marginal distributions and correlations”, Journal of Statistical Computation and Simulation 76(11), 1017-1025 Sách, tạp chí
Tiêu đề: A method for multivariate ordinal data generation given marginal distributions and correlations”, "Journal of Statistical Computation and Simulation 76(11)
Tác giả: Demirtas, H
Năm: 2006
7. Dolnicar, S. (2002), “A review of data-driven market segmentation in tourism”, Journal of Travel and Tourism Marketing 12 (1), 1 - 22 Sách, tạp chí
Tiêu đề: A review of data-driven market segmentation in tourism”, "Journal of Travel and Tourism Marketing 12 (1)
Tác giả: Dolnicar, S
Năm: 2002
8. Dolnicar, S., S. Kaiser, K. Lazarevski, and F. Leisch (2011), “Biclustering overcoming data dimensionality problems in market segmentation”, Journal of Travel Research Sách, tạp chí
Tiêu đề: Biclustering overcoming data dimensionality problems in market segmentation”
Tác giả: Dolnicar, S., S. Kaiser, K. Lazarevski, and F. Leisch
Năm: 2011
9. Eran Segal, Ben Taskar, Audrey Gasch, Nir Friedman, and Daphne Koller. Rich probabilistic models for gene expression. In Bioinformatics, volume 17 (Suppl. 1), pages S243–S252, 2001 Sách, tạp chí
Tiêu đề: Bioinformatics
10. Eran Segal, Ben Taskar, Audrey Gasch, Nir Friedman, and Daphne Koller. Decomposing gene expression into cellular processes. In Proceedings of the Pacific Symposium on Biocomputing, volume 8, pages 89–100, 2003 Sách, tạp chí
Tiêu đề: Proceedings of the Pacific Symposium on Biocomputing
11. Everitt, B. S., S. Landau, and M. Leese (2009), “Cluster Analysis”, London: Wiley Sách, tạp chí
Tiêu đề: Cluster Analysis”
Tác giả: Everitt, B. S., S. Landau, and M. Leese
Năm: 2009
12. Getz, G., E. Levine, and E. Domany (2000), “Coupled two-way clustering analysis of gene microarray data”, Proceedings of the National Academy of Sciences of the United States of America 97(22), 12079-12084 Sách, tạp chí
Tiêu đề: Coupled two-way clustering analysis of gene microarray data”, "Proceedings of the National Academy of Sciences of the United States of America 97(22)
Tác giả: Getz, G., E. Levine, and E. Domany
Năm: 2000
13. Haixun Wang, Wei Wang, Jiong Yang, and Philip S. Yu. Clustering by pattern similarity in large data sets. In Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data, pages 394–405, 2002 Sách, tạp chí
Tiêu đề: Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data
14. Hartigan, J. A. (1972), “Direct clustering of a data matrix”, Journal of the American Statistical Association 67(337), 123-129 Sách, tạp chí
Tiêu đề: Direct clustering of a data matrix”, "Journal of the American Statistical Association 67(337)
Tác giả: Hartigan, J. A
Năm: 1972
15. Jinze Liu and Wei Wang. Op-cluster: Clustering by tendency in high dimensional space. In Proceedings of the 3rd IEEE International Conference on Data Mining, pages 187–194, 2003 Sách, tạp chí
Tiêu đề: Proceedings of the 3rd IEEE International Conference on Data Mining
16. Kluger, Y., R. Basri, J. T. Chang, and M. Gerstein (2003), “Spectral biclustering of microarray data: Coclustering genes and conditions”, Genome Research 13, 703-716 Sách, tạp chí
Tiêu đề: Spectral biclustering of microarray data: Coclustering genes and conditions”, "Genome Research 13
Tác giả: Kluger, Y., R. Basri, J. T. Chang, and M. Gerstein
Năm: 2003
17. Lazzeroni, L. and A. Owen (2002), “Plaid models for gene expression data”, Statistica Sinica 12, 61-86 Sách, tạp chí
Tiêu đề: Plaid models for gene expression data”, "Statistica Sinica 12
Tác giả: Lazzeroni, L. and A. Owen
Năm: 2002
18. Lee, M., H. Shen, J. Z. Huang, and J. S. Marron (2010, Feb), “Biclustering via sparse singular value decomposition”, Biometrics Sách, tạp chí
Tiêu đề: Biclustering via sparse singular value decomposition”
Tác giả: Lee, M., H. Shen, J. Z. Huang, and J. S. Marron
Năm: 2010
19. Madeira, S. C. and A. L. Oliveira (2004). “Biclustering algorithms for biological data analysis: A survey”, IEEE/ACM Transactions on Computational Biology and Bioinformatics 1 (1), 24-45 Sách, tạp chí
Tiêu đề: Biclustering algorithms for biological data analysis: A survey”, "IEEE/ACM Transactions on Computational Biology and Bioinformatics 1 (1)
Tác giả: Madeira, S. C. and A. L. Oliveira
Năm: 2004
20. Mechelen, I. V., H.-H. Bock, and P. D. Boeck (2004), “Two-mode clustering methods: a structured overview”, StatisticalMethods in Medical Research 13, 363-394 Sách, tạp chí
Tiêu đề: Two-mode clustering methods: a structured overview”, "StatisticalMethods in Medical Research 13
Tác giả: Mechelen, I. V., H.-H. Bock, and P. D. Boeck
Năm: 2004

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w