(LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu Luận văn ThS. Công nghệ thông tin 1.01.10

131 4 0
(LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

SỞ GIÁO DỤC VÀ ĐÀO TẠO HÀ TÂY TRƯỜNG THPT PHÚ XUYÊN B GIÁO ÁN TIN HỌC LỚP 11 Năm học 2007-2008 Biên soạn: Trần Nguyên Hương TIEU LUAN MOI download : skknchat@gmail.com -1- Mục lục Mục lục DANH SÁCH HÌNH VẼ BẢNG TỪ VIẾT TẮT TỪ KHOÁ LỜI CẢM ƠN MỞ ĐẦU Chƣơng TỔNG QUAN VỀ PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU VÀ CÁC KHÁI NIỆM CƠ BẢN 1.1 Giới thiệu chung 1.2 Khai phá liệu gì? 10 1.3 Qúa trình khai phá tri thức sở liệu 10 1.4 Các kỹ thuật áp dụng khai phá liệu 11 1.4.1 Các kỹ thuật tiếp cận khai phá liệu 11 1.4.2 Các dạng liệu khai phá 12 1.5 Ứng dụng khai phá liệu 13 1.6 Phân cụm liệu ứng dụng 13 1.6.1 Mục đích phân cụm liệu 13 1.6.2 Các bước để phân cụm 14 1.6.3 Các loại đặc trưng 15 1.6.4 Các ứng dụng phân cụm 16 1.6.5 Phân loại thuật toán phân cụm 17 1.7 Các khái niệm định nghĩa 20 1.7.1 Các định nghĩa phân cụm 20 1.7.2 Các độ đo gần gũi 21 Chƣơng CÁC THUẬT TOÁN PHÂN CỤM TUẦN TỰ 33 2.1 Số cách phân cụm 33 2.2 Thuật toán phân cụm - BSAS 34 2.3 Ƣớc lƣợng số cụm 36 2.4 Sửa đổi thuật toán BSAS - Thuật toán MBSAS 37 2.5 Thuật toán phân cụm hai ngƣỡng - TTSAS 39 2.6 Giai đoạn tinh chế 42 TIEU LUAN MOI download : skknchat@gmail.com -2- Chƣơng CÁC THUẬT TOÁN PHÂN CỤM PHÂN CẤP 44 3.1 Giới thiệu 44 3.2 Các thuật tốn tích tụ - GAS 45 3.2.1 Một số định nghĩa 46 3.2.2 Một số thuật tốn tích tụ dựa lý thuyết ma trận 49 3.2.3 Monotonicity Crossover 56 3.2.4 Một sơ thuật tốn tích tụ dựa lý thuyết đồ thị 59 3.2.5 Ảnh hưởng ma trận gần gũi tới sơ đồ phân cụm 70 3.3 Các thuật toán phân rã - GDS 73 3.3.1 Cải tiến sơ đồ GDS 76 3.4 Lựa chọn phân cụm tốt 80 Chƣơng CÁC THUẬT TOÁN PHÂN CỤM QUA TỐI ƢU HOÁ 82 4.1 Tổng quan tối ƣu hoá khái niệm 82 4.1.1 Một số khái niệm giải tích lồi 82 4.1.2 Các toán tối ưu 84 4.1.3 Một số phương pháp giải toán tối ưu 86 4.2 Bài toán phân cụm theo tâm 93 4.2.1 Phân cụm qua quy hoạch toán học 93 4.2.2 Phân cụm qua tối ưu hoá d.c 98 Chƣơng PHÂN TÍCH VÀ CÀI ĐẶT THỬ NGHIỆM 108 5.1 Cài đặt 108 5.1.1 MBSAS 109 5.1.2 TTSAS 109 5.1.3 GAS 110 5.1.4 GDS 111 5.2 Mô cụm 112 5.2.1 Sinh liệu khởi tạo thuật toán 113 5.3 Kết thử nghiệm 114 5.3.1 Ảnh hưởng tham số 115 KẾT LUẬN 117 Hƣớng phát triển đề tài 118 TÀI LIỆU DẪN 119 PHỤ LỤC: MÃ NGUỒN CỦA MỘT SỐ THUẬT TOÁN 121 TIEU LUAN MOI download : skknchat@gmail.com -3- DANH SÁCH HÌNH VẼ Hình 1-1 Các bƣớc thực trình khai phá tri thức 11 Hình 1-2 Các bƣớc trình phân cụm 15 Hình 1-3 Hình dạng loại cụm 20 Hình 1-4 Phân bố vector rời rạc lƣới ℓ - chiều 25 Hình 1-5 Các loại cụm đại diện 30 Hình 2-1 Sự phụ thuộc số cụm đƣợc tạo số cụm lớn đƣợc phép q 35 Hình 2-2 Đồ thị ƣớc lƣợng số cụm 37 Hình 2-3 Minh hoạ phân cụm thuật toán MBSAS (a) thuật tốn TTSAS (b) 42 Hình 3-1 Sơ đồ phân cụm phân cấp với tập liệu X ví dụ 3.2 47 Hình 3-2 Minh hoạ sơ đồ tƣơng tự khơng tƣơng tự 48 Hình 3-3 Tập liệu X (a) Sơ đồ khơng tƣơng tự sinh thuật tốn liên kết đơn (b), thuật toán liên kết đầy đủ (c) 51 Hình 3-4 Sơ đồ khơng tƣơng tự sinh thuật toán Liên kết đơn, Liên kết đầy đủ, UPGMC WPGMC với tƣợng crossover 57 Hình 3-5 Minh hoạ đƣờng loại đồ thị 60 Hình 3-6 Các đồ thị ngƣỡng đồ thị gần gũi xây dựng từ ma trận không tƣơng tự P(X) ví dụ 3.2 61 Hình 3-7 Đồ thị với khả liên kết cạnh đỉnh bậc đỉnh 62 Hình 3-8 Các đồ thị ngƣỡng ma trận không tƣơng tự P ví dụ 3.5 65 Hình 3-9 Đồ thị gần gũi G(13) sinh từ ma trận khơng tƣơng tự P ví dụ 3.6 67 Hình 3-10 Các sơ đồ phân cụm dùng thuật tốn GTAS thoả thuộc tính h(k) ví dụ 3.6 68 Hình 3-11 Sơ đồ ngƣỡng ví dụ 3.6 với thuộc tính bậc đỉnh k =3 69 Hình 3-12 Cây khung nhỏ ma trận không tƣơng tự (a) Sơ đồ không tƣơng tự tƣơng ứng áp dụng thuật toán dựa MST (b) cho ví dụ 3.7 70 Hình 3-13 Các sơ đồ minh hoạ cho trƣờng hợp ma trận khơng tƣơng tự có hai phần tử ví dụ 3.8 71 Hình 3-14 Sơ đồ không tƣơng tự đạt đƣợc thuật toán liên kết đơn (a) thuật toán liên kết đầy đủ (b) với ma trận P1 72 Hình 3-15 Minh hoạ bƣớc phân cụm sơ đồ GDS 79 Hình 3-16 Sơ đồ trƣờng hợp có hai cụm (a) có cụm (b) tập liệu 80 TIEU LUAN MOI download : skknchat@gmail.com -4Hình 3-17 Ví dụ độ đo “Tự - tương tự” (a) mô điều kiện kết thúc phƣơng pháp II (b) 81 Hình 4-1 Sơ đồ nhánh cận 92 Hình 4-2 Các đƣờng cong sống sót đại diện cho cụm 194 bệnh nhân ung thƣ áp dụng thuật toán k-Median 97 Hình 4-3 Các đƣờng cong sống sót đại diện cho cụm 194 bệnh nhân ung thƣ áp dụng thuật toán k-Mean 98 Hình 5-1 Quan sát cụm đƣợc tạo 113 Hình 5-2: Màn hình sinh liệu 114 Hình 5-3 Màn hình thiết lập thơng số cho thuật tốn 114 Hình 5-4 Ý nghĩa việc chọn tham số đắn 115 Hình 5-5 Ý nghĩa đắn số cụm tạo 116 DANH SÁCH BẢNG BIỂU Bảng 3-1 Các kết thuật toán thảo luận áp dụng ma trận gần gũi ví dụ 3.4 56 Bảng 5-1: Thời gian thực thuật toán với liệu khác 115 TIEU LUAN MOI download : skknchat@gmail.com -5- BẢNG TỪ VIẾT TẮT Từ tiếng Anh Từ cụm từ Từ tiếng Việt BLP BiLinear Programming Quy hoạch song tuyến tính BSAS Basic Sequential Algorithmic Scheme Sơ đồ thuật toán phân cụm sở CSDL D.C DM GAS Data Base Difference of two Convex functions Dissimilarity Measure Generalized Agglomerative Scheme Cơ sở liệu Hiệu hai hàm lồi Độ đo không tương tự Sơ đồ tích tụ tổng quát GDS Generalized Divisive Scheme Sơ đồ phân rã tổng quát GTAS Graph Theory – based Algorithmic Scheme KDD Knowledge Discovery in Databases LP Linear Programming Sơ đồ thuật toán dựa lý thuyết đồ thị Khai phá tri thức sở liệu Quy hoạch tuyến tính MBSAS Modified Basic Sequential Algorithmic Scheme Sơ đồ thuật toán phân cụm sở sửa đổi MST Minimum Spanning Tree Cây khung nhỏ MUAS Matrix Updating Algorithmic Scheme Sơ đồ thuật toán biến đổi ma trận SM Similarity Measure Độ đo tương tự TTSAS Two – Threshold Sequential Algorithmic Scheme Sơ đồ thuật toán ngưỡng UPGMA Unweighted Pair Group Method Average Phương pháp trung bình theo cặp khơng trọng số UPGMC Unweight Pair Group Method Centroid Phương pháp trọng tâm theo cặp không chọn số WPGMA Weighted Pair Group Method Average Phương pháp trung bình theo cặp trọng số WPGMC Weighted Pair Group Method Centroid Phương pháp trọng tâm theo cặp trọng số TỪ KHOÁ Clustering algorithms, Sequential Clustering algorithms, Hierarchical Clustering algorithms, Clustering Algorithms Based on Cost Function Optimization, Clustering via D.C Optimization, Clustering via Mathematical Programming, Mathematical Programming in data mining, Optimization Global, Clustering software… TIEU LUAN MOI download : skknchat@gmail.com Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html TIEU LUAN MOI download : skknchat@gmail.com -7- MỞ ĐẦU Ngày nay, với phát triển mạnh mẽ công nghệ phần cứng truyền thông, hệ thống liệu phục vụ cho lĩnh vực kinh tế - xã hội không ngừng tăng lên, lượng liệu tạo ngày lớn Sự phong phú liệu, thông tin với khả kịp thời khai thác chúng mang đến suất chất lượng cho công tác quản lý, hoạt động kinh doanh,…Nhưng yêu cầu thơng tin lĩnh vực hoạt động đó, đặc biệt lĩnh vực làm định, ngày địi hỏi cao hơn, người định khơng cần liệu mà cịn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc định Cho đến năm 90 kỷ trước, nhu cầu khám phá tri thức thực bùng nổ, theo đó, hàng loạt lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin, hệ trợ giúp định, thuật toán nhận dạng mẫu phân lớp mẫu, …và đặc biệt khai phá liệu (Data Mining) đời Từ đời, khai phá liệu trở thành hướng nghiên cứu phổ biến lĩnh vực khoa học máy tính cơng nghệ tri thức Nhiều kết nghiên cứu, ứng dụng khai phá liệu lĩnh vực khoa học, kinh tế, xã hội Khai phá liệu bao hàm nhiều hướng nghiên cứu quan trọng, số phân cụm liệu (Data Clustering) Phân cụm liệu trình tìm kiếm phát cụm mẫu liệu tự nhiên sở liệu lớn Các kỹ thuật áp dụng phân cụm liệu phần lớn kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lượng hố, Đến nay, có nhiều ứng dụng phân cụm liệu cho việc giải vấn đề lĩnh vực tài chính, thơng tin địa lý, sinh học, nhận dạng ảnh,… Trong thời gian gần đây, lĩnh vực phân cụm liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích mơ hình liệu phức tạp liệu văn bản, Web, hình ảnh,…và đặc biệt mơ hình liệu hỗn hợp để áp dụng chúng phân cụm liệu Ở Việt Nam, năm trở lại đây, nhu cầu tự động khám phá tri thức từ liệu sẵn có nhằm tăng lực cạnh tranh ngành kinh tế phát triển nhanh Vì vậy, tơi chọn hướng nghiên cứu "Một số thuật toán phân cụm liệu khai phá liệu" làm đề tài nghiên cứu cho luận văn Luận văn trình bày có hệ thống số họ thuật toán phân cụm liệu điển hình, bao gồm cách tiếp cận đặc điểm ứng dụng TIEU LUAN MOI download : skknchat@gmail.com -8Cấu trúc nội dung luận văn bao gồm phần nhƣ sau: Chương 1: Trình bày tổng quan khai phá liệu, phân cụm, thuật toán phân cụm phân loại khai phá liệu đồng thời trình bày khái niệm số độ đo tương tự, không tương tự… Chương chương 3: Trình bày thuật tốn phân cụm truyền thống gồm họ thuật toán phân cụm thuật tốn phân cụm phân cấp điển hình ưu điểm, nhược điểm chúng Chương 4: Tập trung nghiên cứu giải toán cụm theo tâm dựa vào tối ưu hố Có hai cách tiếp cận đưa phân cụm qua quy hoạch toán học phân cụm qua tối ưu hố d.c Để khẳng định tính hiệu cách tiếp cận, luận văn trình bày lại kết thí nghiệm phân cụm bệnh nhân ung thư vú sở liệu đại học Wisconsin Đây cơng trình nghiên cứu GS TSKH Hồng Tuỵ (viện Toán học Việt Nam), GS Mangasarian (đại học Wisconsin, Madison) cộng Chương 5: Phân tích cài đặt thử nghiệm phân cụm tập liệu vector không gian ba chiều sử dụng số thuật toán tiêu biểu MBSAS, TTSAS, GAS, GDS Chúng ta đưa cách cài đặt kết đạt Phần kết luận trình bày tóm tắt nội dung thực luận văn, đồng thời đưa vấn đề nghiên cứu tiếp cho tương lai Phần phụ lục trình bày số modul chương trình cài đặt cho thuật tốn MBSAS, TTSAS, GAS, GDS Do thời gian nghiên cứu trình độ có hạn, luận văn khơng tránh khỏi có hạn chế thiếu sót Tơi xin tiếp thu ý kiến, đánh giá, bảo thầy giáo bạn bè đồng nghiệp Tôi xin chân thành cảm ơn Hà Nội, tháng 10 năm 2007 Học viên Trần Nguyên Hƣơng TIEU LUAN MOI download : skknchat@gmail.com -9- Chƣơng TỔNG QUAN VỀ PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU VÀ CÁC KHÁI NIỆM CƠ BẢN 1.1 Giới thiệu chung Những năm 60 kỷ trước, người ta bắt đầu sử dụng công cụ tin học để tổ chức khai thác CSDL Cùng với phát triển vượt bậc công nghệ điện tử truyền thông, khả thu thập lưu trữ xử lý liệu cho hệ thống tin học không ngừng nâng cao, theo đó, lượng thơng tin lưu trữ thiết bị nhớ không ngừng tăng lên Thống kê sơ cho thấy, lượng thông tin hệ thống tin học sau 20 tháng lại tăng gấp đôi [3] Cuối thập kỷ 80 kỷ 20, phát triển rộng khắp CSDL quy mô tạo bùng nổ thông tin toàn cầu Vào thời gian này, người ta bắt đầu đề cập đến khái niệm khủng hoảng phân tích liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày cao cho người làm định tổ chức tài chính, thương mại, khoa học,… Đúng John Naisbett cảnh báo “Chúng ta chìm ngập liệu mà đói tri thức” Lượng liệu khổng lồ thực nguồn “tài ngun” có nhiều giá trị thơng tin yếu tố then chốt hoạt động quản lý, kinh doanh, phát triển sản xuất dịch vụ, … giúp người điều hành quản lý có hiểu biết mơi trường tiến trình hoạt động tổ chức trước định để tác động đến trình hoạt động nhằm đạt mục tiêu cách hiệu bền vững Khai phá liệu (Data Mining) lĩnh vực xuất hiện, nhằm tự động khai thác thơng tin, tri thức có tính tiềm ẩn, hữu ích từ CSDL lớn cho đơn vị, tổ chức, doanh nghiệp,… từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh cho đơn vị, tổ chức Các kết khoa học ứng dụng thành công khám phá tri thức, cho thấy, khai phá liệu lĩnh vực phát triển bền vững, mang lại nhiều lợi ích có nhiều triển vọng, đồng thời có ưu hẳn so với cơng cụ phân tích liệu truyền thống Hiện nay, khai phá liệu ứng dụng ngày rộng rãi lĩnh vực như: Thương mại, tài chính, điều trị y học, viễn thơng, tin – sinh,… TIEU LUAN MOI download : skknchat@gmail.com - 116 Hình bên trái TTSAS với giá trị ngưỡng theta không (1000, 2000) kết phân lớp sai, phần cụm màu xanh da trời (green) nằm cụm màu đỏ (cụm bên trái) Khi giá trị theta giảm (500, 1500) TTSAS tạo cụm đắn hình bên phải Vấn đề không bật với GDS GAS chúng khơng có tham số khơng tương tự (phân cụm khơng sử dụng ngưỡng) Hình 5.5 minh hoạ trường hợp tạo số cụm khơng (4 thay 5) MBSAS TTSAS GAS GDS Hình 5-5 Ý nghĩa đắn số cụm tạo Hình góc bên trái kết thuật toán MBSAS: cụm màu xanh da trời - blue (bên trái) có quy mơ khơng so với hình góc bên phải TTSAS Kết TTSAS xác khơng phụ thuộc vào số cụm phải tạo Hình góc bên trái kết thuật tốn GAS, tương tự với MBSAS GDS (góc bên phải) tạo cụm màu đỏ lớn hơn, chứa vector cụm màu xanh (green) Thực tế GDS khác với GAS cụm màu đỏ GDS chặt chẽ cụm màu xanh da trời (blue) GAS TIEU LUAN MOI download : skknchat@gmail.com - 117 - KẾT LUẬN Những kết đạt đƣợc Ngày nay, trình khai thác thông tin hệ thống CSDL ngày đa dạng, tăng trưởng nhanh chất lẫn lượng; nữa, nhu cầu khai thác tri thức từ CSDL (dưới dạng phân hoạch CSDL thành cụm liệu cần quan tâm) ngày lớn Vì vậy, nghiên cứu thuật tốn phân cụm việc làm cần thiết có nhiều ý nghĩa khoa học thực tiễn Luận văn tập hợp trình bày lại cách có hệ thống ba họ thuật tốn phân cụm tiêu biểu: tuần tự, phân cấp tối ưu hoá Với họ thuật tốn trình bày sơ đồ thuật tốn, phân tích ưu nhược điểm, phạm vi áp dụng; đồng thời đưa cài đặt thử nghiệm mang tính chất mơ để so sánh thuật toán Cụ thể chương sau: Chương 1: Trình bày tổng quan khai phá liệu, phân cụm, thuật toán phân cụm phân loại khai phá liệu đồng thời trình bày khái niệm số độ đo tương tự, khơng tương tự nhằm cung cấp sở tốn học cho thuật tốn Chương 2: Trình bày thuật toán phân cụm Trong chương này, trước hết xét sơ đồ phân cụm tổng quát BSAS, sơ đồ BSAS sửa đổi (MBSAS) phân cụm hai ngưỡng TTSAS Hai thuật toán BSAS, MBSAS có kết phụ thuộc chặt chẽ vào thứ tự vector đưa vào phân cụm giá trị ngưỡng TTSAS phụ thuộc vào thứ tự vector đưa vào phân cụm mà số cụm sinh phụ thuộc vào chọn giá trị cho hai ngưỡng Trong thuật tốn trên, TTSAS có hiệu (độ phức tạp O(n2)) Để kết phân cụm hợp lý hơn, người ta sử dụng kết hợp thủ tục xếp lại thủ tục trộn trình thực thuật tốn Chương 3: Trình bày chi tiết họ thuật toán phân cụm phân cấp Các thuật tốn chia thành loại tích tụ phân rã sử dụng lý thuyết ma trận lý thuyết đồ thị Trong thuật tốn tích tụ dựa lý thuyết ma trận có thuật toán thảo luận: liên kết đơn, liên kết đầy đủ, WPGMA, UPGMA, WPGMC, UPGMC Ward Trong thuật tốn thuật tốn liên kết đơn có khuynh hướng hình thành cụm dài cịn liên kết đầy đủ có khuynh hướng hình thành nên cụm chặt Các thuật toán khác nằm hai thuật toán Thuật tốn tích tụ dựa lý thuyết đồ thị gồm: liên kết đơn, liên kết đầy đủ thuật toán dựa TIEU LUAN MOI download : skknchat@gmail.com - 118 khung nhỏ Các thuật toán loại này, cụm hình thành hợp lệ phải thoả tính chất đồ thị Các thuật toán phân cụm phân rã thực ngược với phân cụm tích tụ cần tính tốn chặt chẽ Người ta biểu diễn trình phân cụm sơ đồ ngưỡng Đây sơ đồ biểu diễn trình hình thành cụm mức ngưỡng Bằng cách cắt sơ đồ ngưỡng mức ta cụm sinh mức Phần cuối chương thảo luận phương pháp cắt sơ đồ ngưỡng để cụm sinh phù hợp với liệu Nhìn chung, cụm thuộc loại có độ phức tạp theo lý thuyết O(n3) Chương 4: Giới thiệu phương pháp phân cụm qua tối ưu hoá để giải toán phân cụm theo tâm Cụ thể phương pháp quy hoạch toán học tối ưu hoá d.c Đây phương pháp tỏ có hiệu phương pháp khác Để kiểm tra tính hiệu phương pháp này, luận văn trình bày lại thí nghiệm tác giả Mangasarian, H Tuỵ CSDL chuẩn đoán ung thư vú đại học Wisconsin Chương 5: Đưa số phân tích, cài đặt thử nghiện thuật tốn MBSAS, TTSAS, GAS (Liên kết đơn) GDS (cải tiến) đồng thời so sánh thời gian thực thảo luận hình thành cụm qua thuật toán Phần phụ lục luận văn giới thiệu mã nguồn số thuật toán Hạn chế đề tài: - Chưa có điều kiện nghiên cứu kỹ lớp toán phân cụm nhờ tối ưu hoá - Chưa cài đặt thuật toán phân cụm nhờ tối ưu hoá cho ứng dụng cụ thể mà sử dụng kết thử nghiệm có tác giả khác giới thiệu chương - Cài đặt thuật toán chương mang tính chất mơ phỏng, chưa ứng dụng vào thực tế Hƣớng phát triển đề tài Nghiên cứu thuật toán phân cụm qua tối ưu hoá Cụ thể: - Bài toán phân cụm theo siêu phẳng; - Bài toán phân cụm mặt phẳng, mặt cầu; - Nghiên cứu tối ưu hoá đơn điệu áp dụng vào toán phân cụm; - Cài đặt thử nghiệm số thuật toán dựa tối ưu hoá ứng dụng vào toán thực tế TIEU LUAN MOI download : skknchat@gmail.com - 119 - TÀI LIỆU DẪN Tài liệu tiếng Việt [1] Hoàng Tuỵ (2006), "Lý thuyết tối ưu" (Bài giảng lớp cao học), Viện Tốn học Hà Nội, 2006 [2] Hồng Tuỵ (2005), Hàm thực giải tích hàm, Nhà xuất Đại học Quốc gia Hà Nội Tài liệu tiếng Anh [3] Alan Rea (1995), Data Mining – An Introduction The Parallel Computer Centre, Nor of The Queen’s University of Belfast http://www.pcc.qub.ac.uk/tec/courses/datamining/stu_notes/dm_book_1.html [4] A.M Gagirov, A.M Rubinov, A Stranieri and J Yearwood (1999) The global optimization approach to the clustering analysis Woking paper 45/99, University of Ballarat, Australia [5] Boberg J., Salakoski T “General formulation and evaluation of agglomerative clustering methods with metric and non-metric distances,” Pattern Recognition, Vol 26(9), pp 1395-1406, 1993 [6] H Tuy (1997), "A general d.c approach to location problems", in State of the Art in Global optimization: Computational Methods and Application, eds C Floudas and P.Pardalos, eds., Kluwer, 413-432 [7] H Tuy (1998), "Convex Analysis and Global Optimization", Kluwer [8] H Tuy (1999), Monotonic Optimization: Problems and Solution Approaches, Preprint, Institute of Mathematics, Hanoi [9] H.Tuy , A.M Gagirov, A.M Rubinov: Clustering via D.C Optimization Research Report 00/13 (2000), School of Information Technology and Mathematical Sciences, Univerity of Ballarat Submitted [10] Jiawei Han and Micheline Kamber (2001), Data Mining : Concepts and Techniques, Hacours Science and Technology Company, USA [11] Lance G.N., Williams W.T “A general theory of classificatory sorting strategies: II Clustering System.” Computer Journal, Vol 10, pp 271-277, 1967 [12] MacQuenn J.B “Some methods for classification and analysis of multivariate observations,” Proceedings of the Symposium on Mathematical Statistics and Probability, 5th Berkeley, Vol 1, pp 218-297, AD 669871, University of California Press, 1967 [13] Maria Halkidi (2001), On Clustering Validation Techniques, Kluwer Academic Publishers, Holland [14] O.L Mangasarian (1987) Mathematical Programming in Data Mining, in Data Mining and Knowledge Discovery 1, 183-201 TIEU LUAN MOI download : skknchat@gmail.com - 120 [15] O.L Mangasarian, W.N Street and W.H Wolberg: Breast cancer diagnosis and prognosis via linear Programming Operations research 4(1995), 570-577 [16] P.S Bradley, O.L Magasarian and W.N Street (1997), Clustering via cancave Minimization, Techincal Report 96-03, Computer Sciences Department, University of Wisconsin, Madison, Wisconsin, May 1996 Advances In Neural Information processing Systems MIT Press, Cambridge, MA, 368-374, M.C Mozer, M.I.Jordan and T Petsche, editors Available by ftp://ftp.cs.winsc.edu/math-prog/tech-trports/96-03.ps.Z [17] R Horst and H Tuy (1996), "Global Optimization" (Deterministic Approaches), Springer, third edition [18] W.H Wolberg, W.N Street and O.L Magasarian (1994), Machine learning techniques to diagnose breast cancer from fine-needle aspirates Cancer Letters, 77, 163-171 [19] Yu G Evtushenko (1982), Solution Methods of Extremal Problems and Their Application to optimization System, Moscow, Nauka (In Russian) TIEU LUAN MOI download : skknchat@gmail.com - 121 - PHỤ LỤC: MÃ NGUỒN CỦA MỘT SỐ THUẬT TOÁN /** * Cluster.h * * La mot lop co so chua cac vector mau * */ /** * Dinh nghia mot cum don Mot cum co mot danh sach cac vector * thuoc cum Cac vector co the duoc them vao hoac loai bo * khoi cum * Cac lop khac co the kế thừa lop Chang han nhu cac * lop co cac vector dai dien khac Lop su dung dai * dien la vec tor trung binh * */ class CCluster { protected: /** Danh sach Cac vector dang thuoc ve cum */ VList Vectors; /** Dai dien trung binh */ fVector3 Medium; /** Cac vector Outlier hien tai */ fVector3 Outlier; /** Khoang cach tu cac vector Outlier toi vector dai dien */ float fOutlierDist; /** La cac outlier hop le */ bool bOutlierValid; /** Cap nhat gia tri dai dien */ virtual void UpdateMedium(); /** Cap nhat vector outlier (vector nam xa vetor dai dien nhat */ virtual void UpdateOutlier(); public: CCluster(void); /** Kiem tra xem cum co rong khong? */ bool IsEmpty() const; /** Them mot vector vao cum */ virtual void AddVector(const fVector3& vec); /** Loai bo mot vector khoi cum */ virtual void RemoveVector(const fVector3& vec); /** Chua tat ca vector cua mot cum da cho */ virtual void Include(CCluster& cluster); /** Tra ve mot tham chieu toi danh sach cac vector */ virtual const VList& GetVectors() const; /** Tra ve vector dai dien */ virtual fVector3 GetRepresentative() const { return Medium; } /** Tra ve vector outlier */ TIEU LUAN MOI download : skknchat@gmail.com - 122 virtual fVector3 GetOutlier(); /** Tra ve khoang cach outlier */ virtual float GetOutlierDist(); /** Tra ve mot doi tuong cum moi */ virtual CCluster* GetNewCluster() { return new CCluster(); } /** Tra ve binh phuong khoang cach toi virtual float Distance(const fVector3& /** Tra ve binh phuong khoang cach toi virtual float Distance(const CCluster* /** Lam sach va xoa cum */ virtual ~CCluster(void); }; /** Mot danh sach cac tro cum */ typedef list ClList; vector da cho */ vec); mot cum khac */ clust); // Cluster.cpp… void CCluster::Include(CCluster& cluster) { VList::iterator i; for (i = cluster.Vectors.begin(); i != cluster.Vectors.end(); ++i) { Vectors.push_back(*i); } UpdateMedium(); bOutlierValid = false; } const VList& CCluster::GetVectors() const { return Vectors; } float CCluster::Distance(const fVector3& vec) { return Medium.SquaredDistance(vec); } float CCluster::Distance(const CCluster* clust) { return Medium.SquaredDistance(clust->GetRepresentative()); } /** * ClustAlgorithm.h **/ #pragma once #include "Cluster.h" /** * Cung cap lop co so cho tat ca cac thuat toan phan cum */ class CClustAlgorithm { TIEU LUAN MOI download : skknchat@gmail.com - 123 public: CClustAlgorithm() {}; virtual void SetParameters(float theta, int q = 0) = 0; /** * Tao phep phan cum toi uu cac vector su dung cac lop empty da cho * Co the cho cac loai lop cum khac nhu tham so * */ virtual ClList* Clusterize(const VList* vectors, CCluster* empty) const = 0; /** Tra ve so cum tim duoc, neu khong co*/ virtual int GetClusters() { return 0; } /** Tra ve tham so theta duoc su dung, neu khong su dung */ virtual float GetTheta() { return 0.f; } virtual float GetTheta2() { return 0.f; } /** Tra ve ten cua thuat toan */ virtual const char* GetName() const = 0; virtual ~CClustAlgorithm(void) {}; }; // MBSAS.cpp… ClList* CMBSAS::Clusterize(const VList* vectors, CCluster* empty) const { int numVectors = 0; int clusters = 0; fVector3 tmp; if ((vectors == NULL) || (empty == NULL)) return NULL; if ((int)vectors->size() < 1) return NULL; // Day khong la cach toi uu VList tmplist = *vectors; ClList* ClusterList = new ClList(); VList::iterator iter; ClList::iterator iter2; // Khoi tao tat ca cac vector iter = tmplist.begin(); empty->AddVector(*iter); iter++; ClusterList->push_back(empty); // 'Tạo cac cum' for (; iter != tmplist.end(); iter++) { tmp = *iter; float mindist = FLT_MAX; // Tim khoang cach nho nhat for (iter2 = ClusterList->begin(); iter2 != ClusterList->end(); iter2++) { TIEU LUAN MOI download : skknchat@gmail.com - 124 float dist = (*iter2)->Distance(tmp); if (dist < mindist) mindist = dist; } // Co tao cum moi khong? if ((mindist > fTheta) && ((int)ClusterList->size() < iq)) { CCluster* newclust = empty->GetNewCluster(); newclust->AddVector(tmp); ClusterList->push_back(newclust); } } // Phai loai bo mau vua tao for (iter2 = ClusterList->begin(); iter2 != ClusterList->end(); iter2++) { tmp = (*iter2)->GetRepresentative(); // Dai dien la nhat tmplist.remove(tmp); } // Phan loai cac vector lai for (iter = tmplist.begin(); iter != tmplist.end(); iter++) { tmp = *iter; float mindist = FLT_MAX; CCluster* minclust = NULL; // Tim khoang cach cum nho nhat for (iter2 = ClusterList->begin(); iter2 != ClusterList->end(); iter2++) { float dist = (*iter2)->Distance(tmp); if (dist < mindist) { mindist = dist; minclust = *iter2; } } minclust->AddVector(tmp); // them vector vao cum } return ClusterList; } // TTSAS.cpp ClList* CTTSAS::Clusterize(const VList* vectors, CCluster* empty) const { if ((vectors == NULL) || (empty == NULL)) return NULL; if ((int)vectors->size() < 1) return NULL; bool* clas = new bool[vectors->size()]; fVector3* tmplist = new fVector3[vectors->size()]; VList::const_iterator iter; int i = 0; for (iter = vectors->begin(); iter != vectors->end(); iter++, i++) { tmplist[i] = *iter; clas[i] = false; TIEU LUAN MOI download : skknchat@gmail.com - 125 } ClList* ClusterList = new ClList(); int numVectors = (int)vectors->size(); int numDone = 0; // So mau da duoc phan lop int existsChange = 0; // So vector duoc phan lop lan duyet int curChange = 0; // So vector da duoc phan lop tinh den lan duyet hien tai int prevChange = 0; // So vector da duoc phan lop cac lan duyet truoc float mindist = FLT_MAX; CCluster* minclust = NULL; ClList::iterator iter2; while (numDone < numVectors) { bool gotOne = false; for (i = 0; i < numVectors; i++) { if (!clas[i] && existsChange == && !gotOne) { // Dam bao rang vong while se phai ket thuc :) CCluster* clust = empty->GetNewCluster(); clust->AddVector(tmplist[i]); ClusterList->push_back(clust); clas[i] = true; curChange++; numDone++; gotOne = true; } else if (clas[i] == 0) { mindist = FLT_MAX; minclust = NULL; // Tim cum khoang cach nho nhat for (iter2 = ClusterList->begin(); iter2 != ClusterList->end(); iter2++) { float dist = (*iter2)->Distance(tmplist[i]); if (dist < mindist) { mindist = dist; minclust = *iter2; } } if (mindist < fTheta1) { // them vector vao cum da co minclust->AddVector(tmplist[i]); clas[i] = true; curChange++; numDone++; } else if (mindist > fTheta2) { // can tao cum moi CCluster* clust = empty->GetNewCluster(); clust->AddVector(tmplist[i]); ClusterList->push_back(clust); clas[i] = true; curChange++; numDone++; } } else // clas == curChange++; TIEU LUAN MOI download : skknchat@gmail.com - 126 } existsChange = abs(curChange - prevChange); prevChange = curChange; curChange = 0; } delete empty; delete[] clas; delete[] tmplist; return ClusterList; } // GDS.cpp ClList* CGDS::Clusterize(const VList* vectors, CCluster* empty) const { if ((vectors == NULL) || (empty == NULL)) return NULL; if ((int)vectors->size() < 1) return NULL; // Tạo phep phan cum khoi tao ClList* ClusterList = new ClList(); VList::const_iterator iter; CCluster* tmp = empty->GetNewCluster(); for (iter = vectors->begin(); iter != vectors->end(); iter++) tmp->AddVector(*iter); ClusterList->push_back(tmp); float maxdist, maxdist2; CCluster* maxclust; ClList::iterator iter2; while ((int)ClusterList->size() < iq) { maxdist = 0; maxclust = NULL; // Tim cum co phan tu outlier lon nhat for (iter2 = ClusterList->begin(); iter2 != ClusterList->end(); iter2++) if ((*iter2)->GetOutlierDist() > maxdist) { maxdist = (*iter2)->GetOutlierDist(); maxclust = *iter2; } // Chuyen outlier vao mot cum moi CCluster* newclust = empty->GetNewCluster(); newclust->AddVector(maxclust->GetOutlier()); maxclust->RemoveVector(maxclust->GetOutlier()); ClusterList->push_back(newclust); bool foundOne = true; // Khi tim thay mot vector tuong tu hon mot cum moi while (foundOne) { foundOne = false; // Chua tim thay vector nao fVector3 vect(0, 0, 0); maxdist = FLT_MAX; // Duyet qua tat ca cac vector cum cu for (iter = maxclust -> GetVectors().begin();iter != maxclust-> GetVectors().end(); iter++) { TIEU LUAN MOI download : skknchat@gmail.com - 127 maxdist2 = newclust->Distance(*iter); // Khoang cach toi cum moi if (maxclust->Distance(*iter) > maxdist2 && maxdist2 < maxdist) { foundOne = true; maxdist = maxdist2; // Khoang cach gan nhat toi cum moi vect = *iter; } } if (foundOne) { // Tim thay mot vector? newclust->AddVector(vect); maxclust->RemoveVector(vect); } } } delete empty; return ClusterList; } // GAS.cpp ClList* CGAS::Clusterize(const VList* vectors, CCluster* empty) const { if ((vectors == NULL) || (empty == NULL)) return NULL; if ((int)vectors->size() < 1) return NULL; // Tao mot phan cum khoi tao ClList* ClusterList = new ClList(); VList::const_iterator iter; for (iter = vectors->begin(); iter != vectors->end(); iter++) { CCluster* tmp = empty->GetNewCluster(); tmp->AddVector(*iter); ClusterList->push_back(tmp); } ClList::iterator iter2; ClList::iterator iter3; float mindist; CCluster* minclust1; CCluster* minclust2; while ((int)ClusterList->size() > iq) { mindist = FLT_MAX; minclust1 = NULL; minclust2 = NULL; // Duyet hai cum ma no co khoang cach nho nhat (slow) for (iter2 = ClusterList->begin(); iter2 != ClusterList->end(); iter2++) { iter2++; // Tang gia for (iter3 = iter2 ; iter3 != ClusterList->end(); iter3++) { float dist = (*iter2)->Distance(*iter3); if (dist < mindist) { mindist = dist; minclust1 = *iter2; minclust2 = *iter3; } TIEU LUAN MOI download : skknchat@gmail.com - 128 } } // va ket hop hai cum voi if (minclust2 != NULL) { minclust1->Include(*minclust2); ClusterList->remove(minclust2); delete minclust2; } } delete empty; return ClusterList; } // GLRenderer.cpp… void CGLRenderer::DrawVolumes(const ClList* list) { int c = 0; glColor4f(0.5f, 0.5f, 0.5f, 0.4f); glEnable(GL_BLEND); glBlendFunc(GL_SRC_ALPHA, GL_ONE_MINUS_SRC_ALPHA); for (ClList::const_iterator iter=list->begin();iter!= iter++, c+=3){ glPushMatrix(); float dist = (*iter)->GetOutlierDist(); fVector3 out = (*iter)->GetRepresentative(); glTranslatef(out.x, out.y, out.z); glutWireSphere(sqrt(dist), 8, 8); glutSolidSphere(sqrt(dist), 8, 8); glPopMatrix(); } glDisable(GL_BLEND); } void CGLRenderer::RotateCamera(float xrot, float yrot) { // Quay len tren vdir = vdir.Rotate(vup, 3.1415f * yrot / 180.f); vleft = vleft.Rotate(vup, 3.1415f * yrot / 180.f); vup = vdir.Cross(vleft); // Quay sang trai vup = vup.Rotate(vleft, 3.1415f * xrot / 180.f); vdir = vdir.Rotate(vleft, 3.1415f * xrot / 180.f); vleft = vup.Cross(vdir); vdir.Normalize(); vleft.Normalize(); vup.Normalize(); } list->end(); TIEU LUAN MOI download : skknchat@gmail.com Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html TIEU LUAN MOI download : skknchat@gmail.com Thank you for evaluating AnyBizSoft PDF Merger! To remove this page, please register your program! Go to Purchase Now>> AnyBizSoft PDF Merger  Merge multiple PDF files into one  Select page range of PDF to merge  Select specific page(s) to merge  Extract page(s) from different PDF and merge into one TIEU LUAN files MOI download : skknchat@gmail.com ... tổng quan khai phá liệu, phân cụm, thuật toán phân cụm phân loại khai phá liệu đồng thời trình bày khái niệm số độ đo tương tự, không tương tự… Chương chương 3: Trình bày thuật toán phân cụm truyền... thuật áp dụng khai phá liệu 11 1.4.1 Các kỹ thuật tiếp cận khai phá liệu 11 1.4.2 Các dạng liệu khai phá 12 1.5 Ứng dụng khai phá liệu 13 1.6 Phân cụm liệu ứng dụng... trưng thuộc cụm - Các thuật tốn phát biên phân tách : Các thuật toán cố gắng đặt biên phân tách cách tối ưu cụm  Các thuật toán khác - Các thuật toán phân cụm nhánh cận : Các thuật toán cung cấp

Ngày đăng: 27/06/2022, 15:42

Hình ảnh liên quan

Các giai đoạn trong KDD được thể hiện trực quan như hình 1.1 dưới đây: - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

c.

giai đoạn trong KDD được thể hiện trực quan như hình 1.1 dưới đây: Xem tại trang 12 của tài liệu.
Hình 1-2. Các bƣớc trong quá trình phân cụm - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 1.

2. Các bƣớc trong quá trình phân cụm Xem tại trang 16 của tài liệu.
Hình 1-4. Phân bố các vector rời rạc trên lƣới ℓ-chiều - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 1.

4. Phân bố các vector rời rạc trên lƣới ℓ-chiều Xem tại trang 26 của tài liệu.
Hình 2-2. Đồ thị ƣớc lƣợng số cụm - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 2.

2. Đồ thị ƣớc lƣợng số cụm Xem tại trang 38 của tài liệu.
Hình 2-3. Minh hoạ phân cụm bằng thuật toán MBSAS (a) và bằng thuật toán TTSAS (b) - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 2.

3. Minh hoạ phân cụm bằng thuật toán MBSAS (a) và bằng thuật toán TTSAS (b) Xem tại trang 43 của tài liệu.
2.6. Giai đoạn tinh chế - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

2.6..

Giai đoạn tinh chế Xem tại trang 43 của tài liệu.
Hình 3.2 chỉ ra các sơ đồ tương tự và không tương tự của Xở ví dụ 3.2 khi dùng ma trận P’(X) và P(X) - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.2.

chỉ ra các sơ đồ tương tự và không tương tự của Xở ví dụ 3.2 khi dùng ma trận P’(X) và P(X) Xem tại trang 49 của tài liệu.
2.3. Trộn Ci, Cj thành cụm Cq và hình thành t =( t-1\ {Ci, Cj})  {Cq}. 2.4. Xác định ma trận gần gũi Pt từ Pt-1 - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

2.3..

Trộn Ci, Cj thành cụm Cq và hình thành t =( t-1\ {Ci, Cj})  {Cq}. 2.4. Xác định ma trận gần gũi Pt từ Pt-1 Xem tại trang 51 của tài liệu.
Hình 3- 4. Sơ đồ không tƣơng tự sinh ra bởi thuật toán Liên kết đơn, Liên kết đầy đủ, UPGMC và WPGMC với hiện tƣợng crossover  - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.

4. Sơ đồ không tƣơng tự sinh ra bởi thuật toán Liên kết đơn, Liên kết đầy đủ, UPGMC và WPGMC với hiện tƣợng crossover Xem tại trang 58 của tài liệu.
 Đồ thị con liên thông lớn nhất củ aG là một đồ thị con liên thông G1 có nhiều đỉnh nhất (hình 3.5e) - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

th.

ị con liên thông lớn nhất củ aG là một đồ thị con liên thông G1 có nhiều đỉnh nhất (hình 3.5e) Xem tại trang 61 của tài liệu.
Hình 3-6. Các đồ thị ngƣỡng và đồ thị gần gũi xây dựng từ ma trận không tƣơng tự P(X) của ví dụ 3.2  - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.

6. Các đồ thị ngƣỡng và đồ thị gần gũi xây dựng từ ma trận không tƣơng tự P(X) của ví dụ 3.2 Xem tại trang 62 của tài liệu.
Hình 3-7. Đồ thị với khả năng liên kết cạnh và đỉnh bằng 2 và bậc của đỉnh là 3 - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.

7. Đồ thị với khả năng liên kết cạnh và đỉnh bằng 2 và bậc của đỉnh là 3 Xem tại trang 63 của tài liệu.
Hình 3- 8. Các đồ thị ngƣỡng của ma trận không tƣơng tự P trong ví dụ 3.5 - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.

8. Các đồ thị ngƣỡng của ma trận không tƣơng tự P trong ví dụ 3.5 Xem tại trang 66 của tài liệu.
Hình 3-9. Đồ thị gần gũi G(13) sinh ra từ ma trận không tƣơng tự P trong ví dụ 3.6 - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.

9. Đồ thị gần gũi G(13) sinh ra từ ma trận không tƣơng tự P trong ví dụ 3.6 Xem tại trang 68 của tài liệu.
Hình 3-10. Các sơ đồ phân cụm dùng thuật toán GTAS thoả thuộc tính h(k) của ví dụ 3.6 a.Sơ đồ không tương tự sinh ra khi h(k) là thuộc tính bậc của đỉnh với k = 2  - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.

10. Các sơ đồ phân cụm dùng thuật toán GTAS thoả thuộc tính h(k) của ví dụ 3.6 a.Sơ đồ không tương tự sinh ra khi h(k) là thuộc tính bậc của đỉnh với k = 2 Xem tại trang 69 của tài liệu.
Hình 3-13. Các sơ đồ minh hoạ cho trƣờng hợp ma trận không tƣơng tự có hai phần tử bằng nhau trong ví dụ 3.8  - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.

13. Các sơ đồ minh hoạ cho trƣờng hợp ma trận không tƣơng tự có hai phần tử bằng nhau trong ví dụ 3.8 Xem tại trang 72 của tài liệu.
 2.2.1. Trong tất cả các cặp cụm có thể (Cr, Cs) mà nó hình thành từ   một phân đoạn tốt nhất của của C t-1,i, tìm cặp 12 - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

2.2.1..

Trong tất cả các cặp cụm có thể (Cr, Cs) mà nó hình thành từ một phân đoạn tốt nhất của của C t-1,i, tìm cặp 12 Xem tại trang 75 của tài liệu.
Chọn cụm C2 để phân đoạn tiếp, ta có bảng sau: - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

h.

ọn cụm C2 để phân đoạn tiếp, ta có bảng sau: Xem tại trang 77 của tài liệu.
Quá trình tính toán như bảng sau: - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

u.

á trình tính toán như bảng sau: Xem tại trang 79 của tài liệu.
Hình 3-15. Minh hoạ các bƣớc phân cụm của sơ đồ GDS - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.

15. Minh hoạ các bƣớc phân cụm của sơ đồ GDS Xem tại trang 80 của tài liệu.
Hình 3-16. Sơ đồ trong trƣờng hợp có hai cụm chính (a) và có cụm duy nhất (b) trong tập dữ liệu. - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.

16. Sơ đồ trong trƣờng hợp có hai cụm chính (a) và có cụm duy nhất (b) trong tập dữ liệu Xem tại trang 81 của tài liệu.
Hình 3-17. Ví dụ về độ đo “Tự - tương tự” (a) và mô phỏng điều kiện kết thúc của phƣơng pháp II  (b) - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 3.

17. Ví dụ về độ đo “Tự - tương tự” (a) và mô phỏng điều kiện kết thúc của phƣơng pháp II (b) Xem tại trang 82 của tài liệu.
Hình 4-1. Sơ đồ nhánh cận - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 4.

1. Sơ đồ nhánh cận Xem tại trang 93 của tài liệu.
Hình 4-2. Các đƣờng cong sống sót đại diện cho 3 cụm của 194 bệnh nhân ung thƣ khi áp dụng thuật toán k-Median - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 4.

2. Các đƣờng cong sống sót đại diện cho 3 cụm của 194 bệnh nhân ung thƣ khi áp dụng thuật toán k-Median Xem tại trang 98 của tài liệu.
Hình 4-3. Các đƣờng cong sống sót đại diện cho 3 cụm của 194 bệnh nhân ung thƣ khi áp dụng thuật toán k-Mean - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 4.

3. Các đƣờng cong sống sót đại diện cho 3 cụm của 194 bệnh nhân ung thƣ khi áp dụng thuật toán k-Mean Xem tại trang 99 của tài liệu.
Hình 5.1 cho ta một cách quan sát tiêu biểu 5 cụm riêng biệt trong không gian ba chiều - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 5.1.

cho ta một cách quan sát tiêu biểu 5 cụm riêng biệt trong không gian ba chiều Xem tại trang 114 của tài liệu.
Hình 5-2: Màn hình sinh dữ liệu - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 5.

2: Màn hình sinh dữ liệu Xem tại trang 115 của tài liệu.
Hình 5-4. Ý nghĩa của việc chọn tham số đúng đắn. - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình 5.

4. Ý nghĩa của việc chọn tham số đúng đắn Xem tại trang 116 của tài liệu.
Hình bên trái chỉ ra rằng TTSAS với các giá trị ngưỡng theta không đúng (1000, 2000) kết quả là phân lớp sai,  một phần của cụm  màu xanh  da trời ( green )  nằm  trong  cụm màu  đỏ  (cụm  bên  trái) - (LUẬN VĂN THẠC SĨ) Một số thuật toán phân cụm trong khai phá dữ liệu  Luận văn ThS. Công nghệ thông tin 1.01.10

Hình b.

ên trái chỉ ra rằng TTSAS với các giá trị ngưỡng theta không đúng (1000, 2000) kết quả là phân lớp sai, một phần của cụm màu xanh da trời ( green ) nằm trong cụm màu đỏ (cụm bên trái) Xem tại trang 117 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan