Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 81 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
81
Dung lượng
1,35 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM LÊ XUÂN MẠNH GOM CỤM KHÔNG GIAN CON DỰA VÀO RÀNG BUỘC LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 Tp Hồ Chí Minh, tháng 03 năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM LÊ XUÂN MẠNH GOM CỤM KHÔNG GIAN CON DỰA VÀO RÀNG BUỘC LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS VÕ ĐÌNH BẢY Tp Hồ Chí Minh, tháng 03 năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS TS VÕ ĐÌNH BẢY Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 17 tháng 06 năm 2018 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng PGS.TS Quản Thành Thơ Chủ tịch TS Nguyễn Duy Hàm Phản biện TS Lê Thị Ngọc Thơ Phản biện TS Vũ Thanh Hiền Ủy viên TS Văn Thiên Hoàng Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá Luận văn PGS.TS QUẢN THÀNH THƠ TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng … năm 2018 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LÊ XUÂN MẠNH Giới tính: Nam Ngày, tháng, năm sinh: 20-11-1984 Nơi sinh: Thanh Hóa Chun ngành: Cơng Nghệ Thơng Tin MSHV: 1541860018 I- Tên đề tài: Gom cụm không gian dựa vào ràng buộc II- Nhiệm vụ nội dung: - Tìm hiểu kỹ thuật gom cụm khơng gian truyền thống Rút ưu khuyết điểm thuật toán trước - Nghiên cứu đề xuất ý tưởng gom cụm không gian dựa vào ràng buộc - Đề xuất thuật tốn gom cụm khơng gian dựa vào ràng buộc Xây dựng cài đặt thuật toán đề xuất III- Ngày giao nhiệm vụ: … / … / ……… IV- Ngày hoàn thành nhiệm vụ: 17/03/2018 V- Cán hướng dẫn: PGS TS VÕ ĐÌNH BẢY CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) PGS TS VÕ ĐÌNH BẢY LỜI CAM ĐOAN Tôi xin cam đoan Luận văn Thạc sĩ “Gom cụm không gian dựa vào ràng buộc” công trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc TP HCM, tháng 03 năm 2018 Tác giả Luận văn LÊ XUÂN MẠNH LỜI CÁM ƠN Đầu tiên, xin chân thành cảm ơn biết ơn sâu sắc tận tình dạy dỗ giúp đỡ tất Quý Thầy/Cô Trường Đại học Cơng nghệ TP Hồ Chí Minh HUTECH Tôi xin gửi lời cảm ơn chân thành sâu sắc đến Thầy Võ Đình Bảy, người tận tình hướng dẫn giúp đỡ suốt thời gian làm luận văn Ngoài ra, xin cảm ơn Cha Mẹ người thân gia đình hết lòng giúp đỡ, động viên tạo điều kiện cho hồn thành khóa học luận văn Tôi xin cảm ơn đến Cô Nguyễn Thị Thúy Loan, bạn bè, đồng nghiệp, người sát cánh động viên tạo điều kiện tốt để tơi học tập hồn tất luận văn LÊ XUÂN MẠNH TÓM TẮT Một số lĩnh vực ứng dụng sinh học địa lý tạo số lượng lớn liệu, để sử dụng liệu cần phải có phương pháp khai thác liệu hiệu quả, nhiệm vụ gom cụm liệu Tuy nhiên, phương pháp gom cụm truyền thống thường không phát cụm có ý nghĩa hầu hết liệu giới thực đặc trưng khơng gian liệu có chiều rộng, thưa thớt Các liệu thường chứa cụm thú vị ẩn không gian khác không gian đặc trưng ban đầu Điều dẫn đến kỹ thuật gom cụm không gian đề xuất, nhằm mục đích xác định tự động khơng gian khơng gian đặc trưng, có tồn cụm Ngồi ra, kết q trình gom cụm có vai trò cung cấp liệu đầu vào cho tốn phân lớp, cụm xem lớp, tốn phân lớp có ý nghĩa số lớp lớn từ hai lớp trở lên Điều dẫn đến việc cần thiết phải đưa ràng buộc số cụm tối thiểu không gian tìm kiếm Trong luận văn này, tác giả giới thiệu SUBCLU-C, thuật tốn tìm kiếm cụm có vùng không gian không gian liệu ban đầu, với ràng buộc số cụm tối thiểu SUBCLU-C đề xuất sở cải tiến thuật toán SUBCLU [14] thực nghiệm chứng tỏ hiệu thực thi đáng kể so với thuật toán gốc ABSTRACT Some areas of application, such as biology and geography, a large amount of data is generated, so that data can be used in such a way that effective data-mining methods are used, where clustering is one of main tasks However, traditional clustering methods often not detect interesting clusters as most real-world data sets are characterized by sparse data spaces Datasets usually contain interesting clusters that are hidden in different subspaces of the original space This has led to the proposed subspace clustering techniques, which aim to automatically determine the subspace of the data space in which clusters exist In addition, the result of the clustering process is to provide input for the classification problems in which a cluster is label of a class, where the clustering problem is meaningful only when the number of classes must be greater than two or generalized k classes This leads to the need provide a constraint as minimum number of clusters on each subspace In this essay, the author introduces the SUBCLU-C, a algorithm search clusters that exists on the subspaces of the original data space, with minimum clusters constraints SUBCLU-C is proposed based on the improvement of the SUBCLU algorithm [14] and experimentally demonstrates significant performance compared to the original algorithm MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT VÀ THAY THẾ 11 DANH MỤC CÁC BẢNG 11 DANH MỤC CÁC HÌNH 12 CHƯƠNG MỞ ĐẦU 15 1.1 Giới thiệu 15 1.2 Khai thác liệu 16 1.3 Phân tích cụm 19 1.3.1 Phân tích cụm gì? 19 1.3.2 Các yêu cầu phân tích cụm 23 1.3.3 Các phương pháp gom cụm 27 1.4 Gom cụm liệu nhiều chiều 30 1.4.1 Gom cụm liệu nhiều chiều 30 1.4.2 Một số phương pháp Gom cụm không gian 32 1.5 Các thuật tốn gom cụm khơng gian dựa vào ràng buộc 37 1.6 Đóng góp luận văn 38 1.7 Bố cục luận văn 39 CHƯƠNG CƠ SỞ LÝ THUYẾT 40 2.1 Gom cụm không gian dựa kết nối dựa mật độ 40 2.1.1 Định nghĩa sơ 40 2.1.2 Các cụm tập kết nối dựa mật độ 40 2.1.3 Tính đơn điệu Tập kết nối dựa vào mật độ 43 2.2 Thuật toán 45 2.3 Ví dụ minh họa 49 Ví dụ 2.1 49 2.4 Tổng kết chương 60 CHƯƠNG GOM CỤM KHÔNG GIAN CON DỰA VÀO RÀNG BUỘC 61 3.1 Gom cụm dựa vào ràng buộc số cụm không gian 61 3.2 Lớp tương đương (Equivalence Class) 61 3.3 Cải tiến hàm sinh không gian ứng viên 62 3.4 Thuật toán 62 3.5 Ví dụ minh họa 64 Ví dụ 3.1 64 Ví dụ 3.2 65 3.6 Tổng kết chương 69 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 70 4.1 Môi trường sở liệu thực nghiệm 70 4.2 Thời gian thực thi 71 4.3 Tính mở rộng 73 4.4 Tổng kết chương 75 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76 5.1 Kết luận 76 5.2 Hướng phát triển 77 TÀI LIỆU THAM KHẢO 78 PHỤ LỤC 81 10 S2 = {A1A4} C2 = {(r9,r10,r14), (r15,r17,r18)} Xét A1A5 : bestSubspace = A5 (|A1| > |A5|) DBSCAN((r1,r4,r5), A1A5, 1, 3) = {} DBSCAN((r2,r3,r6), A1A5, 1, 3) = {} DBSCAN((r7,r8,r9,r10,r11,r12,r13,r14), A1A2, 1, 3) = {(r9,r10,r13,14)} DBSCAN((r15,r16,r17,r20), A1A5, 1, 3) = {} C{A1A5} = {(r9,r10,r13,r14)} |A1A4| = 4, |C{A1A5}| = < c khơng thỏa ràng buộc, ta tỉa ln ứng viên A1A5 Xét A2A4 : bestSubspace = A2 (|A2| < |A4|) DBSCAN((r1,r4,r5), A2A4, 1, 3) = {} DBSCAN((r2,r3,r6), A2A4, 1, 3) = {} DBSCAN((r7,r8,r9,r10,r11), A2A4, 1, 3) = {} DBSCAN((r15,r16,r18,r19), A2A4, 1, 3) = {(r15,r16,r18,r19)} C{A2A4} = {(r15,r16,r18,r19)} |A2A4| = 4, |C{A2A4}| = < c không thỏa ràng buộc, ta tỉa ln ứng viên A2A4 Xét A2A5 : bestSubspace = A2 (|A2| < |A5|) DBSCAN((r1,r4,r5), A2A5, 1, 3) = {(r1,r4,r5)} DBSCAN((r2,r3,r6), A2A5, 1, 3) = {} DBSCAN((r7,r8,r9,r10,r11), A2A5, 1, 3) = {(r7,r8,r9,r10,r11)} DBSCAN((r15,r16,r18,r19), A2A5, 1, 3) = {} 67 C{A2A5} = {(r1,r4,r5), ( r7,r8,r9,r10,r11)} |A2A5| = 8, |C{A2A5}| = = c thỏa ràng buộc S2 = {A1A4, A2A5} C2 = {(r9,r10,r14), (r15,r17,r18), (r1,r4,r5), (r7,r8,r9,r10,r11)} Xét A4A5 : bestSubspace = A5 (|A4| > |A5|) DBSCAN((r1,r4,r5), A4A5, 1, 3) = {} DBSCAN((r2,r3,r6), A4A5, 1, 3) = {} DBSCAN((r7,r8,r9,r10,r11,r12,r13,r14), A4A2, 1, 3) = {(r9,r10,14)} DBSCAN((r15,r16,r17,r20), A4A5, 1, 3) = {(r15,r17,r20)} C{A4A5} = {(r9,r10,14), (r15,r17,r20)} |A4A5| = S2 = { A1A4, A2A5, A4A5} C2 = {(r9,r10,r14), (r15,r17,r18), (r1,r4,r5), (r7,r8,r9,r10,r11), (r9,r10,14), (r15,r17,r20)} |C{A4A5}| = = c thỏa ràng buộc Với k = CandS3 = {} Do không tồn si, sj ∈ S2 mà si sj có lớp tương đương Kết thúc 68 3.6 Tổng kết chương Chương trình bày thuật tốn đề xuất SUBCLU-C, sở thuật toán SUBCLU cách thêm vào ràng buộc số cụm không gian con, cải tiến thuật toán sinh ứng viên cách sử dụng kỹ thuật kiểm tra lớp tương đương Thực nghiệm chương cho thấy kỹ thuật giúp cho việc thực q trình tìm kiếm khơng gian tìm cụm cụm hiệu đáng kể 69 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 4.1 Môi trường sở liệu thực nghiệm Tất thực nghiệm thực máy tính trạm với CPU Intel Core-i56500 3.2GHz, 16GB RAM chạy Windows 10 (64 bit) Tất chương trình cài đặt ngơn ngữ Java tích hợp vào tảng mã nguồn mở Elki [19], trình biên dịch Eclipse Oxygen (4.7.1a) Các thực nghiệm tiến hành sở liệu tổng hợp, sinh ngẫu nhiên công cụ sinh liệu Elki Generator liệu madelon.Đặc điểm liệu trình bày Bảng 5.1 Bảng 4.1 Một số đặc điểm CSDL thực nghiệm CSDL Kích thước Số chiều DS10 2000 10 DS11 2000 11 DS12 2000 12 DS13 2000 13 DS14 2000 14 DS15 2000 15 DS16 2000 16 DS30 2000 30 S5000 5000 10, 15 Medalon 4400 500 70 Để thấy hiệu thuật tốn đề xuất, chúng tơi so sánh thời gian thực thuật toán đề xuất SUBCLU-C với thuật toán gốc SUBCLU 4.2 Thời gian thực thi Ảnh hưởng việc thay đổi giá trị ε thực thi liệu 10 chiều 30 chiều với kích thước (2000) Hình 4.1 Các giá trị ε lớn cho kết lân cận lớn sinh số lớn kết hợp, suy ra, thời gian xử lý tăng cao Hình 4.1 Ảnh hưởng ε thực thi Giá trị lớn ε cho kết vùng lân cận lớn điểm đó, số lượng kết hợp khả thi lớn Hình 4.2 Hình 4.3 thể ảnh hưởng việc thay đổi giá trị số cụm tối thiểu (c) không gian con, thực thi liệu cố định DS30 (2000x30) Các giá trị c lớn cho kết không gian thấp chiều thỏa mãn số cụm tối thiểu đi, điều đồng thời làm giảm đáng kể số không gian sinh chiều cao hơn, tương ứng với số số khơng gian số cụm tìm thấy thỏa c giảm dần 0, suy ra, thời gian xử lý giảm 71 Hình 4.2 Ảnh hưởng của ràng buộc số cụm tối thiểu c thực thi Giá trị lớn c cho thời gian tìm kiếm nhanh tiệm cận mốc thời gian gần không đổi Bộ liệu cố định DS30 (2000×30) Hình 4.3 Ảnh hưởng của ràng buộc số cụm tối thiểu c thực thi Giá trị lớn c làm số cụm nhỏ dần Bộ liệu cố định DS30(2000×30) 72 4.3 Tính mở rộng Các thực nghiệm khác thực nhằm so sánh hiệu SUBCLU-C mở rộng liệu, bao gồm mở rộng theo số chiều (số thuộc tính) mở rộng theo số dòng (kích thước) liệu Như trình bày chương trước, thuật tốn SUBCLU-C đề xuất cách giảm bớt số lần duyệt số lần so sánh chiều không gian bước sinh không gian ứng viên, kết thực nghiệm phản ánh rõ hiệu thuật toán đề xuất mở rộng số chiều (số thuộc tính) liệu Hình 4.4 Biểu đồ thời gian thực thi SUBCLU-C so với SUBCLU, với ε=0.06, minpts=3 c=1 Các liệu sử dụng DS10, DS12, DS14, DS16, DS18, DS20, có kích thước Trong Hình 4.4, thời gian thực thi SUBCLU-C tương đương với SUBCLU số chiều ít, nhanh số chiều CSDL tăng lên Một thực nghiệm khác thực nhằm so sánh hiệu thuật toán SUBCLU-C với SUBCLU liệu có số chiều kích thước khác Hình 4.5 cho thấy thời gian thực thi SUBCLU-C tương đương so với SUBCLU kích thước liệu tăng dần số chiều không đổi Tuy 73 nhiên số chiều lớn hơn, Hình 4.6 thể hiện, SUBCLU-C thể hiểu so với thuật tốn gốc Hình 4.5 Thời gian thực thi SUBCLU-C so với SUBCLU kích thước liệu tăng lên số chiều cố định 10d với ε = 0.5 minpts = 8, c = Bộ liệu sử dụng S5000 Hình 4.6 Thời gian thực thi SUBCLU-C so với SUBCLU kích thước liệu tăng lên số chiều cố định 15 với ε = 0.5 minpts = 8, c = Bộ liệu sử dụng S5000 74 Để tiến hành thực nghiệm liệu có số chiều lớn, thực thực nghiệm liệu 4400x500 Medalon, liệu lấy từ thư viện liệu UCI [8], với ~ 2500 không gian Thực nghiệm chạy SUBCLUC liệu để tìm tất cụm khơng gian Hình 4.7 thể thời gian thực thi so với giá trị ε giao động khoảng từ 1.0×10-10 đến 5.0×10-10 Hình 4.7 Biểu đồ thời gian thực thi SUBCLU-C so với SUBCLU, với ε thay đổi từ 1.0×10-10 đến 5.0×10-10 minpts = 8, c = Bộ liệu madelon 4.4 Tổng kết chương Chương trình bày mơi trường thực nghiệm, sở liệu sử dụng thực nghiệm, biểu đồ so sánh thời gian thực thuật toán SUBCLU-C SUBCLU sở liệu khác Trong môi trường thực nghiệm liệu chuẩn, thuật toán cải tiến SUBCLU-C cho thấy hiệu thuật toán gốc thời gian khai thác chạy sở liệu có số chiều lớn 75 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn trình bày tổng quan lĩnh vực nghiên cứu, bao gồm khái niệm phương thức khai thác cụm, gom cụm không gian, kỹ thuật khai thác dựa vào mật độ sở liệu nhiều chiều Luận văn trình bày số thuật tốn tiêu biểu có liên quan đến nhiệm vụ gom cụm không gian liệu nhiều chiều trình bày chi tiết thuật tốn SUBCLU trình bày ví dụ minh họa nhằm hiểu rõ đầy đủ thuật toán Trên sở thuật tốn nghiên cứu SUBCLU, luận văn đề xuất thuật toán SUBCLU-C sở cải tiến thuật toán SUBCLU, với mục tiêu cải thiện tăng hiệu cho tốn gom cụm khơng gian sở liệu có số chiều lớn Để cải tiến thuật toán gốc, nhằm tăng tốc độ xử lý trình khai thác cụm không gian con, đặc biệt sở liệu có số chiều (số thuộc tính) lớn Để đạt hiệu nhanh hơn, tác giả tập trung vào việc cải tiến giảm bớt số lần duyệt số lần thực phép so sánh q trình sinh khơng gian ứng viên để tìm cụm chúng Bằng việc đề xuất kỹ thuật sử dụng khái niệm lớp tương đương, thay trình duyệt so sánh (k-1) chiều không gian lần xét không gian ứng viên Thực tế chạy thực nghiệm, thuật toán cải tiến đề xuất có thời gian thực tương đương thuật toán gốc sở liệu có số chiều thấp đạt hiệu thực nhanh số chiều (số thuộc tính) sở liệu tăng lên Cụ thể hơn, tùy vào liệu khác giá trị đầu vào tương ứng, cho số lượng không gian ứng viên chiều cao cao nhiều hiệu thuật tốn đề xuất hiệu so với thuật toán gốc 76 Luận văn đề xuất việc tích hợp ràng buộc vào toán khai thác gom cụm, cụ thể việc tích hợp ràng buộc quy định số cụm tối thiểu phải có khơng gian Mục đích nhằm cung cấp đầu vào cho số toán phân lớp 5.2 Hướng phát triển Do việc cải tiến tập trung vào việc giảm số lần duyệt so sánh chiều không gian mà không cải tiến việc tối ưu nhớ, hiệu xử lý kích thước liệu tăng lên Từ nhận xét này, tương lai, tác giả tiếp tục tìm cách để cải tiến thêm hiệu thuật toán, kỹ thuật cài đặt tốt hơn, kỹ thuật cài đặt xử lý song song để đạt hiệu xử lý tốt hơn, đặc biệt sở liệu có kích thước số chiều lớn Ngoài ra, thêm ràng buộc số cụm khơng gian vào thuật tốn, điều làm tăng thêm thời gian thực thi phát sinh thêm bước so sánh ràng buộc Tác giả đặt kỳ vọng tiếp tục nghiên cứu vào việc cải tiến hiệu suất này, nhằm tăng tốc thời gian thực thi có ràng buộc sở liệu nhiều chiều 77 TÀI LIỆU THAM KHẢO [1] Achtert, E., Kriegel, H.-P and Zimek, A (2008) ELKI: A Software System for Evaluation of Subspace Clustering Algorithms Proceedings of the 20th international conference on Scientific and Statistical Database Management (SSDBM 08) 5069 pp 580-585 [2] Aggarwal Charu C., Wolf Joel L., Yu Philip S., Cecilia Procopiuc, and Jong Soo Park (1999) Fast algorithms for projected clustering In Proceedings of the 1999 ACM SIGMOD international conference on Management of data (SIGMOD '99) ACM, New York, NY, USA, pp 61-72 [3] Agrawal, R and Srikant, R (1994) Fast algorithms for mining association rules In Proceedings of the ACM International Conference on Management of Data (SIGMOD), pp 487-499 [4] Agrawal, R., Gehrke, J., Gunopulos, D., and Raghavan, P (1998) Automatic subspace clustering of high dimensional data for data mining applications In Proceedings of the ACM International Conference on Management of Data (SIGMOD), pp 94–105 [5] Ankerst M., Breunig M M., Kriegel H.-P., Sander J (1999) “OPTICS: Ordering Points To Identify the Clustering Structure”, Proc ACM SIGMOD, Philadelphia, PA, pp 49-60 [6] Assent, I., Krieger, R., Müller, E., and Seidl, T (2007a) DUSC: Dimensionality unbiased subspace clustering In Proceedings of the 7th International Conference on Data Mining (ICDM), pp 409-414 [7] Assent, I., Krieger, R., Müller, E., and Seidl, T (2007b) VISA: Visual subspace clustering analysis ACM SIGKDD Explorations Newsletter, Volume 9, Issue 2, pp 5–12 [8] Bache K and Lichman M UCI machine learning repository http://archive.ics.uci.edu/ml Accessed 08 Mar-2018 78 [9] Cheng, C.H., Fu, A.W.-C., and Zhang, Y (1999) Entropy-Based subspace clustering for mining numerical data In Proceedings of the 5th ACM International Conference on Knowledge Discovery and Data Mining (KDD'99), pp 84–93 [10] Cheng, H., Hua, K.A., Vu, K (2008) Constrained locally weighted clustering In Proceedings of the VLDB Endowment, Volume 1, Issue 1, pp 90–101 [11] Domeniconi, C., Gunopulos, D., Ma, S., Papadopoulos, D., Al-Razgan, M., Yan, B (2006) Locally adaptive metrics for clustering high dimensional data Data Mining and Knowledge Discovery, 14, 63-97 [12] Ester, M., Kriegel, H.-P., Sander, J., and Xu, X (1996) A density-based algorithm for discovering clusters in large spatial databases with noise In Proceedings of the 2nd ACM International Conference on Knowledge Discovery and Data Mining (KDD), pp 226-231 [13] Fromont É., Prado A., Robardet C (2009) Constraint-based subspace clustering In Proceedings of the 9th SIAM international conference on data mining (SDM), pp 26–37 [14] Hinneburg A., Keim D.A (1998) An Efficient Approach to Clustering in Large Multimedia Databases with Noise Proc 4th Int Conf on Knowledge Discovery and Data Mining, (KDD), pp 58-65 [15] Jiawei H., Micheline K., and Jian P (2011) Data Mining: Concepts and Techniques (3rd ed.) Morgan Kaufmann Publishers Inc., San Francisco, CA, USA [16] Kailing, K., Kriegel, H.-P., and Kröger, P (2004) Density-Connected subspace clustering for high-dimensional data In Proceedings of the 4th SIAM International Conference on Data Mining (SDM), pp 16-30 79 [17] Kaur, A., Datta, A.(2014) Subscale: fast and scalable subspace clustering for high dimensional data In: 2014 IEEE International Conference on Data Mining Workshop (ICDMW), pp 621–628 [18] Kaur, A., Datta, A.(2015) A novel algorithm for fast and scalable subspace clustering of high-dimensional data J Big Data Volume 2, Number 1, pp 17 [19] Kriegel, H.-P., Kröger, P., and Zimek, A (2009) Clustering high-dimensional data: A survey on subspace clustering, pattern-based clustering, and correlation clustering ACM Transactions on Knowledge Discovery from Data, Volume 3, Issue 1, Article 1, pp 1-58 [20] Liu, G., Li, J., Sim, K., and Wong, L (2007) Distance based subspace clustering with flexible dimension partitioning In Proceedings of the 23th International Conference on Data Engineering (ICDE), pp 1250-1254 [21] Liu, X., Li, M (2014) Integrated constraint based clustering algorithm for high dimensional data In Neurocomputing 142, pp 478-485 [22] Nagesh, H., Goil, S., and Choudhary, A (2001) Adaptive grids for clustering massive data sets In Proceedings of the 1st SIAM International Conference on Data Mining (SDM), pp 1-17 [23] Parsons, L., Haque, E., and Liu, H (2004) Subspace clustering for high dimensional data: A review SIGKDD Explorations, Volume 6, Issue 1, pp 90–105 [24] Xu R., D (2005) Wunsch II Survey of Clustering Algorithms IEEE Transactions on Neural Networks, Volume 16, Issue 3, pp 645-678 [25] Zhang, X.C., Wu, Y., Qiu, Q (2010) Constraint based dimension correlation and distance divergence for clustering high-dimensional data In Proceedings of the 10th IEEE International Conference on Data Mining (ICDM), pp 629638 80 PHỤ LỤC 81 ... CHƯƠNG GOM CỤM KHÔNG GIAN CON DỰA VÀO RÀNG BUỘC 61 3.1 Gom cụm dựa vào ràng buộc số cụm không gian 61 3.2 Lớp tương đương (Equivalence Class) 61 3.3 Cải tiến hàm sinh không gian. .. hợp vào việc phân tích cụm Cũng yêu cầu ứng dụng cụ thể Những thơng tin mơ hình hóa ràng buộc gom cụm Hiện có loại ràng buộc gồm: ràng buộc thực thể (đối tượng), ràng buộc cụm (hay ràng buộc. .. tài: Gom cụm không gian dựa vào ràng buộc II- Nhiệm vụ nội dung: - Tìm hiểu kỹ thuật gom cụm khơng gian truyền thống Rút ưu khuyết điểm thuật toán trước - Nghiên cứu đề xuất ý tưởng gom cụm không