Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN NHƯ ĐỒNG NGHIÊN CỨU PHÁT TRIỂN THUẬT TOÁN GOM CỤM MỜ LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) TP.HCM - 2018 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN NHƯ ĐỒNG NGHIÊN CỨU PHÁT TRIỂN THUẬT TỐN GOM CỤM MỜ Chun ngành : HỆ THỐNG THƠNG TIN Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN PHƯƠNG TP.HCM - 2018 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Học viên thực Nguyễn Như Đồng ii LỜI CẢM ƠN Với lòng biết ơn chân thành nhất, tơi xin trân trọng cảm ơn Học Viện Cơng Nghệ Bưu Chính Viễn Thơng tổ chức lớp cao học tạo điều kiện thuận lợi cho tơi bạn lớp hồn thành khóa học Tơi xin bày tỏ biết ơn chân thành sâu sắc đến quý Thầy, Cô giảng dạy lớp cao học khóa 2015, dành nhiều thời gian, tâm huyết để truyền thụ cho kiến thức quý báu Từ tiền đề quan trọng tảng cho luận văn hoàn thành Đặc biệt xin cảm ơn TS Nguyễn Phương tận tâm hướng dẫn cho suốt q trình nghiên cứu hồn thành luận văn Học viên thực Nguyễn Như Đồng iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH SÁCH BẢNG v DANH SÁCH HÌNH VẼ vi Chương - TỔNG QUAN 1.1 Tính cấp thiết đề tài .1 1.2 Tổng quan vấn đề nghiên cứu .1 1.3 Mục đích nghiên cứu 1.4 Nội dung nghiên cứu 1.5 Phương pháp nghiên cứu Chương - CƠ SỞ LÝ THUYẾT 2.1 Khai thác liệu 2.1.1 Giới thiệu 2.1.2 Các nhiệm vụ khai thác liệu 2.2 Kỹ thuật gom cụm khai thác liệu 2.2.1 Tổng quan kỹ thuật gom cụm 2.2.2 Ứng dụng gom cụm liệu 10 2.2.3 Các yêu cầu kỹ thuật gom cụm liệu 11 2.2.4 Phân loại kiểu liệu 12 2.2.5 Độ đo tương tự, phi tương tự 14 2.2.6 Một số phương pháp gom cụm liệu 16 2.3 Thuật toán k-means 20 2.4 Thuật toán k-means mờ 22 2.4.1 Các bước thuật toán gom cụm mờ 23 2.4.2 Nhận xét 24 2.5 Kết luận 24 Chương - MƠ HÌNH KẾT HỢP K-MEANS MỜ SỬ DỤNG TRỌNG SỐ ENTROPY VÀ ĐÁNH GIÁ CỤM DỰA TRÊN CHỈ SỐ 26 3.1 Xây dựng thuật toán 26 3.1.1 Một số ký hiệu định nghĩa 26 3.1.2 Gom cụm K-Means mờ sử dụng trọng số Entropy (FKMUE) 26 3.1.3 Phương pháp đánh giá cụm Calinski-Harabasz index 30 3.1.4 Mơ hình kết hợp K-Means mờ sử dụng trọng số Entropy đánh giá cụm Calinski-Harabasz Index 33 3.2 Nhận xét mơ hình - thuật tốn đề xuất 36 3.3 Thực nghiệm 36 iv 3.3.1 Thiết lập thử nghiệm 36 3.3.2 Dữ liệu thử nghiệm thuật toán gom cụm mờ đề xuất 37 3.3.3 Dữ liệu thử nghiệm thuật toán fuzzy k-means 39 3.4 So sánh thuật toán gom cụm mờ đề xuất với thuật toán fuzzy k-means .40 3.5 Kết luận 41 Chương - VẬN DỤNG MƠ HÌNH ĐỀ XUẤT VÀO ỨNG DỤNG THỰC TIỄN 42 4.1 Giới thiệu ứng dụng 42 4.2 Yêu cầu chức 42 4.3 Yêu cầu chất lượng 43 4.4 Các bước thực 43 4.5 Gom cụm môn học 44 4.6 Gom cụm sinh viên 49 4.7 Kết luận 54 KẾT LUẬN 55 DANH MỤC TÀI LIỆU THAM KHẢO 56 v DANH SÁCH BẢNG Bảng 2.1: Bảng tham số thuộc tính nhị phân 15 Bảng 3.1: Tỷ lệ lỗi thuật toán gom cụm mờ đề xuất 38 Bảng 3.2: Kết đánh giá cụm phương pháp Calinski-Harabasz index 39 Bảng 4.1: Yêu cầu chức phần mềm ứng dụng 43 Bảng 4.2: Bảng yêu cầu chất lượng phần mềm ứng dụng 43 Bảng 4.3: Minh họa sở liệu đầu vào môn học 44 Bảng 4.4: Minh họa sở liệu đầu vào sinh viên 49 vi DANH SÁCH HÌNH VẼ Hình 2.1: Các bước trình khám phá tri thức Hình 2.2: Mơ gom cụm liệu Hình 2.3: Gom cụm theo phương pháp Bottom Up Top Down 17 Hình 2.4: Hình dạng cụm liệu 18 Hình 2.5: Cấu trúc liệu lưới 19 Hình 2.6: Kết gom cụm thuật tốn K-Means 22 Hình 3.1: Mơ hình kết hợp phương pháp FKMUE Calinski-Harabasz index .34 Hình 4.1: Màn hình gom cụm môn học 45 Hình 4.2: Vùng hiển thị nội dung sở liệu 46 Hình 4.3: Hộp thoại nhập hệ số cho thuộc tính 47 Hình 4.4: Kết gom cụm môn học 48 Hình 4.5: Vùng hiển thị kết đánh giá cụm 48 Hình 4.6: Màn hình gom cụm sinh viên 50 Hình 4.7: Vùng hiển thị nội dung sở liệu sinh viên .51 Hình 4.8: Hộp thoại nhập hệ số cho thuộc tính 52 Hình 4.9: Kết gom cụm sinh viên .53 Hình 4.10: Vùng hiển thị kết đánh giá cụm 54 Chương - TỔNG QUAN 1.1 Tính cấp thiết đề tài Ngày nay, ứng dụng công nghệ thông tin phục vụ cho hầu hết lĩnh vực đời sống viễn thông, kinh tế, y tế, giáo dục, Những ứng dụng mang lại cho người nhiều tiện ích sống, đáp ứng nhu cầu từ đơn giản đến phức tạp Việc ứng dụng công nghệ thông tin sống dẫn đến việc hình thành khối lượng liệu khổng lồ, ngày lớn dần theo thời gian Đây xem kho tri thức tiềm tàng, đòi hỏi người sử dụng phải biết khai thác, chọn lọc liệu có ích cho Các tri thức rút trích vận dụng để cải thiện hiệu hoạt động hệ thống thông tin ban đầu Khai thác tri thức sở liệu xu hướng phát triển công nghệ thông tin nay, có khả ứng dụng vào nhiều toán thực tế khác Khai thác liệu (Data Mining) [3] bước quan trọng trình này, giúp người sử dụng thu tri thức hữu ích từ nguồn liệu khổng lồ Khai thác liệu trình tìm kiếm mẫu mới, thơng tin tiềm ẩn mang tính dự đoán khối liệu lớn Với ưu điểm trên, khai thác liệu ứng dụng rộng rãi lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, … Hiện nay, trường đại học, cao đẳng, công nghệ thông tin ứng dụng việc quản lý hồ sơ sinh viên điểm số môn học học kỳ, liệu lưu trữ theo thời gian lớn Việc áp dụng khai thác liệu liệu cần thiết, nhằm phục vụ cho việc quản lý, hỗ trợ sinh viên nâng cao chất lượng giảng dạy trường Với lí nêu, người nghiên cứu chọn đề tài “ Nghiên cứu phát triển thuật toán gom cụm mờ ” 1.2 Tổng quan vấn đề nghiên cứu Cùng với phát triển xã hội, lượng thông tin phục vụ cho sống không ngừng tăng lên Sự tích lũy liệu, đó, diễn nhiều Người ta uớc đoán rằng, luợng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số luợng kích cỡ sở liệu (CSDL) tăng lên cách nhanh chóng Trong nhiều lĩnh vực, nhà quản lý “ngập” liệu, lại cảm thấy “thiếu” tri thức thơng tin hữu ích Lượng liệu khổng lồ thực nguồn “tài nguyên” giá trị thông tin yếu tố then chốt hoạt động thơng tin giúp ngƣời điều hành quản lý có nhìn sâu sắc, xác, khách quan trước định Khai phá liệu – khai thác thơng tin tiềm ẩn mang tính dự đốn từ CSDL lớn – hướng tiếp cận với khả giúp đơn vị, tổ chức trọng vào thơng tin có nhiều ý nghĩa từ tập hợp liệu lớn (databases, data warehouses, datarepositories) mang tính lịch sử Những cơng cụ khai phá liệu dự đốn xu hướng tương lai cho phép tổ chức, doanh nghiệp định kịp thời đƣợc định hướng tri thức mà khai phá liệu đem lại Sự phân tích liệu cách tự động mang tính dự báo khai phá liệu có ưu hẳn so với phân tích thông thường dựa kiện khứ hệ hỗ trợ định (Decision support systems – DSSs) truyền thống trước Công cụ khai phá liệu trả lời câu hỏi lĩnh vực kinh doanh mà trước xem tốn nhiều thời gian để xử lý Ta coi khai phá liệu giống trình phát mẫu đáp ứng yêu cầu, tương quan có ý nghĩa, xu hướng khai thác khối liệu kho liệu, sử dụng kỹ thuật khái niệm lĩnh vực nghiên cứu từ trước như: học máy, nhận dạng, thống kê, hồi quy, xếp loại, phân nhóm, mơ hình đồ thị, mạng Bayes… Khai phá liệu sử dụng để tạo giả thuyết Ví dụ nh để xác định yếu tố rủi ro cho vay tín dụng, kỹ thuật khai phá liệu phải phát người có thu nhập thấp nợ nhiều người có mức rủi ro cao, ngồi kỹ thuật phát quy luật mà nhà phân tích chưa tìm ví dụ tỷ lệ thu nhập nợ tuổi yếu tố xác định mức rủi ro Để làm điều này, khai phá liệu sử dụng thông tin 44 4.5 Gom cụm môn học Dữ liệu đầu vào có cấu trúc sau: Bảng 4.3: Minh họa sở liệu đầu vào môn học Điểm 10 Điểm Điểm Dưới Môn học 0.08 0.1 0.8 0.02 Môn 0.05 0.2 0.7 0.05 Môn 0.1 0.2 0.6 0.1 Môn 0.1 0.3 0.4 0.2 Môn 0.2 0.3 0.5 0.1 Môn Dữ liệu đầu ra: Cụm 1: Môn 1, Môn Cụm 2: Môn Cụm 3: Mơn 2, Mơn ❖ Màn hình Màn hình thể tất thao tác nội dung hiển thị cho người dùng, gồm có vùng: ● Vùng hiển thị nội dung sở liệu theo dạng bảng ● Vùng nhập liệu số cụm, hệ số mờ ● Vùng hiển thị tập kết gom cụm môn học ● Vùng hiển thị kết đánh giá cụm 45 Hình 4.1: Màn hình gom cụm môn học ❖ Nhập sở liệu đầu vào Ứng dụng cho phép người dùng nhập vào sở liệu tùy chọn ❖ Vùng hiển thị sở liệu Hiển thị nội dung sở liệu dạng bảng 46 Hình 4.2: Vùng hiển thị nội dung sở liệu ❖ Thay đổi tham số Chức cho phép người dùng thay đổi hệ số đầu vào như: số cụm, hệ số mờ giá trị trọng số cho thuộc tính 47 Hình 4.3: Hộp thoại nhập hệ số cho thuộc tính Mặc định giá trị hệ số thuộc tính ban đầu chia cho tổng số thuộc tính tập liệu đầu vào Tuy nhiên, người dùng điều chỉnh hệ số tùy theo mục đích trường hợp cụ thể 48 ❖ Vùng hiển thị kết gom cụm mơn học Hình 4.4: Kết gom cụm mơn học ❖ Vùng hiển thị kết đánh giá cụm Hình 4.5: Vùng hiển thị kết đánh giá cụm 49 ❖ Nhận xét: Qua kết gom cụm trên, ta thấy môn phân thành cụm tốt phân làm cụm Các môn phân vô cụm có thuộc tính gần giống nhau, từ ta có phân tích nhận xét, để cải tiến chương trình dạy học ngày tốt Ví dụ, mơn thuộc nhóm có tỉ lệ điểm cao nhất, phải xem xét lại chương trình giảng dạy, chất lượng giảng dạy giáo viên, khả tiếp thu học sinh, từ đưa biện pháp phù hợp Tương tự nhóm 1, tỉ lệ 5, cao, chứng tỏ sinh viên tiếp thu môn học chưa tốt, cần thay đổi phương pháp giảng dạy Nhóm nhóm mơn học sinh có kết học tập tốt Nếu nhóm có mơn tự chọn, khuyến khích sinh viên chọn mơn nhóm này, để đạt kết học tập tốt 4.6 Gom cụm sinh viên Dữ liệu đầu vào có cấu trúc sau: Bảng 4.4: Minh họa sở liệu đầu vào sinh viên Môn Môn Môn Môn Môn Sinh viên 5 Nguyễn Văn Hưng 6 Võ Thị Ni 8 Nguyễn Hà Như 8 Bùi Ngọc Diễm 8 Nguyễn Anh Huân Dữ liệu đầu ra: cụm sinh viên Cụm 1: Nguyễn Văn Hưng Cụm 2: Võ Thị Ni, Nguyễn Hà Như 50 Cụm 3: Bùi Ngọc Diễm, Nguyễn Anh Hn ❖ Màn hình Màn hình thể tất thao tác nội dung hiển thị cho người dùng, gồm có vùng: ● Vùng hiển thị nội dung sở liệu theo dạng bảng ● Vùng nhập liệu số cụm, hệ số mờ ● Vùng hiển thị tập kết gom cụm sinh viên ● Vùng hiển thị kết đánh giá cụm Hình 4.6: Màn hình gom cụm sinh viên ❖ Nhập sở liệu đầu vào Ứng dụng cho phép người dùng nhập vào sở liệu tùy chọn ❖ Vùng hiển thị sở liệu ❖ Hiển thị nội dung sở liệu dạng bảng 51 Hình 4.7: Vùng hiển thị nội dung sở liệu sinh viên ❖ Thay đổi tham số Chức cho phép người dùng thay đổi hệ số đầu vào như: số cụm, hệ số mờ giá trị trọng số cho thuộc tính 52 Hình 4.8: Hộp thoại nhập hệ số cho thuộc tính Mặc định giá trị hệ số thuộc tính ban đầu chia cho tổng số thuộc tính tập liệu đầu vào Tuy nhiên, người dùng điều chỉnh hệ số tùy theo mục đích trường hợp cụ thể 53 ❖ Vùng hiển thị kết gom cụm sinh viên Hình 4.9: Kết gom cụm sinh viên 54 ❖ Vùng hiển thị kết đánh giá cụm Hình 4.10: Vùng hiển thị kết đánh giá cụm ❖ Nhận xét Sau thực gom cụm, ta thu cụm, danh sách sinh viên cụm điểm mơn học tương ứng Từ dễ dàng phân tích khả năng, khiếu sinh viên cụm Một cách cụ thể kết hình 4.10 thấy sinh viên thuộc cụm sinh viên chăm học tất môn, điểm cao môn pháp luật đại cương, giáo dục thể chất không môn rớt Các sinh viên cụm học không tốt môn đại cương Sinh viên cụm học yếu môn xác xuất thống kê, tin học, giáo dục quốc phòng Sinh viên cụm có điểm trung bình, khơng mơn đạt điểm cao Qua phân tích ta thấy việc gom cụm sinh viên giúp ta có đánh giá, nhận xét sinh viên cụm có khả học tốt môn chưa tốt mơn để có định hướng cho sinh viên chọn môn học tự chọn hay chuyên ngành 4.7 Kết luận Chương kết cài đặt thử nghiệm cho gom cụm môn học gom cụm sinh viên trường Cao đẳng Kỹ Nghệ II dựa vào mơ hình đề xuất chương Với kết đầu trên, chương trình thực việc gom cụm với kết tương đối hợp lý 55 KẾT LUẬN Luận văn cố gắng tập trung tìm hiểu, nghiên cứu, trình bày số kỹ thuật thuật toán gom cụm liệu phổ biến kết đánh giá cụm Từ đề xuất mơ hình kết hợp phương pháp kết hợp thuật toán gom cụm K-Means mờ với trọng số Entropy đánh giá cụm Calinski-Harabasz index Với kết có tỉ lệ xác cao cho thấy mơ hình đề xuất hồn toàn phù hợp mang lại nhiều kết tốt để áp dụng thực tiễn HƯỚNG PHÁT TRIỂN Sau thời gian nghiên cứu, tìm hiểu, luận văn đạt yêu cầu đề Tuy nhiên kết đạt khiêm tốn, tồn đọng nhiều vấn đề liên quan cần giải Chính vậy, cơng việc tiếp theo, người nghiên cứu tập trung thử nghiệm tập liệu lớn khác để tìm hệ số mờ tốt Ngoài ra, việc gom cụm liệu theo thời gian người nghiên cứu tìm hiểu thực Từ tiến tới việc xây dựng hệ thống hồn thiện có khả gom cụm nhanh xác, đáp ứng nhu cầu thực tiễn 56 DANH MỤC TÀI LIỆU THAM KHẢO [1] Hoàng Xuân Huấn, Nguyễn Thị Xuân Hương (2006), “Mở rộng thuật toán gom cụm K-means cho liệu hỗn hợp”, tạp chí tin học điều khiển học, T.22, 267-274 [2] MacQueen, J B (1967) Some Methods for classification and Analysis of Multivariate Observations Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability University of California Press pp 281–297 MR 0214227 Zbl 0214.46201 Retrieved 2009-04-07 [3] J Han and M Kamber (2001), Data Mining : Concepts and Techniques, Morgan Kaufman Publishers [4] Ahmad, and L Dey (2007), “A k-mean clustering algorithm for mixed numeric and categorical data”, Data & Knowledge Engineering, 63.2, 503527 [5] Ho Tu Bao (2000), Introduction to knowledge discovery and data mining Institute of Information Technology, National Center for Natural Science and Technology [6] Maria Rigou, Spiros Sirmakessis, and Giannis Tzimas (2006), A Method for Personalized Clustering in Data Intensive Web Applications [7] T.A.Runkler, J.C.Bezdek (2002), Web mining with relational clustering [8] N Chen, A Chen, and L Zhou (2002), “An incremental grid density-based clustering algorithm”, Journal of Software, 13.1, 1-7 [9] X Xu, and Y Xie (2006), “Summarization on incremental clustering and research of incremental DBSCAN algorithm, Journal of North China Institute of Astronautic Engineering” Langfang, Hebei, China, 16 2, 15-17 [10] L Jing, M K Ng, and J Z Huang (2007), “An Entropy Weighting k-Means Algorithm for Subspace Clustering of High Dimensional Sparse Data”, IEEE Transactions On Knowledge And Data Engineering, 19 8, 1026-1041 57 [11] J.Z Huang, M.K Ng, H.Rong, and Z Li (2005), “Automated Variable Weighting in k-Means Type Clustering” IEEE Transactions on Pattern Analysis, 27 5, 657-668 [12] T Li, and Y Chen (2008, June), “An Improved K-means Algorithm for Clustering Using Entropy Weighting Measures” In Proceedings of the 7th World Congress on Intelligent Control and Automation, IEEE, 149-153 [13] S Guha, R Rastogi, and K Shim (1998), “CURE: An efficient clustering algorithm for clustering large databases”, ACM Press, New York, NY, 73-84 [14] R Agrawal, J Gehrke, D Gunopulos, and P Raghavan (1998), Automatic Subspace Clusteringof High Dimensional Data for Data Mining Applications, 94-105 [15] C.H Cheng, A.W Fu, and Y Zhang (1999), Entropy-Based Subspace Clustering for Mining Numerical Data In: Proceedings of the fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, CA, USA, August, ACM Press, 84-93 [16] C Aggarwal, C Procopiuc, J.L Wolf, P.S Yu, and J.S Park (1999), “Fast Algorithms for Projected Clustering”, 61-72 [17] C C Aggarwal, and P S Yu (2000), “Finding Generalized Projected Clusters in High Dimensional Spaces”, 70-81 [18] H Friguiand, and O Nasraoui (2004), Unsupervised Learning of Prototypes and Attribute Weights Pattern Recognition, 37 3, 567-581 [19] Y Chan, W Ching, M K Ng, and J.Z Huang (2004), An Optimization Algorithm for Clustering Using Weighted Dissimilarity Measures Pattern Recognition, 37 5, 943-952 [20] Taoying Li and Yan Chen (2010), “Fuzzy K-Means Incremental Clustering Based on K-Center and Vector Quantization”, Journal of computer, Vol 5, No 11, November [21] https://archive.ics.uci.edu/ml/datasets/Iris [22] Jain, A., Dubes, R.(1988), Algorithms for Clustering Data Prentice-Hall 58 [23] Ben-Hur, A., Elisseeff, A.,Guyon (2002), I.: A stability based method for discovering structure in clustered data “In: Pacific Symposium on Biocomputing”, 6–17 [24] Lange, T., Roth, V., Braun, M.L., Buhmann (2004), J.M.: Stability-based validation of clustering solutions” Neural Computation 16.6, 1299–1323 [25] Zhang, J., Modestino (1990), J.W.: A model-fitting approach to cluster validation with application to stochastic model-based image segmentation IEEE Trans, Pattern Anal, Mach, Intell 12.10, 1009–1017 [26] Krzysztof Kryszczuk and Paul Hurley, “Estimation of the number of clusters using multiple clustering validity indices”, IBM Zurich Research Laboratory, Switzerland ... lượng giảng dạy trường Với lí nêu, người nghiên cứu chọn đề tài “ Nghiên cứu phát triển thuật toán gom cụm mờ ” 1.2 Tổng quan vấn đề nghiên cứu Cùng với phát triển xã hội, lượng thông tin phục vụ... 3.3.2 Dữ liệu thử nghiệm thuật toán gom cụm mờ đề xuất 37 3.3.3 Dữ liệu thử nghiệm thuật toán fuzzy k-means 39 3.4 So sánh thuật toán gom cụm mờ đề xuất với thuật toán fuzzy k-means .40... gom cụm liệu giới thiệu số cơng trình nghiên cứu kỹ thuật gom cụm liệu 2.2 Kỹ thuật gom cụm khai thác liệu 2.2.1 Tổng quan kỹ thuật gom cụm Mục đích gom cụm liệu nhằm khám phá cấu trúc mẫu liệu