Bài viết trình bày thuật toán cải tiến phân cụm mờ dựa vào sự kết hợp thuật toán phân cụm mờ dựa trên độ đo trọng số Entropy và chỉ số Calinski-Harabasz. Ưu điểm của phương pháp này là không những phân chia cụm hiệu quả, có độ chính xác cao mà còn có khả năng đo lường cụm, đánh giá cụm nhằm tìm ra được số cụm tối ưu đủ đáp ứng cho các nhu cầu thực tiễn.
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 8, Số 2, 2018 13–23 CẢI TIẾN THUẬT TOÁN PHÂN CỤM MỜ DỰA TRÊN ĐỘ ĐO TRỌNG SỐ ENTROPY VÀ CHỈ SỐ CALINSKI-HARABASZ Nguyễn Như Đồnga*, Phan Thành Huấnb Phòng Đào tạo, Trường Cao đẳng Kỹ nghệ II, TP Hồ Chí Minh, Việt Nam Bộ môn Tin học, Trường Đại học Khoa học Xã hội Nhân văn, Đại học Quốc gia TP Hồ Chí Minh, TP Hồ Chí Minh, Việt Nam * Tác giả liên hệ: Email: dongnhunguyen@gmail.com a b Lịch sử báo Nhận ngày 19 tháng 01 năm 2018 Chỉnh sửa ngày 22 tháng 03 năm 2018 | Chấp nhận đăng ngày 14 tháng 04 năm 2018 Tóm tắt Phân cụm kỹ thuật quan trọng khai thác liệu ứng dụng rộng rãi lĩnh vực nhận dạng mẫu, thị giác máy tính điều khiển mờ Trong viết này, chúng tơi trình bày thuật tốn cải tiến phân cụm mờ dựa vào kết hợp thuật toán phân cụm mờ dựa độ đo trọng số Entropy số Calinski-Harabasz Ưu điểm phương pháp phân chia cụm hiệu quả, có độ xác cao mà cịn có khả đo lường cụm, đánh giá cụm nhằm tìm số cụm tối ưu đủ đáp ứng cho nhu cầu thực tiễn Sau cùng, chúng tơi trình bày kết thực nghiệm liệu thực, cho thấy thuật toán cải tiến phân cụm hiệu xác Từ khóa: Chỉ số Calinski-Harabasz; Phân cụm mờ; Trọng số Entropy Mã số định danh báo: http://tckh.dlu.edu.vn/index.php/tckhdhdl/article/view/408 Loại báo: Bài báo nghiên cứu gốc có bình duyệt Bản quyền © 2018 (Các) Tác giả Cấp phép: Bài báo cấp phép theo CC BY-NC-ND 4.0 13 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] AN IMPROVED FUZZY K-MEANS CLUSTERING ALGORITHM BASED ON WEIGHT ENTROPY MEASUREMENT AND CALINSKI-HARABASZ INDEX Nguyen Nhu Donga*, Phan Thanh Huanb a b Training Department, Hochiminh Vocational College of Technology, Hochiminh City, Vietnam The Division of Information Technology, University of Social Sciences and Humanities, VNU Hochiminh, Hochiminh City, Vietnam * Corresponding author: Email: dongnhunguyen71@gmail.com Article history Received: January 19th, 2018 Received in revised form: March 22nd, 2018 | Accepted: April 14th, 2018 Abstract Clustering plays an important role in data mining and is applied widely in fields of pattern recognition, computer vision, and fuzzy control In this paper, we proposed an improved clustering algorithm combined of both fuzzy k-means using weight Entropy and Calinski-harabasz index The advantage of this method is that it does not only create efficient clustering but also has the ability to measure clusters and rate clusters to find the optimal number of clusters for practical needs Finally, we presented experimental results on real-life datasets, which showed that the improved algorithm has the accuracy and efficiency of the existing algorithms Keywords: Calinski-Harabasz Index; Fuzzy K-means; Weight entropy Article identifier: http://tckh.dlu.edu.vn/index.php/tckhdhdl/article/view/408 Article type: (peer-reviewed) Full-length research article Copyright © 2018 The author(s) Licensing: This article is licensed under a CC BY-NC-ND 4.0 14 Nguyễn Như Đồng Phan Thành Huấn GIỚI THIỆU Mục đích phân cụm liệu nhằm khám phá cấu trúc mẫu liệu để phân chia thành nhóm liệu từ tập liệu lớn Từ đó, người dùng phân tích nghiên cứu theo cụm liệu, nhằm khám phá tìm kiếm thơng tin tiềm ẩn, hữu ích hỗ trợ cho việc định Phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tương tự" với phần tử cụm khác "không tương tự" với Độ tương tự tính dựa giá trị thuộc tính mơ tả đối tượng Hình Mơ phân cụm liệu Hiện nay, kỹ thuật phân cụm có nhiều hướng tiếp cận Trong viết này, nhóm tác giả tập trung cải tiến kỹ thuật phân cụm theo hướng tiếp cận phân hoạch Ý tưởng kỹ thuật phân tập liệu có n phần tử cho trước thành k nhóm liệu cho phần tử liệu thuộc nhóm liệu nhóm liệu có tối thiểu phần tử liệu Các thuật tốn phân hoạch có độ phức tạp lớn xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm liệu, phải tìm kiếm tất cách phân hoạch Chính vậy, thực tế người ta thường tìm giải pháp tối ưu cục cho vấn đề cách sử dụng hàm tiêu chuẩn để đánh giá chất lượng cụm để hướng dẫn cho trình tìm kiếm phân hoạch liệu Với chiến lược này, thông thường người ta bắt đầu khởi tạo phân hoạch ban đầu cho tập liệu theo phép ngẫu nhiên theo heuristic liên tục tinh chỉnh thu phân hoạch mong muốn, thoả mãn điều kiện ràng buộc cho trước Các thuật toán phân cụm phân hoạch cố gắng cải tiến tiêu chuẩn phân cụm cách tính giá trị đo độ tương tự đối tượng liệu xếp giá trị này, sau thuật tốn lựa chọn giá trị dãy xếp cho hàm tiêu chuẩn đạt giá trị tối thiểu Như vậy, ý tưởng thuật toán phân cụm phân hoạch tối ưu cục sử dụng chiến lược ăn tham để tìm kiếm nghiệm Trong phạm vi báo, nhóm tác giả trình bày cải tiến thuật tốn phân cụm mờ kết hợp phương pháp phân cụm mờ sử dụng trọng số Entropy Jing, Ng, Huang (2007) Li Chen (2008, 2010) kỹ thuật đánh giá cụm theo số Calinski-Harabasz Phần trình bày khái niệm phân cụm rõ phân cụm mờ Phần đề xuất mơ hình phân cụm mờ dựa kết hợp phân cụm mờ sử dụng trọng số Entropy đánh giá cụm theo số CalinskiHarabasz Kết thực nghiệm trình bày Phần kết luận Phần CÁC VẤN ĐỀ LIÊN QUAN 2.1 Phân cụm rõ: Thuật toán K-Means Cho tập liệu X={x1,x2,…,xn}, với xi Rd, gồm n đối tượng liệu d chiều Phân tách tập liệu thành k cụm: C1,C2,…,Ck rời thỏa mãn điều kiện sau: Ci ,i k ; 15 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] Ci C j ,i j ; k UC i X Trong đó: k số cụm phân thành, cho trước, nguyên dương; Ci i 1 véc-tơ tâm cụm, dùng đề cụm thứ i K-Means thuật toán quan trọng sử dụng phổ biến kỹ thuật phân cụm Ý tưởng thuật tốn K-Means tìm cách phân nhóm đối tượng cho vào k cụm (k số cụm xác đinh trước, k nguyên dương) cho tổng bình phương khoảng cách đối tượng đến tâm nhóm nhỏ Thuật tốn có bước sau: Đầu vào: Cơ sở liệu gồm n đối tượng d chiều số k; Đầu ra: Các cụm Ci (i=1 k) cho hàm tiêu chuẩn F đạt giá trị tối thiểu; Bước 1: Chọn k đối tượng mj (j=1 k) trọng tâm ban đầu k cụm (ngẫu nhiên theo kinh nghiệm); Bước 2: Đối với đối tượng Xi (1 ≤ i ≤ n), tính tốn khoảng cách từ tới trọng tâm mj với j=1…k Sau tìm trọng tâm gần đối tượng; Bước 3: Đối với j=1…k, cập nhật trọng tâm cụm mj cách tính trung bình cộng vector đối tượng liệu; Bước 4: Lặp Bước Bước trọng tâm cụm khơng thay đổi Thuật tốn K-Means chứng minh hội tụ có độ phức tạp tính tốn là: (( n k d ) T flop ) Trong đó: n số đối tượng liệu; k số cụm liệu; d số chiều; τ số vòng lặp; Tflop thời gian để thực phép tính sở phép tính nhân, chia… Như vậy, K-Means phân tích phân cụm đơn giản nên áp dụng tập liệu lớn Tuy nhiên, nhược điểm K-Means áp dụng với liệu có thuộc tính số khám phá cụm có dạng hình cầu, K-Means cịn nhạy cảm với nhiễu phần tử ngoại lai liệu Hình mơ số hình dạng cụm liệu khám phá thuật tốn K-Means Hình Mơ kết phân cụm thuật tốn K-Means 16 Nguyễn Như Đồng Phan Thành Huấn Hơn nữa, chất lượng phân cụm thuật toán K-Means phụ thuộc nhiều vào tham số đầu vào số cụm k k trọng tâm khởi tạo ban đầu Trong trường hợp trọng tâm khởi tạo ban đầu lệch so với trọng tâm cụm tự nhiên kết phân cụm K-Means thấp, nghĩa cụm liệu khám phá lệch so với cụm thực tế Trên thực tế, người ta chưa có giải pháp tối ưu để chọn tham số đầu vào Giải pháp thường sử dụng thử nghiệm với giá trị đầu vào k khác sau chọn giải pháp tốt 2.2 Phân cụm mờ: Thuật toán K-Means mờ Các thực thể giới thực hay khái niệm trừu tượng thường đối tượng phức tạp Các đối tượng chứa tập định thông tin đối tượng hành vi đối tượng Thơng tin đối tượng gọi thuộc tính đối tượng xác định giá trị cụ thể Chúng ta thấy rằng, tùy thuộc vào mục tiêu phân cụm mà tính chất quan trọng thuộc tính khác Do đó, cần đánh giá tính quan trọng thuộc tính đối tượng để thu kết phân cụm tốt Cụ thể cung cấp giá trị trọng số ω độ đo F để thể mức độ quan trọng thuộc tính Phương pháp gọi phân cụm mờ, Friguiand Nasraoui (2004) Chan, Ching, Ng, Huang (2004) đề xuất Độ đo F tính cơng thức (1) k n m ( x F ( T ,W ,C ) lj li ji cli )2 (1) l 1 j 1 i 1 Trong đó: k lj 1,( j n ), lj { 0,1 }; l 1 m li 1, li 1,( l k ) ; n số phần tử cụm; i 1 m số thuộc tính phần tử; k số cụm; cli phần tử trung tâm cụm (1 i n) Thuật toán K-Mean mờ mô tả sau: Đầu vào: Cơ sở liệu gồm n đối tượng số cụm k; Đầu ra: Các cụm Ci (i=1…k) cho hàm tiêu chuẩn F đạt giá trị tối thiểu; Bước 1: Chọn k đối tượng mj (j=1…k) trọng tâm ban đầu k cụm (ngẫu nhiên theo kinh nghiệm); Khởi tạo trọng số ωli = 1/m (1 i n; l m); Bước 2: Tính tốn τ theo cơng thức (2); m m zi ( c zi x ji )2 1, li ( cli x ji ) i 1 i 1 lj m m , ( c x ) zi ( c zi x ji )2 li li ji i i (2) Bước 3: Tính hàm F theo cơng thức (3); k F ( T ,W ,C ) n m ( x lj li ji cli )2 (3) l 1 j 1 i 1 17 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] Bước 4: Cập nhật lại trọng tâm C theo công thức (4); n cli lj x ji j 1 n (4) lj j 1 Bước 5: Cập nhật lại ω theo công thức (5); m li i 1 lj ( cli x ji )2 j 1 n lj ( clt x jt )2 j 1 n ( 1 ) (5) Bước 6: Lặp lại bước từ Bước đến Bước hàm F nhỏ Dựa vào cơng thức tính ω trên, ta nhận thấy số trường hợp giá trị ω khơng tính tốn mẫu số Để giải vấn đề nhóm tác giả Huang, Ng, Rong, Li (2005) đề xuất thuật toán “An Entropy weighting K-Means algorithm (EWKM)” nhằm khắc phục hạn chế tính tốn ω cách xây dựng hàm F cải tiến công thức (6) n l 1 j 1 k F ( T ,W ,C ) m ljli ( x ji cli )2 i 1 m li log li i 1 (6) Mặc dù phương pháp EWKM giải vấn đề mẫu số tính tốn giá trị ω cịn hạn chế chưa tách lớp cách rõ rệt Điều dẫn đến kết phần tử cụm nằm gần gây nên chồng chéo khơng xác THUẬT TỐN ĐỀ XUẤT 3.1 Mơ hình kết hợp Các thuật tốn K-Means K-Means mờ khảo sát thời điểm bước đột phá lĩnh vực phân cụm liệu tồn số khuyết điểm Để khắc phục hạn chế K-Means mờ, nhiều thuật toán cải tiến đời thuật toán cải tiến gần biết đến thuật tốn phân cụm K-Means mờ sử dụng độ đo trọng số Entropy (Fuzzy K-Means algorithm for clustering using Entropy - FKMUE) Li Chen (2008, 2010) Mục tiêu thuật toán điều chỉnh hàm chí phí F cơng thức (6) cách thêm vào biến liên quan đến khoảng cách trung bình phần tử khoảng cách trung bình cụm với Điều khơng giúp cho mẫu cụm gom lại gần mà hướng đến việc phân chia cụm cách xa Trong phần trình bày cải tiến thuật toán phân cụm dựa vào kết hợp thuật toán KMeans mờ sử dụng độ đo trọng số Entropy phương pháp đánh giá cụm theo số CalinskiHarabasz Ưu điểm phương pháp phân chia cụm hiệu quả, có độ xác cao mà cịn có khả đo lường cụm, đánh giá cụm nhằm tìm số cụm tối ưu đủ đáp ứng cho nhu cầu thực tiễn Thuật toán cải tiến chia thành hai giai đoạn sau (Hình 3): 18 Nguyễn Như Đồng Phan Thành Huấn Giai đoạn 1: Sử dụng thuật toán FKMUE để phân cụm tập liệu đầu vào; Giai đoạn 2: Sau phân hoạch liệu thành cụm thuật toán FKMUE, sử dụng độ đo Calinski-Harabasz để đánh giá tính hiệu ứng với số cụm vừa tìm Quá trình lặp lặp lại cho số cụm khác số cụm có giá trị SCH lớn chọn làm kết sau Hình Mơ hình kết hợp phương pháp FKMUE Calinski-Harabasz 3.2 Thuật toán đề xuất Hầu hết thuật toán phân cụm mờ thời điểm thường mang tính chất ngẫu nhiên chọn tâm ban đầu cho cụm Vì số trường hợp xảy tượng tâm cụm chọn nằm cạnh có tính chất tương tự Điều dẫn đến kết chi phí lặp lại cho số lần phân chia cụm lớn làm giảm hiệu hệ thống Để giải vấn đề này, nhóm tác giả làm số điều chỉnh cho việc chọn tâm cho k cụm ban đầu cách tính tốn khoảng cách cho tâm cụm có khoảng cách xa so với tâm cụm chọn trước Ngồi ra, liệu thực tế thường không đồng hay bị 19 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG] dư thừa nên thường dẫn đến việc phân cụm có độ xác khơng cao Để loại bỏ thuộc tính dư thừa, khơng tham gia vào q trình phân cụm đảm bảo liệu quán, chúng tơi tiến hành chuẩn hóa liệu gốc tọa độ theo công thức (7) sau: x orginal xti x ji (1 i m ) t max xti xti t (7) t Thuật tốn đề xuất có bước sau: Đầu vào: Cơ sở liệu gồm n đối tượng giá trị đầu vào m, l, maxValue = 0, k, γ, số lần lặp tối đa s trọng số ban đầu thuộc tính li m ; Đầu ra: Số cụm có giá trị SCH lớn nhất; Bước 1: Chuẩn hóa thuộc tính mẫu gốc tọa độ theo công thức (7); Bước 2: Đưa tất mẫu sau chuẩn hóa vào tập H gán tập C (chứa tâm cụm); Bước 3: Chọn ngẫu nhiên mẫu H đưa vào C, đồng thời loại bỏ mẫu khỏi H Mẫu xem tâm cụm đầu tiên; Bước 4: Tìm mẫu H đặt vào C cho khoảng cách từ mẫu đến tất mẫu C xa nhất; Bước 5: Nếu số tâm C với k chuyển sang Bước 7, ngược lại quay sang Bước 4; Bước 6: Tính giá trị T theo công thức (8) giá trị F(T,W,C) theo công thức (9); n n lj d ( x j , cl ) j 1 m i (8) i 1 k F ( T ,W ,C ) l 1 n cli )2 i 1 m ( cli xi ) i 1 m ( x lj li j 1 ji k m l 1 i 1 li log li Bước 7: Cập nhật C theo công thức (10) W theo công thức (11); m n lt k (9) n lj d ( x j , cl (10) ) l 1 j 1 lt exp lt exp i 1 (11) m 20 Nguyễn Như Đồng Phan Thành Huấn Trong lt n m ( c li xi )2 lj ( clt x jt )2 j 1 i 1 Bước 8: Lặp lại Bước Bước F nhỏ số lần lặp s, chuyển sang Bước 10; Bước 9: Đánh giá số cụm vừa tìm theo cơng thức (12) để giá trị SCH; k S CH nk k 1 n ( x l l 1 k i x )( x i x )T x l 1 r ip x lp (12) p 1 xl Ci Bước 10: So sánh giá trị SCH với maxValue Nếu SCH lớn maxValue gán maxValue = SCH; Bước 11: Tăng giá trị l = l +1 Nếu l ≤ k chuyển sang Bước Ngược lại số cụm chọn l số cụm có giá trị SCH lớn Trong phần này, nhóm tác giả trình bày phương pháp cho việc phân cụm cách kết hợp thuật toán FKMUE độ đo Calinski-Harabasz So với thuật tốn K-Means mờ truyền thống tính chất mờ thường kèm với đối tượng không phản ánh rõ mức độ quan trọng thuộc tính xem xét gom cụm đối tượng Trái lại thuật toán K-Means mờ với trọng số Entropy trọng đến tính chất mờ thuộc tính, cho phép người dùng điều chỉnh để tăng hệ số mờ với thuộc tính quan trọng giảm giá trị với thuộc tính khơng cần thiết Thêm vào điều chỉnh hàm F để làm gia tăng khoảng cách cụm thu hẹp mẫu cụm góp phần lớn vào mức độ xác, giúp cho cụm rõ ràng có nhiều ý nghĩa Cuối tính hiệu phương pháp đo lường qua tiêu chuẩn đánh giá cụm phương pháp Calinski-Harabasz, giúp cho kết phân cụm xác, có ý nghĩa tin cậy Với ưu điểm vừa trình bày trên, thấy phương pháp đề xuất chúng tơi có đủ tính khả thi cho toán phân cụm liệu, đáp ứng nhu cầu ứng dụng thực tiễn nhiều lĩnh vực khác THỰC NGHIỆM Trong phần này, nhóm tác giả sử dụng liệu Iris từ kho liệu học máy Đại học California (Lichman, 2013) Bộ liệu rút gọn gồm năm thuộc tính, bốn thuộc tính kiểu số bao gồm: Chiều dài đài hoa; Chiều rộng đài hoa; Chiều dài cánh hoa; Chiều rộng cánh hoa Một thuộc tính cịn lại tên loài hoa Iris (Iris Setosa; Iris Versicolour; Iris Virginica) Tỷ lệ phân chia cho loài ba loài Iris 33.3% Bảng Mơ tả liệu lồi hoa Iris Đặc trưng Giá trị nhỏ Giá trị lớn Giá trị trung bình Chiều dài đài hoa 4.3 7.9 5.84 Chiều rộng đài hoa 2.0 4.4 3.05 Chiều dài cánh hoa 1.0 6.9 3.76 Chiều rộng cánh hoa 0.1 2.5 1.20 21 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG] Để đánh giá độ xác thuật tốn phân cụm, tỷ lệ lỗi tính cơng thức (13) Tỷ lệ lỗi nhỏ, thuật tốn có độ xác cao, có tính phù hợp tốt Tỷ lệ lỗi = (số mẫu gom cụm sai/ Tổng số mẫu kiểm tra) x 100% (13) Bảng Tỷ lệ lỗi Trường hợp ω Số mẫu Số mẫu sai Tỷ lệ lỗi (%) 0.10 150 82 55.0 0.40 0.40 150 3.0 0.40 0.40 0.10 150 16 10.6 0.40 0.10 0.10 0.40 150 12 8.0 0.25 0.25 0.25 0.25 150 4.6 Thuộc tính Thuộc tính Thuộc tính Thuộc tính 0.40 0.40 0.10 0.10 0.10 0.10 Từ kết thống kê tỷ lệ lỗi Bảng ta thấy trình phân cụm tốt ω = {0.1, 0.1, 0.4, 0.4} với tỷ lệ xác 97% trình phân cụm xấu ω = {0.4, 0.4, 0.1, 0.1} với tỷ lệ xác 45% Điều cho thấy trọng số thuộc tính đóng góp lớn vào tính xác q trình phân cụm Ngồi với tỷ lệ phân cụm xác lên đến 97% chọn thuộc tính phù hợp cho kết luận phương pháp phân cụm mờ với trọng số Entropy cải tiến phương pháp phân cụm xác, hiệu quả, mang lại hiệu áp dụng cho toán ứng dụng thực tiễn Một khuyết điểm tốn phân cụm việc chọn số cụm dựa vào kinh nghiệm người sử dụng Nó khơng có sở để đánh giá việc chọn số cụm tối ưu Có thể nói, phân cụm liệu ví dụ phương pháp học khơng giám sát, khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì coi phân cụm liệu cách học quan sát (learning by observation) Trong phương pháp ta biết kết cụm thu bắt đầu q trình Vì vậy, thơng thường cần có chuyên gia để đánh giá cụm thu Trong viết này, nhóm tác giả sử dụng phương pháp đánh giá theo độc đo Calinski-Harabasz Kết đầu trình phân cụm với trọng số Entropy cải tiến đầu vào cho phương pháp đánh giá cụm Calinski-Harabasz Quá trình thực với việc chọn nhiều số cụm khác nhau, sau kết đầu lần phân cụm đánh giá để chọn cụm tối ưu Bảng Kết cho thấy với liệu Iris, số cụm k =3 tối ưu có tỷ lệ 1.1438 Bảng Kết đánh giá cụm theo phương pháp Calinski-Harabasz STT Số cụm Tỷ lệ đánh giá 1.1438 0.8229 0.7417 0.7221 0.6879 22 Nguyễn Như Đồng Phan Thành Huấn KẾT LUẬN Trong viết này, nhóm tác giả trình bày cải tiến thuật tốn phân cụm mờ cách kết hợp phương pháp phân cụm K-Means mờ với độ đo trọng số Entropy đánh giá cụm theo số Calinski-Harabasz Các kết thực nghiệm cho thấy việc chọn hệ số phù hợp phương pháp phân cụm với trọng số Entropy phương pháp hiệu có độ xác cao Ngồi ra, để nâng cao độ tin cậy cho hệ thống phân cụm, sử dụng phương pháp đánh giá cụm theo số Calinski-Harabasz thước đo tính xác cho đầu chọn số cụm Trong tương lai, nhóm tác giả cố gắng nghiên cứu thực nghiệm nhiều liệu khác đưa cải tiến vào ứng dụng thực tế TÀI LIỆU THAM KHẢO Chan, Y., Ching, W., Ng, M K., & Huang, J Z (2004) An optimization algorithm for clustering using weighted dissimilarity measures Pattern Recognition, 37(5), 943-952 Friguiand, H., & Nasraoui, O (2004) Unsupervised learning of prototypes and attribute weights Pattern Recognition, 37(3), 567-581 Hoàng, X H., & Nguyễn, T X H (2006) Mở rộng thuật toán gom cụm K-means cho liệu hỗn hợp Tạp chí Tin học Điều khiển học, 22(3), 267-274 Huang, J Z., Ng, M K., Rong, H., & Li, Z (2005) Automated variable weighting in K-Means type clustering IEEE Transactions on Pattern Analysis, 27(5), 657-668 Jing, L., Ng, M K., & Huang, J Z (2007) An entropy weighting K-Means algorithm for subspace clustering of high dimensional sparse data IEEE Transactions on Knowledge and Data Engineering, 19(8), 1026-1041 Li, T., & Chen, Y (2008) An improved K-means algorithm for clustering using Entropy weighting measures Paper presented at The 7th World Congress on Intelligent Control and Automation, China Li, T., & Chen, Y (2010) Fuzzy K-Means incremental clustering based on K-Center and vector quantization Journal of Computer, 5(11), 1670-1677 Lichman, M (2013) UCI machine learning repository California, USA: University of California Retrieved from http://archive.ics.uci.edu/ml 23 ... K-Means mờ, nhiều thuật toán cải tiến đời thuật toán cải tiến gần biết đến thuật toán phân cụm K-Means mờ sử dụng độ đo trọng số Entropy (Fuzzy K-Means algorithm for clustering using Entropy -. .. bày cải tiến thuật toán phân cụm mờ cách kết hợp phương pháp phân cụm K-Means mờ với độ đo trọng số Entropy đánh giá cụm theo số Calinski- Harabasz Các kết thực nghiệm cho thấy việc chọn hệ số. .. việc phân chia cụm cách xa Trong phần trình bày cải tiến thuật tốn phân cụm dựa vào kết hợp thuật toán KMeans mờ sử dụng độ đo trọng số Entropy phương pháp đánh giá cụm theo số CalinskiHarabasz