Chương Gom cụm (Clustering) Nội dung Giới thiệu Các độ đo khoảng cách Phương pháp K-means Bài tập lý thuyết Chương Gom cụm Giới thiệu Sự bùng nổ thông tin tác động siêu phương tiện WWW Các hệ thống truy vấn thông tin dựa việc phân nhóm, gom cụm (clustering) đời để làm tăng tốc độ tìm kiếm thông tin Do biến động thường xuyên thông tin nên thuật toán clustering tồn trì tốt nhóm, cụm (cluster) môi trường Vấn đề đặt làm để cập nhật cluster hệ thống thông tin cập nhật thay phải thường xuyên clustering lại toàn liệu? 7/12/2014 www.lhu.edu.vn Chương Gom cụm Giới thiệu Gom cụm (clustering) trình nhóm tập đối tượng thành cụm (cluster) có đối tượng giống Cho CSDL D={t1,t2,…,tn} số nguyên k, gom cụm toán xác định ánh xạ f : Dg{1,…,k} cho ti gán vào cụm (lớp) Kj, [...]... 10267 353 6.60 328.27 2 050 . 35 3087.74 10 255 2490 .50 717.83 1004. 25 2041.64 10273 2037.28 1486. 25 1171. 05 551 .03 158 8.42 10263 1873.80 1334 .53 387 .55 1424.94 10249 1863.40 1344.93 377. 15 1414 .54 10 258 1614.88 159 3. 45 128.63 1166.02 10 250 155 2.60 1 655 .73 66. 35 1103.74 10260 150 4. 65 1703.68 18.40 1 055 .79 10272 1 456 .00 1 752 .33 30. 25 1007.14 10 253 1444.80 1763 .53 41. 45 9 95. 94 10270 1376.00 1832.33 110. 25 927.14... 10277 1200.80 2007 .53 2 85. 45 751 .94 102 65 1176.00 2032.33 310. 25 727.14 10 257 1119.90 2088.43 366. 35 671.04 10268 1101.20 2107.13 3 85. 05 652 .34 10264 6 95. 62 448.86 251 2.71 790.63 246.76 10 251 654 .06 255 4.27 832.19 2 05. 20 10269 642.20 256 6.13 844. 05 193.34 10262 58 4.00 2624.33 902. 25 1 35. 14 10 254 55 6.62 2 651 .71 929.63 107.76 10274 53 8.60 2669.73 947. 65 89.74 10 256 51 7.80 2690 .53 968. 45 68.94 10261 448.00... không còn phép gán mới Chương 5 Gom cụm Thuật toán gom cụm K-Means Chương 5 Gom cụm Thuật toán gom cụm K-Means Dữ liệu minh hoạ Order ID 10248 10249 10 250 10 251 10 252 10 253 10 254 10 255 10 256 10 257 10 258 10 259 10260 10261 10262 Total 440.00 1863.40 155 2.60 654 .06 359 7.90 1444.80 55 6.62 2490 .50 51 7.80 1119.90 1614.88 100.80 150 4. 65 448.00 58 4.00 Order ID 10263 10264 102 65 10266 10267 10268 10269 10270... 2760.33 1038. 25 0.86 10248 440.00 2768.33 1046. 25 8.86 10276 420.00 2788.33 1066. 25 28.86 10266 346 .56 2861.77 1139.69 102.30 102 75 291.84 2916.49 1194.41 157 .02 10 259 100.80 3107 .53 13 85. 45 348.06 10271 48.00 3160.33 1438. 25 400.86 Chương 5 Gom cụm Ví dụ về K-Means Cho dữ liệu 1 chiều sau và k = 2 : {2,4,10,12,3,20,30,11, 25} Gán ngẫu nhiên : m1=3, m2=4 K1={2,3}, K2={4,10,12,20,30,11, 25} , m1=2 .5, m2=16... 10274 102 75 10276 10277 Total 1873.80 6 95. 62 1176.00 346 .56 353 6.60 1101.20 642.20 1376.00 48.00 1 456 .00 2037.28 53 8.60 291.84 420.00 1200.80 Chương 5 Gom cụm Kết quả chạy thử nghiệm k-means Cluster C1 C1 C1 C2 C2 C2 C2 C2 C2 C2 C2 C2 C2 C2 C2 C2 C3 C3 C3 C3 C3 C3 C3 C3 C3 C3 C3 C3 C3 C3 Order ID Total ($) Mean Distance To M1 Distance To M2 Distance To M3 10 252 359 7.90 3208.33 389 .57 2111. 65 3149.04... m1=2 .5, m2=16 K1={2,3,4},K2={10,12,20,30,11, 25} , m1=3, m2=18 K1={2,3,4,10},K2={12,20,30,11, 25} , m1=4. 75, m2=19.6 K1={2,3,4,10,11,12},K2={20,30, 25} , m1=7, m2= 25 Dừng khi trung tâm cụm không thay đổi Chương 5 Gom cụm Vấn đề chọn số cụm k x Nếu k quá nhỏ, Khoảng cách đến trung tâm xa x xx x x x x x x x xx x x x x x x x x x xx x x x x x x x x x x x x x x x x x 17 Chương 5 Gom cụm Vấn đề chọn số cụm k x Nếu k... Cho tập điểm X1(4,1) ; X2 (5, 1) ; X3 (5, 2) ; X4(1,4) ; X5(1 ,5) ; X6(2,4) ; X7(2 ,5) Dùng K-Mean để gom nhóm (K=2) Chương 5 Gom cụm Ưu điểm của K-means Tương đối nhanh Độ phức tạp của thuật toán là O(tkn) • n: số điểm trong không gian dữ liệu • k: số cụm cần phân hoạch • t: số lần lặp (t ... 377. 15 1414 .54 10 258 1614.88 159 3. 45 128.63 1166.02 10 250 155 2.60 1 655 .73 66. 35 1103.74 10260 150 4. 65 1703.68 18.40 1 055 .79 10272 1 456 .00 1 752 .33 30. 25 1007.14 10 253 1444.80 1763 .53 41. 45 9 95. 94... 10 252 359 7.90 3208.33 389 .57 2111. 65 3149.04 10267 353 6.60 328.27 2 050 . 35 3087.74 10 255 2490 .50 717.83 1004. 25 2041.64 10273 2037.28 1486. 25 1171. 05 551 .03 158 8.42 10263 1873.80 1334 .53 387 .55 ... 10 251 654 .06 255 4.27 832.19 2 05. 20 10269 642.20 256 6.13 844. 05 193.34 10262 58 4.00 2624.33 902. 25 1 35. 14 10 254 55 6.62 2 651 .71 929.63 107.76 10274 53 8.60 2669.73 947. 65 89.74 10 256 51 7.80 2690 .53