Gom nhóm dữ liệu đáp án bài tập
Trang 1Đáp án bài tập
chương 5 : Gom nhóm DL
2
BÀI TẬP
• Thời gian : 15’
• Cho DL sau : {2,3,4,10,11,12,20,25,30} và k =
2
• Với trung tâm các nhóm là (m1, m2), sử
dụng thuật toán k-means để xác định các
nhóm Tính độ đo SSE cho từng nhóm ở
vòng lặp đầu tiên và cuối cùng.
• Dưới đây là một đáp án.
Trang 2Đáp án : k - MEANS
• Cho tập DL 1 chiều sau và k = 2 :
{2,3,4,10,11,12,20,25,30}
• Bước 1 :
– Giả sử chọn các trung tâm cụm là : m 1 =5, m 2 =10
• Gán các đối tượng vào hai cụm Thu được :
– K1={2,3,4},
– K2={10,11,12,20,25,30}
– SSE = 744
• Tính lại trung tâm cụm : m1= 3; m2=18
4
Đáp án : k - MEANS
• Tiếp tục :
– K1={2,3,4,10}, K2={11,12,20,25,30}
– Trung tâm cụm mới : m1=4.75, m2=19.6
• Tiếp tục :
– K1={2,3,4,10,11,12}, K2={20,30,25}
– Trung tâm cụm mới : m1=7, m2=25
• Các cụm thu được cuối cùng :
– K1={2,3,4,10,11,12}, K2={20,30,25}
– SSE = 150
• Thuật toán dừng vì các trung tâm cụm không thay đổi
Trang 3Bài tập : THUẬT TOÁN AGNES
• Thời gian : 20’
• Cho tập DL gồm 6 điểm
trong không gian 2
chiều Sử dụng thuật
toán AGNES với
Complete link (khoảng
cách xa nhất giữa 2
điểm của 2 nhóm khác
nhau) để gom nhóm
Điểm Tọa độ x Tọa độ y
6
Đáp án : THUẬT TOÁN AGNES
• Xây dựng ma trận khoảng cách (độ đo Euclide)
giữa các điểm
P1 P2 P3 P4 P5 P6 P1 0.00 0.23 0.22 0.37 0.34 0.24
P2 0.23 0.00 0.15 0.19 0.14 0.24
P3 0.22 0.15 0.00 0.16 0.29 0.10
P4 0.37 0.19 0.16 0.00 0.28 0.22
P5 0.34 0.14 0.29 0.28 0.00 0.39
P6 0.24 0.24 0.10 0.22 0.39 0.00
Trang 4Đáp án : THUẬT TOÁN AGNES
Sử dụng Complete Link :
1 Bước 1 : mỗi điểm là một nhóm
2 Bước 2 :
• Trong số các nhóm gồm một điểm thì dist(3,6) min
nên gộp điểm P3 và P6 với nhau thành một nhóm
• Thu được các nhóm : {1}, {4}, {2}, {5}, {3,6},
3 Quay lại bước 2 do chưa thu được nhóm “toàn bộ” :
4 Tính khoảng cách giữa các nhóm Ví dụ :
• Dist({3,6},{1}) =max(dist(3,1),dist(6,1))
=max(0.22, 0.24) = 0.24
(cần liệt kê đầy đủ các khoảng cách giữa các nhóm)
8
Đáp án : THUẬT TOÁN AGNES
Sử dụng Complete Link :
5 dist(2,5) là nhỏ nhất nên gộp P2 và P5 Ta có các nhóm
sau : {1}, {4}, {3,6}, {2,5}
6 Tính khoảng cách giữa các nhóm Ví dụ :
• dist({3,6},{2,5})
= max(dist(3,2),dist(6,2),dist(3,5),dist(6,5))
= max(0.15, 0.24, 0.28, 0.39) = 0.39
• dist({3,6},{4}) = max(dist(3,4),dist(6,4)) = max(0.16,
0.22) = 0.22
• (cần liệt kê đầy đủ các khoảng cách giữa các nhóm)
• dist({3,6},{4}) nhỏ nhất nên gộp các nhóm {3,6}, {4}
thành một nhóm.
• Ta thu được các nhóm : {1},{2,5},{3,4,6}
Trang 5Đáp án : THUẬT TOÁN AGNES
Sử dụng Complete Link :
7 Tiếp tục :
• Tính khoảng cách giữa các nhóm : ….
• Gộp {1} với {2,5} thu được các nhóm {1,2,5},
{3,4,6}
8 dist ({3,4,6},{1,2,5})= 0.39
9 Gộp 2 nhóm này ta thu được nhóm “toàn bộ”
và thuật toán dừng
10
Đáp án : THUẬT TOÁN AGNES
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
1
2
3 4
5
6
1
3
4
Các nhóm
(Complete Link)
Sơ đồ hình cây
0.39
0.22
0.34
0.14 0.1