Chƣơng 3 CÁC THUẬT TOÁN PHÂN CỤM PHÂN CẤP
3.2. Các thuật toán tích tụ GAS
3.2.3. Monotonicity và Crossover
Xét ma trận không tương tự sau:
0 1.8 2.4 2.3 1.8 0 2.5 2.7 2.4 2.5 0 1.2 2.3 2.7 1.2 0 P
Lần lượt áp dụng các thuật toán liên kết đơn và thuật toán liên kết đầy đủ với ma trận P đã cho, ta có sơ đồ không tương tự mô tả trong hình 3.4a và 3.4b. Áp dụng các thuật toán UPGMC và WPGMC với P, ta được cùng sơ đồ hình 3.4c. Trong sơ đồ này ta thấy cụm {x3, x4} hình thành ở mức không tương tự bằng 1.2, cụm {x1, x2} hình thành ở mức không tương tự bằng 1.8, cụm {x1, x2, x3, x4} hình thành ở mức không tương tự bằng 1.72. Ta thấy điều thú vị là cụm {x1, x2, x3, x4} hình thành ở mức không tương tự thấp hơn mức không tương tự khi hình thành cụm {x1, x2}. Hiện tượng này gọi là crossover. Crossover xuất hiện khi một cụm được hình thành ở một mức độ không tương tự thấp hơn một cụm nào đó đã hình thành
trong các giai đoạn trước.
Hình 3-4. Sơ đồ không tƣơng tự sinh ra bởi thuật toán Liên kết đơn, Liên kết đầy đủ, UPGMC và WPGMC với hiện tƣợng crossover .
Ngược lại với crossover là monotonicity. Một cách hình thức, điều kiện
monotonicity có thể phát biểu như sau :
“Nếu các cụm Ci và Cj được chọn để trộn thành Cq, ở mức t của quan hệ phân cấp,
thì phải thoả mãn điều kiện sau: d(Cq,Ck) d(Ci, Cj) với mọi Ck, k i, j, q“, tức là mỗi cụm được hình thành ở mức độ không tương tự cao hơn một cụm nào đó đã hình thành trong các giai đoạn trước. Monotonicity chỉ liên quan đến các thuật toán phân cụm mà không liên quan đến ma trận gần gũi (khởi tạo). Điều này sẽ được chứng tỏ khi ta xét định đề sau:
Liên kết đơn (a)
Liên kết đầy đủ (b)
Thuật toán UPGMC và WPGMC (c) 0 1 2 3 x1 x2 x3 x4 x1 x2 x3 x4 x1 x2 x3 x4
Định đề 1: Khi lựa chọn các tham số ai, aj, b và c trong công thức xác định khoảng
cách từ cụm mới hình thành Cq tới các cụm khác
( q, s) i ( i, s) j ( j, s) ( i, j) ( i, s) - ( j, s)
d C C a d C C a d C C bd C C c d C C d C C
Nếu ai và aj không âm, ai + aj + b 1 và hoặc là (a) c 0
hoặc là (b) max{- ai, - aj} c 0
thì phương pháp phân cụm tương ứng thoả điều kiện mononicity
Chứng minh:
(a) Theo giả thiết: b 1-ai - aj thay vào công thức (3.3) và biến đổi ta có:
( q, s) i ( i, s) j ( j, s) (1 i j) ( i, j) ( i, s) ( j, s)
d C C a d C C a d C C a a d C C c d C C d C C
( q, s) ( ,i j) i ( ,i s) ( ,i j) j ( j, s) - ( ,i j) ( ,i s) - ( j, s)
d C C d C C a d C C d C C a d C C d C C c d C C d C C
Theo bước 2.2 của MUAS trong phần 3.2.2:
,
( i, j) min ( r, u) ( i, j) ( i, s)
r u
d C C d C C d C C d C C và (d C Ci, j)d C C( j, s)
Nên số hạng thứ hai và số hạng thứ ba của bất đẳng thức cuối cùng không âm, c 0 nên số hạng thứ tư cũng không âm. Do đó, ta có :
d(Cq, Cs) d(Ci, Cj) Vì vậy điều kiện monotonicity được thoả mãn.
(b) Từ giả thiết: b 1 - ai - aj nên theo phần (a) ta có:
( q, s) ( ,i j) i ( ,i s) ( ,i j) j ( j, s) - ( ,i j) ( ,i s) - ( j, s)
d C C d C C a d C C d C C a d C C d C C c d C C d C C
Để bỏ dấu giá trị tuyệt đối, xét trường hợp d(Ci, Cs) d(Cj, Cs) (trường hợp ngược lại xét tương tự).
( q, s) ( ,i j) i ( ,i s) - ( ,i j) j ( j, s) - ( ,i j) ( ,i s) - ( j, s)
d C C d C C a d C C d C C a d C C d C C c d C C d C C
Bằng cách cộng và trừ vế phải của bất đẳng thức với số hạng c.d(Ci, Cj) và sau đó biến đổi ta có:
( q, s) ( j ) ( j, s) ( i, j) ( i, j) ( i ) ( i, s) ( i, j)
d C C a c d C C d C C d C C a c d C C d C C Từ giả thiết max{- ai, - aj}c 0 aj 0; - c 0 aj - c 0;
- aic 0 c+ ai 0 và theo bước (2.2) của MUAS ta có:
,
( i, j) min ( r, u) ( i, j) ( i, s)
r u
d C C d C C d C C d C C và (d C Ci, j)d C C( j, s)
Chú ý rằng định đề 1 là điều kiện đủ chứ không là điều kiện cần, nghĩa là các thuật toán đó không thoả các điều kiện của định đề này nhưng vẫn có thể thoả điều kiện monotonicity. Các thuật toán liên kết đơn, liên kết đầy đủ, UPGMA, WPGMA và Ward thoả các điều kiện của định đề 1. Vì vậy, các thuật toán đó thoả điều kiện
monotonicity. Hai thuật toán UPGMC và WPGMC không thoả mãn điều kiện
monotonicity. Hơn nữa, chúng ta có thể xây dựng các ví dụ để chứng tỏ rằng hai
thuật toán đó vi phạm thuộc tính monotonicity, như hình 3.4c. Tuy nhiên không thể nói rằng một thuật toán không thoả điều kiện monotonicity thì nó luôn dẫn tới các sơ
đồ crossover.