ạ Cõy phõn cấp [9]
Mục đớch là kết nối liờn tiếp cỏc đối tượng với nhau vào trong cỏc cụm lớn, dựng một số độ đo như khoảng cỏch hay thuộc tớnh giống nhaụ Xột một biểu đồ cõy cú thứ tự và nằm ngang, bắt đầu từ đối tượng bờn trỏi của biểu đồ, tưởng tượng rằng
Hỡnh 16. Định nghĩa một U-Matrix
trong mỗi bước chỳng ta “nới lỏng” dần cỏc tiờu chuẩn. Hay diễn đạt bằng cỏch khỏc là giảm dần ngưỡng khi đưa ra quyết định cú hai hay nhiều đối tượng là cỏc thành phần của cựng một nhúm.
Bằng cỏch này chỳng ta cú thể kết nối ngày càng nhiều cỏc đối tượng lại với nhau và một tập hợp ngày càng lớn cỏc cụm khỏc nhaụ Cuối cựng, tất cả cỏc đối tượng
được nối lại với nhaụ Trong cỏc biểu đồ, trục hoành xỏc định khoảng cỏch liờn kết. Vỡ vậy mỗi nỳt trờn đồ thị chỳng cú thể thể hiện khoảng cỏch tiờu chuẩn mà cỏc thành phần tương ứng được liờn kết với nhau trong một cụm đơn. Khi cấu trỳc dữ
liệu rỗng cỏc thành phần của trong cỏc cụm của đối tượng mà giống nhau thỡ cấu trỳc sẽđược thể hiện trong cõy phõn cấp như cỏc nhỏnh riờng biệt
b. K thành phần chớnh (Hartigan, 1975) [9]
Đõy là phương phỏp phõn cụm rất khú, giả sử rằng luụn cú cỏc giả thuyết liờn quan
đến một số nhúm trong cỏc vớ dụ. Điều mong muốn là cú thể sắp xếp một cỏch chớnh xỏc cỏc cụm rời rạc nhaụ Cỏc nghiờn cứu cho thấy rằng chỉ cú thể thực hiện
được bởi thuật toỏn K thành phần chớnh. Túm lại phương phỏp K thành phần chớnh sẽđưa ra chớnh xỏc k cụm tỏch biệt lớn nhất cú thể.
Cho một cơ sở dữ liệu của n đối tượng và k là số cỏc cụm cho trước, thuật toỏn tổ
chức phõn chia cỏc đối tượng vào k phần (k≤n). Cỏc cụm được thiết lập theo một tiờu chuẩn phõn chia khỏch quan, thường được gọi là hàm tương đồng (similarity function), dựng khoảng cỏch để xỏc định cỏc đối tượng trong một cụm là “giống nhau” và “khỏc nhau” về tớnh chất dữ liệụ
Thuật toỏn K thành phần chớnh được thực hiện theo bốn bước sau:
- Xỏc định thành phần cỏc đối tượng vào trong k tập con khỏc rỗng. - Tớnh cỏc điểm nhõn của cụm trong cỏc thành phần hiện tạị
- Chia đối tượng vào cụm khi đối tượng đú cú khoảng cỏch gần điểm nhõn nhất.
- Lặp lại bước 2, và dừng khi khụng cũn sự phõn chia mớị Thuật toỏn:
Input: số cỏc cụm k và một dữ liệu gồn nđối tượng.
Output: Một tập gồm k cụm và tối thiểu tiờu chuẩn bỡnh phương lỗị
Phương phỏp:
(1) Chọn tuỳ ý kđối tượng và coi là cỏc nhõn cụm ban đầu; (2) Lặp
(3) Xỏc định lại mỗi đối tượng vào cụm sao cho đối tượng đú là giống nhau nhất, dựa vào giỏ trị trung bỡnh của cỏc đối tượng trong cụm;
(4) Cập nhập lại cỏc nhõn cụm, bằng cỏch tớnh giỏ trị trung bỡnh của cỏc đối tượng cho mỗi cụm;
(5) Cho đến khi khụng cũn thay đổi nàọ
c. Cực đại kỳ vọng (Expectation Maximization)[9]
Đõy là phương phỏp gần giống như K thành phần chớnh, kỹ thuật này tỡm cụm trong số cỏc đối tượng quan sỏt hoặc cỏc biến thể và ấn định cỏc đối tượng đú vào cỏc cụm. Một vớ dụ ứng dụng nhiều nhất cho phõn tớch này là nghiờn cứu thị trường để
biết thỏi độ của người tiờu dựng cú liờn quan đến đối tượng nghiờn cứụ Mục đớch của nghiờn cứu này là để tỡm ra “cỏc mảng thị trường”. Trong khi thuật toỏn K thành phần chớnh đưa ra một số cố định k cỏc cụm, thỡ cực đại kỳ vọng mở rộng cỏch tiếp cận này để phõn cụm bằng hai cỏch sau:
- Thay thế việc xỏc định cỏc trường hợp hoặc cỏc quan sỏt đến cỏc cụm để
toỏn cỏc khả năng của cỏc thành phần trong cụm dựa trờn phõn bố xỏc suất. Mục tiờu của thuật toỏn phõn cụm sau này là cực đại toàn bộ xỏc suất hoặc cỏc khả năng cú thể xảy ra của dữ liệu, cuối cựng mới đưa ra cỏc cụm. - Khụng giống như phõn cụm K thành phần chớnh, thuật toỏn tớnh cực đại kỳ
vọng cú thể được ỏp dụng cho cả cỏc biến thay đổi liờn tục và cỏc biến cố định (trong khi K thành phần chớnh cú thể cũng được điều chỉnh để phự hợp với cỏc biến cốđịnh).