Thuật toán K-trung bình (K-means)

Ý tƣởng

Ý tƣởng của thuật toán là chia m phần tử (m mẫu dữ liệu văn bản) thành n nhóm (n lớp) sao cho các phần tử trong cùng một nhóm sẽ gần tâm của nhóm đó nhất.

Sau đây ta sẽ tìm hiểu thuật toán K-Trung bình (K-means) cổ điển và một cải tiến của nó đó là thuật toán K-Trung bình mờ (Fuzzy K-means).

2.1.1 Thuật toán K –Trung bình cổ điển

Giả sử ta muốn gom m mẫu dữ liệu đầu vào có các vector đặc trƣng lần lƣợt là x1, x2, … xm vào k nhóm (k<m). Trong đó Vi là vector đặc trƣng n chiều của mẫu thứ i.

Đầu tiên ta khởi tạo các giá trị trung bình (hay có thể gọi là tâm) của k nhóm là các vector n chiều C1, C2, ….,Ck (thƣờng là khởi tạo ngẫu nhiên). Sau đó tiến hành tính khoảng cách từ các mẫu đầu vào xi đối với từng tâm nhóm Cj, hay chính là việc xác định mối quan hệ thành viên của từng mẫu đầu vào xi bằng cách tính ||xi – Cj||. Đối với mỗi mẫu xi, khoảng cách tối thiểu sẽ xác định đƣợc mối quan hệ thành viên đối với nhóm tƣơng ứng.

Thuật toán:

- Bƣớc 1: Khởi tạo tâm của k nhóm: C1, C2, ….,Ck - Bƣớc 2: Lặp lại:

(a) Phân loại m mẫu xi vào các nhóm có tâm là Cj sao cho khoảng cách ||xi – Cj|| là nhỏ nhất.

(b) Tính toán lại tâm Cj (chỉnh tâm) Đến khi: các tâm Cj không đổi. Kết quả: Các lớp C1, C2, ….,Ck

Đối với thuật toán K-Trung bình cổ điển, việc khởi tạo tâm các nhóm có ảnh hƣởng rất lớn đến kết quả phân nhóm.

2.1.2 Thuật toán K-Trung bình mờ

Đây là một cải tiến của thuật toán K-Trung bình cổ điển. Trong mỗi vòng lặp của K-Trung bình cổ điển, giả sử mỗi vector đặc trƣng thuộc chính xác một nhóm. Chúng ta giảm nhẹ điều này và giả sử rằng mỗi mẫu xi có vài mức độ quan hệ thành viên mờ trong nhóm Cj.

Xác xuất của quan hệ thành viên nhóm cho mỗi điểm đƣợc chuẩn hoá nhƣ sau:

Mỗi Cj đƣợc tính lại nhƣ sau:

Và mỗi P( i|xj) đƣợc tính lại nhƣ sau:

Thuật toán:

- Bƣớc 1: Khởi tạo:

- Các tâm C1 ,C2 ,…Ck

- P( i|xj), với i=1, …,k và j=1, …,n

- Bƣớc 2: Chuẩn hoá xác suất quan hệ thành viên nhóm. - Bƣớc 3: Lặp lại:

(a) Phân n lớp mẫu theo phƣơng pháp ngƣời láng giềng gần nhất Ci; (b) Tính toán lại Ci

Đến khi: Không thay đổi trong Ci và P( i|xj) Kết quả: các lớp C1 ,C2 ,…Ck

Thuật toán K-Trung bình mờ cải tiến sự hội tụ của thuật toán K-Trung bình. Tuy nhiên, phƣơng pháp này vẫn còn hạn chế là việc đặc tả không chính xác số nhóm.

Thuật toán cây quyết định (Decision tree)

Hệ truy tìm văn bản