III. CI TIN THU TTO NK-MEANS
3.3. Chọn số cụm cho thuậttoán K-means
Từ những khuyết điểm của thuật toán k-means cổ điển đƣợc trình bày trong chƣơng 2 mục 1.5 về việc chọn trƣớc số cụm. Trong bài luận cũng đề nghị cách chọn trƣớc số cụm để không làm ảnh hƣởng đến độ hội tụ của văn bản là sẽ lấy từ hệ số k của phân tích SVD để tạo ma trận xấp xỉ Ak.
Việc giảm hạng của ma trận term - document A bằng phân tích SVD(A) và tạo ma trận Ak UkkVkT có hạng k chính là chiếu ma trận A có hạng rA vào không gian LSI k chiều nhỏ hơn. Không gian k chiều này còn gọi là không gian “ngữ
nghĩa” hay không gian “khái niệm”(concept). Các khái niệm này đƣợc hiểu nhƣ các khái niệm nhân tạo (artificial concepts) , và không thể biểu diễn đƣợc trong ngôn ngữ tự nhiên. Những gì có thể hiểu đó là cho văn bản d, văn bản d có độ đo “tƣơng tự” gần với khái niệm 1, hoàn toàn “khác” với khái niệm 2 và ít gần hơn với khái niệm 3….. Việc chọn hệ số k đóng vai trò rất quan trọng trong mô hình
69 LSI, theo các tài liệu nghiên cứu về LSI , qua thực nghiệm trên các tập dữ liệu văn bản cụ thể.
Vì k mang tính chất là k ngữ nghĩa trong mô hình LSI phù hợp với việc chọn k cụm văn bản theo ngữ nghĩa nên luận văn đề xuất cách chọn số cụm theo hệ số k trong mô hình LSI. Điều này sẽ đƣợc kiểm chứng lại trong chƣơng 4 trên tập văn bản thử nghiệm 7379 văn bản.
Thuật toán K-means của luận văn
Input:
Ma trận xấp xỉ Ak.
Số cụm k (= hệ số k trong mô hình LSI). Thuật toán
1. Chọn bất kỳ k đối tƣợng làm các tâm (centroids) ban đầu.
2. Gán hoặc gán lại từng đối tƣợng vào cụm với khoảng cách gần nhất (tính theo độ đo Cosines).
3. Cập nhật centroids.
4. Quay về bƣớc 2, dừng khi không còn phép gán mới.
Ví dụ 2.2: trở lại ví dụ trong chƣơng 2 ta chọn số cụm là 3. Khi đó ta tiến hành gom cụm nhƣ sau: Khởi tạo số cụm: Tọa độ D1 D2 D3 D4 D5 Cluster 1 Cluster 2 Cluster 3 X1 0.4366 0.3067 0.4412 0.4909 0.5288 0.4366 0.3067 0.4412 X2 -0.4717 0.7549 -0.3568 -0.0346 0.2815 -0.4717 0.7549 -0.3568
70
X3 0.3688 0.0998 -0.6247 0.5711 -0.3712 0.3688 0.0998 -0.6247
Kết quả đƣợc thể hiện nhƣ sau:
Tổng theo điều kiện "Yes"
Cluster 1 Yes No No Yes No 2
Cluster 2 No Yes No No Yes 2
71
CHƢƠNG 3: T Ố ỨNG DỤNG