Các phương pháp cụm dữ liệu bán giám sát

Một phần của tài liệu Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di truyền (Trang 25 - 26)

1.5.1. Giới thiệu

Một xu hướng gần đây trong nghiên cứu học máy đó là học bán giám sát, việc học kết hợp các kỹ thuật được phát triển cho học không giám sát và học có giám sát để vận dụng các tập dữ liệu với lượng nhỏ thông tin bổ trợ. Một trong số hướng được quan tâm trong học bán giám sát là phân cụm bán giám sát. Nó tích cực dùng tri thức miền sẵn có để hướng dẫn quá trình phân cụm. Khi đó có các câu hỏi đặt ra được phân loại theo 3 nhóm chính: tri thức đầu vào là gì, tri thức đưa vào khi nào, và tri thức ảnh hưởng tới quá trình phân cụm thế nào.

Kiểu dữ liệu đầu vào đơn giản nhất là các đối tượng đã gắn nhãn. Trong một số trường hợp, người dùng không biết chính xác các nhãn của lớp, nhưng họ có một số tri thức có dạng: những đối tượng nào nên hay không nên đặt trong cùng một cụm (có thể đặc tả bởi must-links và cannot-links). Có một số trường hợp dữ liệu đầu vào có dạng các luật phân lớp, một số ví dụ của các đối tượng tương tự, hay thậm chí là các chú thích chung như một đối tượng cụ thể không nên đặt vào cụm nào [8]. Tri thức có thể cung cấp tại thời điểm khác nhau. Nó có thể được cung cấp trước khi phân cụm để hướng dẫn quá trình phân cụm, hay sau khi khởi tạo để ước lượng các cụm và hướng dẫn vòng phân cụm tiếp theo [8]. Một số thuật toán phân cụm cũng có thể chủ động yêu cầu người dùng cung cấp một số thông tin cụ thể tại thời điểm thích hợp nhất [5,11]. Một số trường hợp khác, đầu vào là các cụm giống [19].

Để thực hiện phân cụm, ta cần xác định được mức độ tương tự giữa các đối tượng, tiêu chuẩn để phân cụm. Trên cơ sở đó xây dựng mô hình và các thuật toán phân cụm phù hợp. Mỗi cách tiếp cận cho ta kết quả phân cụm với ý nghĩa sử dụng khác nhau.

Hai nguồn thông tin thường sẵn dùng cho một phương pháp phân cụm bán giám sát đó là: phân cụm không giám sát theo độ đo tương tự sẽ được kết hợp với một số cặp ràng buộc must-link và cannot-link. Để mang lại lợi ích trong phân cụm bán giám sát, hai nguồn thông tin này không nên trái ngược hoàn toàn với nhau. Không như phân cụm truyền thống, cách tiếp cận phân cụm bán giám sát còn khá mới mẻ và cho đến nay số phương pháp được công bố ít hơn nhiều. Điểm khác biệt chính giữa những

phương pháp này liên quan tới cách mà hai nguồn thông tin được kết hợp: vừa bởi việc thích nghi độ đo tương tự vừa bởi việc điều chỉnh cách tìm kiếm các cụm thích hợp.

Trong phương pháp thích nghi độ tương tự, thuật toán phân cụm có dùng một số độ đo tương tự, nhưng độ đo tương tự được làm thích nghi sao cho các ràng buộc sẵn dùng có thể dễ dàng thỏa mãn hơn. Một số độ đo tương tự đã được tận dụng trong phân cụm bán giám sát thích nghi độ đo như: độ lệch Jensen-Shannon được huấn luyện với ‘hạ thấp gradient’ [19] hay khoảng cách Mahalanobis được điều chỉnh bởi tối ưu hóa hàm lồi [9,19]. Phân cụm phân cấp liên kết-đơn [9], hay liên kết đầy đủ [19] và k- means là những cách tiếp cận điển hình liên quan tới phương pháp này.

Trong các phương pháp trên cơ sở tìm kiếm, chính thuật toán phân cụm được điều chỉnh sao cho các ràng buộc hay các nhãn người dùng cung cấp có thể được dùng để tìm kiếm cách phân cụm thích hợp. Điều này có thể được thực hiện theo một số cách như: thêm vào hàm giá một mức phạt cho các ràng buộc thiếu đúng đắn, hay bởi việc yêu cầu các ràng buộc được thỏa mãn trong suốt quá trình phân cụm. Các ví dụ có thể kể ra như: phân cụm bán giám sát sử dụng thuật toán di truyền [9] dùng ý tưởng thay đổi hàm mục tiêu để nó có thể thỏa mãn các ràng buộc cho trước; hay thuật toán COP-KMeans [19] với tư tưởng áp đặt ràng buộc trong quá trình phân cụm; hay thuật toán SeededKMeans và Constrained-KMeans [1] dùng tập giống gồm các đối tượng dữ liệu được dán nhãn để khởi tạo cho quá trình phân cụm. Trong phần sau tôi sẽ trình bày chi tiết ba thuật COP-KMeans, Seeded-KMeans, Constrained-KMeans là các ví dụ điển hình của phương pháp dựa trên tìm kiếm.

Một phần của tài liệu Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di truyền (Trang 25 - 26)

Tải bản đầy đủ (PDF)

(70 trang)