Nhóm tác giả nghiên cứu về các phương pháp đánh giá chất lượng phân cụm và
máy tìm kiếm dựa trên mã nguồn mở có tích hợp phân cụm do nhóm tác giả phát triển.
Có nhiều phương pháp phân cụm khác nhau như k-mean, STC, HAC có thể áp dụng vào phân cụm các trang Web trả về của máy tìm kiếm. Và việc đánh giá thường dựa vào chất lượng kết quả phân cụm. Để người dùng có thể tìm được tài liệu mong muốn một cách nhanh chóng thì cần phải gán nhãn các cụm tốt. Tồn tại một số phương pháp đánh giá như sau [1]:
- Đánh giá phân cụm dựa vào kinh nghiệm của người dùng: nhãn cụm cần ngắn
gọn súc tích và không trùng lặp quá nhiều, số lượng cụm tạo ra vừa đủ để người dùng không bị quá tải bởi các chủ đề quá cụ thể, nhãn cụm cần tránh chứa các từ truy vấn. Thuật toán phân cụm phải đủ nhanh để có thể phân cụm với lượng thời gian phù hợp. Xử lý ngôn ngữ cũng rất quan trọng để tránh các từ gần nghĩa, đồng nghĩa.
25
- Các tiêu chí đánh giá độ kết dính và cô lập của các cụm: độ cô đọng súc tích
là độ dính kết hoặc đơn nhất của mỗi cặp đối tượng trong từng cụm riêng rẽ. Độ cô lập đo sự tách biệt giữa hai cụm. Trong [1], Nguyễn Thi Thu Chung và cộng sự giới thiệu 4 tiêu chuẩn đánh giá chất lượng cho phân cụm để bảo đảm tính kết dính và độc lập là: giảm tối thiểu tổng khoảng cách (tổng khoảng cách giữa trọng tâm các cụm với trọng tâm toàn cục và tổng khoảng cách giữa đối tượng với trọng tâm của cụm chứa đối tượng), phân cụm sao cho độ tách biệt giữa các cụm là lớn nhất, vị trí cụm của đối tượng và số lượng đối tượng có vị trí cụm đúng.
- Phương pháp đánh giá dựa vào tập dữ liệu mẫu: chọn một chuẩn cơ sở để so
sánh khả năng phân cụm của bộ phân cụm: độ đo chất lượng phân cụm, đo chất lượng của một hệ thống phân cụm bởi các mức. Một số độ đo được sử dụng là MNI (normalized mutual information), độ hồi tưởng, độ chính xác, F, Purity (chỉ ra độ tinh khiết, rõ ràng của cụm i).
Từ các phương pháp trên tác giả đã tiến hành đánh giá chất lượng phân cụm của máy tìm kiếm VNSEN dựa trên cây phân cấp chủ đề và so sánh với kết quả phân cụm của máy tìm kiếm vivisimo[1].
- Dựa vào cây phân cấp chủ đề: cây phân cấp chủ đề là một cấu trúc thư mục
Web lớn nhất được xây dựng. Tác giả tiến hành thu thập tài liệu trên
wikipedia tiếng Việt và tạo cây phân cấp thô ban đầu. Sau đó lọc ra các chủ đề chưa có tài liệu, các tài liệu chưa có nội dung hoặc chưa được dịch. Thực hiện tách các thẻ html. Hiện tại, đã xây dựng được cây phân cấp với 10 gốc chủ đề và 500 chủ đề các cấp. Thử nghiệm và thông qua hai độ đo là F và Purity cho thấy modul phân cụm có chất lượng tốt.
- So sánh kết quả phân cụm với máy tìm kiếm vivisimo: lựa chọn các truy vấn
tiếng Việt mang nghĩa tổng quát để phân cụm được rõ ràng. Tác giả lấy kết quả trả về của google và tiến hành phân cụm với VNSEN. Sau đó so sánh kết quả phân cụm của VNSEN và vivisimo.
Nguyễn Thi Thu Chung và cộng sự [1] đã trình bày các phương pháp đánh giá
chất lượng phân cụm và xây dựng cây phân cấp chủ đề dựa trên wikipedia tiếng Việt để phục vụ đánh giá. Qua đó đánh giá chất lượng phân cụm của VNSEN và đưa ra kết quả khả quan.
26