Kết quả thực nghiệm

+ Dữ liệu thực nghiệm là các trang Web lấy từ 2 nguồn chính sau:

- Các trang được lấy tự động từ các Website trên Internet, việc tìm kiếm được thực hiện bằng cách sử dụng Yahoo để tìm kiếm tự động, chương trình sẽ dựa vào URL để lấy toàn văn của tài liệu đó và lưu trữ lại phục vụ cho quá trình tìm kiếm sau này (dưa liệu gồm hơn 4000 bài về các chủ đề “data mining”, “web mining”, “Cluster algorithm”, “Sport”).

- Tìm kiếm có chọn lọc, phần này được tiến hành lấy thủ công, nguồn dữ liệu chủ yếu được lấy từ các Web site:

http://www.baobongda.com.vn/ http://bongda.com.vn/

http://vietnamnet.vn http://www.24h.com

Gồm hơn 250 bài báo chủ đề “bóng đá”.

- Việc xây dựng từ điển, sau khi thống kê tần số xuất hiện của các từ trong tập tài liệu, ta áp dụng định luật Zipf để loại bỏ những từ có tần số xuất hiện quá cao và loại bỏ những từ có tần số quá thấp, ta thu được bộ từ điển gồm 500 từ.

Số tài liệu Số cụm

Thời gian trung bình (giây) Tiền xử lý và biểu diễn văn bản Phân cụm tài liệu 50 10 0,206 0,957 50 15 0,206 1,156 100 10 0,353 2,518 100 15 0,353 3,709 150 10 0,515 4,553 150 15 0,515 5,834 250 10 0,824 9,756 250 15 0,824 13,375

Bảng 3.2. Bảng đo thời gian thực hiện thuật toán phân cụm

Ta thấy rằng thời gian thực hiện thuật toán phụ vào độ lớn dữ liệu và số cụm cần phân cụm. Ngoài ra, với thuật toán k-means còn phụ thuộc vào k trọng

tâm khởi tạo ban đầu. Nếu k trọng tâm được xác định tốt thì chất lượng và thời gian thực hiện được cải thiện rất nhiều.

Phần giao diện chương trình và một số đoạn mã code điển hình được trình bày ở phụ lục.

Lợi ích của khai phá Web

Phân cụm dựa trên lưới