Chương này trình bày chi tiết hai thuật toán phân cụm có tính tăng là STC và DC-tree. Đồng thời đưa ra các nhận xét cho từng thuật toán, luận văn
đưa ra nhận xét thuật toán phân cụm thích hợp đối với các tài liệu Web áp dụng vào máy tìm kiếm. Chương trình cài đặt thử nghiệm cho thuật toán và việc đánh giá kết quả thuật toán sẽđược trình bày ở chương tiếp theo.
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
CHƯƠNG 4 - PHẦN MỀM THỬ NGHIỆM VÀ KẾT QUẢ THỰC NGHIỆM
4.1. Giới thiệu
Trong phạm vi của luận văn này, tôi áp dụng thuật toán phân cụm tài liệu sử dụng cấu trúc DC-tree vào chương trình thử nghiệm của mình.
Để thực nghiệm kết quả của phân cụm DC Tree, tôi đã thể hiện thuật toán này bằng ngôn ngữ lập trình C# trên nền tảng .Net Framework của Microsoft sử dụng SQL Server 2000 để lưu trữ cơ sở dữ liệu.
Các chức năng chính của chương trình bao gồm:
- Lập dữ liệu từđiển
Dựa trên ý tưởng phân cụm sử dụng cụm từ, chương trình đã xây dựng một hệ thống từ điển để phục vụ cho thuật toán tách từ Longest Matching. Ban
đầu, các từ này được xây dựng dựa trên các từ lấy từ dữ liệu từđiển Việt-Anh tại nguồn http://www.stardict.org. Các dữ liệu này có thể được bổ sung, sửa chữa dần dần để nâng cao hiệu quả của phân cụm.
- Lấy dữ liệu từ Internet
Dữ liệu phân cụm sẽđược lấy từ Internet một cách độc lập với việc phân cụm.
Chương trình sẽ được định nghĩa sẵn một ngưỡng n cho việc lấy dữ liệu từ Internet. Điều này có nghĩa là, sau khi người quản trị cung cấp cho chương trình một URL, chương trình tựđộng lấy nội dung trang web từ URL này về sau
đó phân tích nội dung trang web, tìm các URL khác nằm trong trang web này. Quá trình trên được lặp lại với URL tìm được cho đến khi độ sâu n được thỏa mãn. Như thế với độ sâu n phù hợp, ta có thể lấy được toàn bộ nội dung của một trang Web.
- Tách từ và phân cụm
Chức năng này cho phép chương trình tách từ và phân cụm các dữ liệu mới được lấy về.
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
Trong chức năng này, có 3 bước được thực hiện:
Bước 1: Tách từ sử dụng thuật toán Longest Matching với từ điển dựng sẵn
Bước 2: Tách từ sử dụng thuật toán fnTBL từ dữ liệu trả về từ thuật toán Longest Matching.
Bước 3: Phân cụm dựa trên thuật toán DC-Tree sử dụng hàm tính độ
tương tự dựa trên các cụm từ tách được.
- Tìm kiếm trên kết quả phân cụm
Việc tìm kiếm này sẽđược áp dụng một thuật toán bao gồm 2 bước:
Bước 1: Tính độ tương tự của chuỗi tìm kiếm với các đặc trưng của các phân cụm, nếu độ tương tự lớn hơn một ngưỡng S1 nào đó, ta sẽ áp dụng bước 2 cho phân cụm đó.
Bước 2: Tìm kiếm các tài liệu trong phân cụm có độ tương tự cao hơn một ngưỡng S2 với chuỗi tìm kiếm.