Chương trình thử nghiệm

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 81 - 85)

Áp dụng các nghiên cứu về lý thuyết phân cụm, trong chương trình thử nghiệm của chúng tôi, mỗi một bước thực hiện sẽ được tách thành từng phần riêng.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Tương ứng với các chức năng chính đã mô tả ở trên, chương trình bao gồm bốn module chính: Từ điển, Lấy dữ liệu, Phân cụm, Tìm kiếm.

- Module Từ điển: hiển thị tất cả các từ có trong từ điển Việt. Với dữ liệu ban đầu được lấy từ nguồn từ điển Việt-Anh tại địa chỉ

http://www.stardict.org ta sẽ có một kho từ điển khá hoàn chỉnh các từ Tiếng Việt. Tuy nhiên ta cũng có thể thêm hoặc bớt những từ đã có nếu thấy cần thiết. Tập các từ trong từ điển này sẽ được sử dụng trong bước tách từ trong tài liệu cần phân cụm.

Hình 11. Màn hình hỗ trợ chức năng cập nhật chỉnh sửa Từ điển - Module Lấy dữ liệu: Để xây dựng kho dữ liệu các tài liệu Web, ta tiến - Module Lấy dữ liệu: Để xây dựng kho dữ liệu các tài liệu Web, ta tiến hành lấy dữ liệu về. Người sử dụng sẽ nhập đường dẫn URL của trang

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Web, hệ thống sẽ tự động tìm kiếm và lấy tất cả nội dung của trang Web với một độ sâu n ( đã được định trước)

Hình 12. Màn hình chức năng hỗ trợ lấy dữ liệu từ Internet

- Module Phân cụm: Sau khi tiến hành lấy dữ liệu, ta thực hiện phân cụm tài liệụ Hệ thống sẽ tiến hành phân cụm một cách tự động. Trong lần phân cụm khác với tập dữ liệu mới được lấy về, việc phân cụm sẽ không cần phân cụm lại với tập dữ liệu cũ mà ta đã phân cụm trước nữạ Việc phân cụm sẽ chỉ cần thực hiện trên tập dữ liệu mới với kết quả cũ của các lần phân cụm trước.

Trong thuật toán có sử dụng các tham số sau: M: Số lượng nhỏ nhất con của một nút M=8 B: Hệ số nhánh của cây B=20

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

S2:Ngưỡng tương tự 2 S2=1.0 S1: Ngưỡng tương tự 1 S1=0.3

repThreshold: Ngưỡng của đặc trưng tiêu biểu repThreshold=0.4 MCS: Cỡ phân cụm nhỏ nhất MCS=100

Hình 13. Màn hình hỗ trợ chức năng Phân cụm với dữ liệu đã lấy về từ Internet

- Module Tìm kiếm: Người sử dụng sẽ nhập vào từ khoá cần tìm kiếm. Hệ thống sẽ tìm các tài liệu liên quan với từ khoá.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Hình 14. Màn hình chức năng hỗ trợ Tìm kiếm.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 81 - 85)

Tải bản đầy đủ (PDF)

(90 trang)