Cài đặt phân hệ truy tìm văn bản VSM

Phân hệ truy tìm văn bản đƣợc cài đặt nhƣ thiết kế trình bày ở hình 5.4.

Dữ liệu đầu vào

Hệ truy tìm văn bản đƣợc cài đặt thử nghiệm trên tập 120 văn bản thuộc 4 lĩnh vực (công nghệ, giáo dục, thể thao, y tế) đã đƣợc phân lớp bởi phân hệ phân lớp văn bản SVM-NN. Sau khi phân lớp với tập 120 văn bản trên, ta có các tập tin dữ liệu đầu ra đƣợc dùng làm dữ liệu đầu vào cho phân hệ truy tìm văn bản nhƣ sau:

- Các tập tin chứa đặc trƣng ứng với từng nhóm văn bản có đƣờng dẫn tƣơng đối nhƣ sau: dactrung/congnghe.txt, dactrung/giaoduc.txt, dactrung/thethao.txt, dactrung/yte.txt.

- Tập tin chứa kết quả phân lớp các văn bản: dactrung/ketquaphanlop.txt. - Tập tin chứa đƣờng dẫn các văn bản: dactrung/path.txt.

Các bƣớc thực hiện

- Chạy module tạo ma trận đặc trưng-văn bản : tạo các tập tin chứa ma trận từ đặc trƣng-văn bản ứng với từng nhóm văn bản. Ta có các tập tin:

matrix/congnghe.txt, matrix/giaoduc.txt, matrix/thethao.txt, matrix/yte.txt.

- Chạy module xử lý truy tìm : thực hiện nhập câu truy vấn, kết quả truy tìm trả về đƣợc hiển thị nhƣ sau:

+ Hiển thị thông tin về các nhóm văn bản không liên quan (không thực hiện truy tìm trên các văn bản thuộc nhóm đó)

+ Hiển thị các văn bản cần truy tìm, xếp hạng giảm dần theo độ đo Cosin.

+ Mỗi văn bản trả về hiển thị kết quả phân lớp, độ đo Cosin của văn bản đó.

Hình 5.5: Giao diện thực hiện truy vấn và hiển thị kết quả trả về

Cài đặt phân hệ truy tìm văn bản VSM

Thuật toán K-trung bình (K-means)

Thuật toán cây quyết định (Decision tree)