Phân loại tài liệu

Một phần của tài liệu Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn (Trang 59 - 61)

Sau khi đã xây dựng được bộ phân loại, kiểm thử bộ phân loại theo mô hình phát triển và giải thuật đề ra. Đặc biệt ở giai đoạn xây dựng bộ phân loại (classifer), ta đã xấp xỉ được hàm Φ: DxC → [0,1]. Hàm này được dùng để xác định một tài liệu mới có thuộc về lớp đang xem sét hay không. Nói cách khác là bước đơn giản thử nghiệm dữ liệu mới dnew xem thuộc về lớp ci nào.

Hình 4.8: Sơ đồ phân loại một tài liệu dnew mới vào lớp ci

Hình 4.8 mô tả quá trình phân loại một tài liệu mới vào lớp ci. Tài liệu dnew sau bước tiền xử lý sẽ được trích chọn đặc trưng, trên cơ sở đặc trưng này tài liệu dnew

được đặc trưng hóa ở bước characterization. Đặc trưng hóa dnew được dùng làm dữ liệu đầu vào của bộ phân loại lớp ci (classifer ci).

Chương 5 của luận văn trình bày cụ thể về giải thuật phân loại cho tài liệu mới đưa vào. Thông qua việc lựa chọn tập các nút (đại diện cho lớp) liên quan với tài liệu mới đưa vào, giải thuật duyệt chỉ thực hiện trên tập các nút liên quan này. Tại mỗi nút trong giải thuật duyệt, bộ phân loại của nút ci sẽ thực hiện tính toán độ liên quan của tài liệu mới và nút ci. So sánh các giá trị đánh giá mức độ liên quan của các bộ phân loại hệ thống sẽ chọn ra được nút cj phù hợp nhất với tài liệu dnew đưa vào. Tiền xử lý Tài liệu mới Trích chọn đặc trưng Đặc trưng hóa Phân loại Bộ phân loại Ci Kết quả

CHƯƠNG 5:

PHÂN LOẠI THEO MÔ HÌNH THUYẾT VẠN VẬT HẤP DẪN

Trên cơ sở lý thuyết căn bản về bài toán phân loại tài liệu tự động (chương 4), lý thuyết mô hình thuyết vạn vật hấp dẫn (chương 2), lý thuyết về cây phân loại (chương 3). Ta thấy có sự tương đồng của kiến trúc cây phân loại và mô hình không gian khi xét mối liên hệ giữa nút đang xét với các nút xung quanh trong kiến trúc cây. Luận văn đề xuất mô hình hóa kiến trúc phân cấp thành mô hình không gian theo thuyết vạn vật hấp dẫn của Newton. Bài toán phân loại tài liệu mới được chuyển thành việc xác định hành tinh mà tại đó chất điểm có thế năng thấp nhất trong không gian. Các bước xây dựng mô hình như sau: (1) Xây dựng kiến trúc phân cấp; (2) Mô hình hóa kiến trúc phân cấp thành mô hình không gian theo thuyết vạn vật hấp dẫn. (3) Xây dựng bộ phân loại.

Để đánh giá hiệu quả lý thuyết đề xuất, luận văn tiến hành thử nghiệm với tập dữ liệu từ site http://dir.yahoo.com.

Một phần của tài liệu Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn (Trang 59 - 61)