Chức năng huấn luyện

Một phần của tài liệu đồ án tốt nghiệp mô hình maximum entropy (Trang 41 - 43)

Giao diện chính của chức năng như sau:

Hình 4.1: Giao diện chức năng huấn luyện

Bảng mô tả các chức năng của giao diện huấn luyện:

Stt Mô tả

2 Bắt đầu huấn luyện 3 Thoát khỏi chương trình 4 Lựa chọn đường dẫn thư mục

5 Chọn giá trị lọc feature (lọc bỏ các feature có tần số <10)

6 Gán giá trị khởi tạo lamda cho thuật toán iis 7 Gán giá trị hội tụ trong thuật toán iis

8 Lựa chọn có ghi file tần số hay không

9 Lựa chọn ngôn ngữ của tập dữ liệu huấn luyện

Bảng 4.3: Mô tả giao diện huấn luyện

Mục Chọn đường dẫn có 3 đường dẫn cần lựa chọn. Thứ nhât, đường dẫn tới nơi

lưu dữ liệu huấn luyện cần huấn luyện. Thứ hai, là đường dẫn lưu dữ liệu sau khi được huấn luyện. Thứ ba, là đường dẫn lưu file tần số. Đường dẫn này chỉ được lựa chọn khi nút checkbox ghi file tần số được đánh dấu.

Bảng thông báo kết quả huấn luyện có dạng như sau:

Stt Tên nhãn Số lượng file Số lượng feature

1 kinh_doan h 540 1328 2 phap_luat 240 648 3 the_thao 660 1911 4 van_hoa 360 949 5 vi_tinh 660 1653 6 xa_hoi 300 1031

Bảng 4.4: Kết quả huấn luyện

Với bài toán phân loại văn bản, việc định nghĩa các đặc trưng được dựa trên các từ xuất hiện trong một chủ đề nào đó. Theo đó, nếu từ đó xuất hiện trong chủ đề thì đặc

trưng đó được bật giá trị là 1 và ngược lại giá trị là 0. Ví dụ: xuất hiện từ “tiền” trong chủ đề là “kinh doanh” thì đặc trưng f(tiền, kinh_doanh) = 1 còn f(đá_bóng, kinh_doanh) = 0.

Một phần của tài liệu đồ án tốt nghiệp mô hình maximum entropy (Trang 41 - 43)

Tải bản đầy đủ (DOC)

(59 trang)
w