Chức năng huấn luyện

Một phần của tài liệu Mô hình maximum entropy và ứng dụng (Trang 42 - 44)

Giao diện chính của chức năng như sau:

Hình 4.1: Giao diện chức năng huấn luyện

Bảng mơ tả các chức năng của giao diện huấn luyện:

St t

Mơ tả

2 Bắt đầu huấn luyện 3 Thốt khỏi chương trình 4 Lựa chọn đường dẫn thư mục

5 Chọn giá trị lọc feature (lọc bỏ các feature cĩ tần số <10)

6 Gán giá trị khởi tạo lamda cho thuật tốn iis 7 Gán giá trị hội tụ trong thuật tốn iis

8 Lựa chọn cĩ ghi file tần số hay khơng

9 Lựa chọn ngơn ngữ của tập dữ liệu huấn luyện

Bảng 4.3: Mơ tả giao diện huấn luyện

Mục Chọn đường dẫn cĩ 3 đường dẫn cần lựa chọn. Thứ nhât, đường dẫn tới nơi lưu dữ liệu huấn luyện cần huấn luyện. Thứ hai, là đường dẫn lưu dữ liệu sau khi được huấn luyện. Thứ ba, là đường dẫn lưu file tần số. Đường dẫn này chỉ được lựa chọn khi nút checkbox ghi file tần số được đánh dấu.

Bảng thơng báo kết quả huấn luyện cĩ dạng như sau:

Stt Tên nhãn Số lượng file Số lượng feature

1 kinh_doanh 540 1328 2 phap_luat 240 648 3 the_thao 660 1911 4 van_hoa 360 949 5 vi_tinh 660 1653 6 xa_hoi 300 1031

Với bài tốn phân loại văn bản, việc định nghĩa các đặc trưng được dựa trên các từ xuất hiện trong một chủ đề nào đĩ. Theo đĩ, nếu từ đĩ xuất hiện trong chủ đề thì đặc trưng đĩ được bật giá trị là 1 và ngược lại giá trị là 0. Ví dụ: xuất hiện từ “tiền” trong chủ đề là “kinh doanh” thì đặc trưng f(tiền, kinh_doanh) = 1 cịn f(đá_bĩng, kinh_doanh) = 0.

Một phần của tài liệu Mô hình maximum entropy và ứng dụng (Trang 42 - 44)

Tải bản đầy đủ (DOC)

(61 trang)
w