Giao diện chính của chức năng như sau:
Hình 4.1: Giao diện chức năng huấn luyện
Bảng mô tả các chức năng của giao diện huấn luyện:
Stt Mô tả
2 Bắt đầu huấn luyện 3 Thoát khỏi chương trình 4 Lựa chọn đường dẫn thư mục
5 Chọn giá trị lọc feature (lọc bỏ các feature có tần số <10)
6 Gán giá trị khởi tạo lamda cho thuật toán iis 7 Gán giá trị hội tụ trong thuật toán iis
8 Lựa chọn có ghi file tần số hay không
9 Lựa chọn ngôn ngữ của tập dữ liệu huấn luyện
Bảng 4.3: Mô tả giao diện huấn luyện
Mục Chọn đường dẫn có 3 đường dẫn cần lựa chọn. Thứ nhât, đường dẫn tới nơi
lưu dữ liệu huấn luyện cần huấn luyện. Thứ hai, là đường dẫn lưu dữ liệu sau khi được huấn luyện. Thứ ba, là đường dẫn lưu file tần số. Đường dẫn này chỉ được lựa chọn khi nút checkbox ghi file tần số được đánh dấu.
Bảng thông báo kết quả huấn luyện có dạng như sau:
Stt Tên nhãn Số lượng file Số lượng feature
1 kinh_doan h 540 1328 2 phap_luat 240 648 3 the_thao 660 1911 4 van_hoa 360 949 5 vi_tinh 660 1653 6 xa_hoi 300 1031
Bảng 4.4: Kết quả huấn luyện
Với bài toán phân loại văn bản, việc định nghĩa các đặc trưng được dựa trên các từ xuất hiện trong một chủ đề nào đó. Theo đó, nếu từ đó xuất hiện trong chủ đề thì đặc
trưng đó được bật giá trị là 1 và ngược lại giá trị là 0. Ví dụ: xuất hiện từ “tiền” trong chủ đề là “kinh doanh” thì đặc trưng f(tiền, kinh_doanh) = 1 còn f(đá_bóng, kinh_doanh) = 0.