7. Nội dung luận văn
3.4.6. Các bước sử dụng chương trình thử nghiệm
Bước đầu tiên ta sử dụng bộ từ điển khoảng 6000 từ do Lưu Tuấn Anh và Yamamoto Kazuhide biên soạn, phục vụ cho việc tách từ. Chi tiết của từ điển được mơ tả ở hình 3.4.
Hình 3.3. Dữ liệu từ điển
Bước thứ hai ta chọn thư mục chứa dữ liệu văn bản cần phân loại. Văn bản cần phân loại cĩ dạng .doc hoặc .docx.
Bước thứ ba chọn dữ liệu đã được huấn luyện (training). Vì theo ý tưởng ban đầu nghiên cứu về luận văn là học máy cĩ giám sát nên việc gán nhãn cho dữ liệu huấn luyện phải gán nhãn bằng tay, việc gán nhãn này sử dụng file.csv để đưa thêm dữ liệu mới cần được huấn luyện, chi tiết của dữ liệu gán nhãn được mơ tả ở hình 3.5.
Sau khi gán nhãn cho tập dữ liệu ta tiến hành huấn luyện cho tâp gán nhãn.
Hình 3.5. Dữ liệu đã được huấn luyện
Bước thứ ba là bước xác định k-fold. K-fold là một trong những phương pháp kiểm tra độ chính xác của máy học (Cross-validation), với phương pháp này tập dữ liệu được chia đều thành k tâp (folds) cĩ kính thước xấp xỉ nhau. Dây là kỹ thuật chủ yếu được sử dụng trong xây dựng phân tích dự báo (predictive Model). Trong đĩ dữ liệu gốc được chia thành n phần bằng nhau (n-fold), và quá trình Train/Test Model thực hiện lặp lại n lần. Tại mỗi lần Train/Test Model, một phần dữ liệu dùng để Test và (n-1) phần cịn lại dùng để Train. (Người ta đã chứng minh 10-fold Cross- Validation là tối ưu).
Bước thứ tư là xác định hằng số C là một tham số tùy chọn C > 0 (C càng lớn thì lượng phạt lỗi càng cao). Hằng số C được dùng để điều chỉnh tầm quan trọng giữa margin và sự phạt lỗi.
Sau khi các bước đã được chọn ta tiến hành thực hiện việc phân loại văn bản, chi tiết của việc chọn ở các bước được miêu tả ở hình 3.7.
Hình 3.6. Sau khi đã chọn xong các mục
3.4.7. Kết quả phân loại văn bản
Sau khi thực hiện phân loại ta được kết quả như hình 3.8
Qua bảng 3.9 cho thấy sau khi phân loại và so sánh với kết quả giữa văn bản kiểm thử và văn bản được máy phân loại thu được kết quả phần tăm trung bình là 96.93%.
Bảng 3.9. Tỷ lệ % phân loại văn bản
Bảng đánh giá kết quả phân loại văn bản
STT Phân lớp Tập kiểm thử Tập phân loại bằng máy Tập phân loại sai phân lớp Tỉ lệ % 1 CNTT 60 59 1 98.33% 2 Dân số 36 35 1 97.22% 3 Giao thơng 56 51 5 91.07% 4 Mơi trường 34 34 0 100% 5 Nơng nghiệp 65 65 0 100% 6 Thủy sản 16 15 1 93.75% 7 Tài chính 33 33 0 100% 8 Xây dựng 43 40 3 93.02% 9 Xúc tiến 48 48 0 100% 10 Y tế 49 47 1 95.91% Phần trăm trung bình 96.93%