Sử dụng các phương pháp học máy MEM, CRF và SVM, bài toán gán nhãn từ
loại được xem là bài toán phân lớp với các lớp chính là các nhãn từ loại đã được xác
định trước. Trong phần này, ta quan tâm tới kiến trúc đường ống (pipeline), tức là việc gán nhãn từ loại được thực hiện sau khi đã có thông tin về từ vựng. Kiến trúc tổng thể
46
hình 15 [4]. Trong đó, có hai pha chính là pha huấn luyện mô hình và pha kiểm thử sử
dụng mô hình.
Pha huấn luyện mô hình: Đầu vào là văn bản đã được tách từ, đưa qua bộ
trích chọn đặc trưng (cách thiết kế tập đặc trưng hữu ích cho tiếng Việt sẽ được trình bày ở phần sau) rồi đưa vào mô hình học máy để huấn luyện. Ta sẽ sử dụng MEM, CRF hoặc SVM để huấn luyện mô hình ở bước này.
Pha kiểm thử: Còn được gọi là pha gán nhãn hay pha giải mã. Văn bản đầu vào sẽ được qua pha kiểm thử theo thuật toán phù hợp, ví dụ như thuật toán beam search [4], kết quả sẽ cho ra chuỗi nhãn tốt nhất tương ứng với dữ liệu đầu vào (chuỗi nhãn gồm các nhãn thuộc tập nhãn được chọn)
Hình 15. Một mô hình gán nhãn từ loại tiếng Việt
Thực nghiệm trong nội dung khóa luận sẽ tiến hành gán nhãn từ loại theo 2 hướng tiếp cận khác nhau, cùng với đó là tập đặc trưng có thay đổi phù hợp với từng cách tiếp cận:
Gán nhãn từ loại dựa vào thông tin về từ (Tiếp cận dựa trên mức từ).
Gán nhãn từ loại dựa vào thông tin hình vị (Tiếp cận dựa trên mức hình vị).
Trích chọn đặc trưng Huấn luyện mô hình Pha kiểm thử Tài liệu chưa gán nhãn Tài liệu gán nhãn từ loại Tài liệu đã gán nhãn
47