Hệ thống gán nhãn từ loại cho tiếng Việt

Một phần của tài liệu So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt (Trang 54 - 56)

Sử dụng các phương pháp học máy MEM, CRF và SVM, bài toán gán nhãn từ

loại được xem là bài toán phân lớp với các lớp chính là các nhãn từ loại đã được xác

định trước. Trong phần này, ta quan tâm tới kiến trúc đường ống (pipeline), tức là việc gán nhãn từ loại được thực hiện sau khi đã có thông tin về từ vựng. Kiến trúc tổng thể

46

hình 15 [4]. Trong đó, có hai pha chính là pha huấn luyện mô hình và pha kiểm thử sử

dụng mô hình.

 Pha huấn luyện mô hình: Đầu vào là văn bản đã được tách từ, đưa qua bộ

trích chọn đặc trưng (cách thiết kế tập đặc trưng hữu ích cho tiếng Việt sẽ được trình bày ở phần sau) rồi đưa vào mô hình học máy để huấn luyện. Ta sẽ sử dụng MEM, CRF hoặc SVM để huấn luyện mô hình ở bước này.

 Pha kiểm thử: Còn được gọi là pha gán nhãn hay pha giải mã. Văn bản đầu vào sẽ được qua pha kiểm thử theo thuật toán phù hợp, ví dụ như thuật toán beam search [4], kết quả sẽ cho ra chuỗi nhãn tốt nhất tương ứng với dữ liệu đầu vào (chuỗi nhãn gồm các nhãn thuộc tập nhãn được chọn)

Hình 15. Một mô hình gán nhãn từ loại tiếng Việt

Thực nghiệm trong nội dung khóa luận sẽ tiến hành gán nhãn từ loại theo 2 hướng tiếp cận khác nhau, cùng với đó là tập đặc trưng có thay đổi phù hợp với từng cách tiếp cận:

 Gán nhãn từ loại dựa vào thông tin về từ (Tiếp cận dựa trên mức từ).

 Gán nhãn từ loại dựa vào thông tin hình vị (Tiếp cận dựa trên mức hình vị).

Trích chọn đặc trưng Huấn luyện mô hình Pha kiểm thử Tài liệu chưa gán nhãn Tài liệu gán nhãn từ loại Tài liệu đã gán nhãn

47

Một phần của tài liệu So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt (Trang 54 - 56)