4 Mô hình tích hợp tách từ và gán nhãn từ loại tiếng Việt
3.3 Kết quả gán nhãn POS dựa vào thông tin âm tiết
1 88.63 2 89.64 3 89.26 4 89.36 5 89.63 Averg. 89.22
ngữ biến hình trong khi đó tiếng Việt là ngôn ngữ đơn lập, không biến hình). Kết quả thực nghiệm cũng chỉ ra rằng cách trích các đặc trưng dựa trên âm tiết cho kết quả cao hơn đáng kể (89.22%) so với cách trích các đặc trưng dựa trên thông tin về từ (85.57%). Như vậy, đối với tiếng Việt thì hướng tiếp cận dựa trên âm tiết tỏ ra hữu ích hơn hẳn hướng tiếp cận dựa trên từ.
Chương 4
Mô hình tích hợp tách từ và gán nhãn từ loại tiếng Việt
4.1 Lựa chọn mô hình tích hợp cho tiếng Việt.
Tới đây, chúng tôi đã xây dựng thành công bộ tách từ và gán nhãn POS cho tiếng Việt. Trong đó, bộ tách từ đạt state-of-the-art và công trình đã được công bố trong [17]. Với bộ POS chúng tôi đã tìm các đặc trưng hữu ích cho tiếng Việt và kết quả đạt được là rất khả quan. Từ sự khích lệ đó cộng với sự thành công của cách tiếp cận gán nhãn POS dựa vào âm tiết, chúng tôi lựa chọn phương pháp tích hợp giống như của [14] (đã trình bày khái quát phương pháp trong chương 1, phần 1.3).
Kiến trúc tích hợp được mô tả trong hình 4.1. Với một văn bản đầu vào, qua bước tiền xử lý để tách câu thì đầu vào đối với hệ thống là câu. Với mỗi câu đầu vào, chúng tôi sẽ cho qua bộ phân lớp tích hợp, và đầu ra sẽ gán cho mỗi âm tiết trong câu một thẻ bao gồm hai thông tin: Thông tin về từ (word boundary) và thông tin về thẻ từ loại (POS). Số lớp của mô hình sẽ bằng tích của số lớp thông tin từ nhân với số lớp thông tin về thẻ từ loại (các lớp này giống như đã trình bày ở phần 2 và phần 3 ở trên). Ví dụ đầu ra cho câu "Công ty đang mở chiến dịch quảng cáo ." như trong bảng 4.1: