4 Mơ hình tích hợp tách từ và gán nhãn từ loại tiếng Việt
4.2 Xây dựng mơ hình và tiến hành thực nghiệm
4.2.1 Features
Các đặc trưng được tổng hợp từ các đặc trưng của mơ hình tách từ và các đặc trưng của mơ hình gán nhãn từ loại. Trong đó, đặc trưng của mơ hình gán nhãn từ loại sẽ lấy dựa vào hướng tiếp cận dựa trên âm tiết. Chú ý rằng khi đó đặc trưng về thơng tin thẻ POS của âm tiết được thay bằng:
• B(S−1W0)P OS(S−1W0)
• B(S−2W0)P OS(S−2W0)B(S−1W0)P OS(S−1W0)
B là thông tin về từ hoặc là B(Begin_Of_Word) hoặc là I(Inner_Of_Word), cịn POS là thơng tin về từ loại của âm tiết đang xét đó. Như vậy, so với hướng tiếp cận gán nhãn từ loại theo kiểu pipeline thì thơng tin thẻ khơng chỉ gồm thơng tin từ loại (POS) mà cịn bao gồm cả thông tin về từ (word boundary).
4.2.2 Giải mã
Trong giải mã, chúng tôi cũng sử dụng giải mã bằng thuật tốn BEAM SEARCH như đã trình bày ở trên với N = 3. Trong đó chú ý là khi chọn tập thẻ tốt nhất cho âm tiết hiện tại thì chỉ xét các thẻ hợp lệ tức là thẻ thỏa mãn rằng các âm tiết trong cùng một từ thì phải có cùng thẻ từ loại.
4.2.3 Kết quả
Kết quả thực nghiệm 5-fold test trên corpus xây dựng được trình bày trong bảng 4.2: Nhìn vào bảng kết quả thực nghiệm, chúng ta nhận thấy rằng hướng tiếp cận tích hợp
Bảng 4.2: Kết quả thực nghiệm tích hợp WS và POS tagging.
Fold Word Segmentation POS Tagging
Precision Recall F1 Precision Recall F1
1 91.75 94.41 93.06 84.97 87.45 86.2 2 92.1 94.53 93.32 84.3 88.12 86.21 3 91.76 95 93.38 84.65 89.01 86.83 4 92.53 95.11 93.82 83.71 88.15 85.93 5 91.87 95.2 93.54 84.76 88.92 86.84 Average 92 94.85 93.42 84.48 88.33 86.40
cho kết quả đều thấp hơn so với hướng tiếp cận pipeline trên cả hai bài tốn đó.