Xây dựng mơ hình và tiến hành thực nghiệm

Một phần của tài liệu Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt (Trang 44 - 45)

4 Mơ hình tích hợp tách từ và gán nhãn từ loại tiếng Việt

4.2 Xây dựng mơ hình và tiến hành thực nghiệm

4.2.1 Features

Các đặc trưng được tổng hợp từ các đặc trưng của mơ hình tách từ và các đặc trưng của mơ hình gán nhãn từ loại. Trong đó, đặc trưng của mơ hình gán nhãn từ loại sẽ lấy dựa vào hướng tiếp cận dựa trên âm tiết. Chú ý rằng khi đó đặc trưng về thơng tin thẻ POS của âm tiết được thay bằng:

• B(S−1W0)P OS(S−1W0)

• B(S−2W0)P OS(S−2W0)B(S−1W0)P OS(S−1W0)

B là thông tin về từ hoặc là B(Begin_Of_Word) hoặc là I(Inner_Of_Word), cịn POS là thơng tin về từ loại của âm tiết đang xét đó. Như vậy, so với hướng tiếp cận gán nhãn từ loại theo kiểu pipeline thì thơng tin thẻ khơng chỉ gồm thơng tin từ loại (POS) mà cịn bao gồm cả thông tin về từ (word boundary).

4.2.2 Giải mã

Trong giải mã, chúng tôi cũng sử dụng giải mã bằng thuật tốn BEAM SEARCH như đã trình bày ở trên với N = 3. Trong đó chú ý là khi chọn tập thẻ tốt nhất cho âm tiết hiện tại thì chỉ xét các thẻ hợp lệ tức là thẻ thỏa mãn rằng các âm tiết trong cùng một từ thì phải có cùng thẻ từ loại.

4.2.3 Kết quả

Kết quả thực nghiệm 5-fold test trên corpus xây dựng được trình bày trong bảng 4.2: Nhìn vào bảng kết quả thực nghiệm, chúng ta nhận thấy rằng hướng tiếp cận tích hợp

Bảng 4.2: Kết quả thực nghiệm tích hợp WS và POS tagging.

Fold Word Segmentation POS Tagging

Precision Recall F1 Precision Recall F1

1 91.75 94.41 93.06 84.97 87.45 86.2 2 92.1 94.53 93.32 84.3 88.12 86.21 3 91.76 95 93.38 84.65 89.01 86.83 4 92.53 95.11 93.82 83.71 88.15 85.93 5 91.87 95.2 93.54 84.76 88.92 86.84 Average 92 94.85 93.42 84.48 88.33 86.40

cho kết quả đều thấp hơn so với hướng tiếp cận pipeline trên cả hai bài tốn đó.

Một phần của tài liệu Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt (Trang 44 - 45)

Tải bản đầy đủ (PDF)

(56 trang)