Cải tiến phép gióng từ Viterbi

Một phần của tài liệu Cải tiến thuật toán gióng từ thông qua phân tích hình thái (Trang 56 - 57)

V. THỬ NGHIỆM

5.1.2. Cải tiến phép gióng từ Viterbi

Tập ngữ liệu tiền xử lý của chúng tôi không thực sự tương thích với các mô hình IBM cao hơn mô hình IBM 1 vì các mô hình này sử dụng các tính năng như sắp xếp lại các từ, tự sinh từ, v.v., và những tính năng này bị ảnh hưởng bởi bước tiền xử lý của chúng tôi. Điều này làm cho kết quả gióng từ cuối cùng của các mô hình IBM cao không còn phù hợp. Do đó, chúng tôi chỉ thí nghiệm trên mô hình IBM 1, sau 20 lần lặp lại với mô hình IBM 1, kết quả phép gióng Viterbi cho phần thử nghiệm sẽ được rút ra để kiểm tra tính đúng đắn của nó.

Có rất nhiều cách để đánh giá một mô hình gióng từ. Một phương pháp phổ biến là để xem xét tỷ lệ lỗi gióng từ (AER) [8] như phép đo lường hiệu quả hoạt động. Tuy nhiên, trong trường hợp đặc biệt của chúng tôi, chúng tôi đề xuất một thay đổi nhỏ đến mô hình IBM 1 để làm cho phép gióng từ mới khác với những gì được sinh ra bởi mô hình cơ sở trong một ít phép gióng. Vì vậy, thay vì kiểm tra sự đúng đắn của mỗi điểm gióng như cách AER ước tính, chúng tôi so sánh chính xác các điểm gióng mà tại đó hai mô hình không giống nhau. Đối với một điểm khác nhau, chúng tôi ghi có 1 điểm cho mô hình đúng đắn hoặc không ghi điểm nào nếu cả hai mô hình đều sai. Bởi vì những điểm khác nhau trong toàn bộ ngữ liệu kiểm thử có kích thước đủ nhỏ nên chúng tôi chắc chắn có thể kiểm tra những phép gióng bằng tay. Sau tất cả các công đoạn, mỗi mô hình được đánh giá trên các tỷ lệ các lần nó gióng chính xác trong tập các phép gióng khác nhau.

Sau khi huấn luyện cả hai mô hình, một trên ngữ liệu gốc, và một trên ngữ liệu đã tiền xử lý, chúng tôi áp dụng các mô hình để xem kết quả phép gióng hàng Viterbi trên tập ngữ liệu kiểm thử. Kết quả của việc đánh giá phương pháp của chúng tôi được thể hiện trong Bảng 5.2. Như chúng ta có thể thấy, phương pháp của chúng tôi chiếm khoảng 74% số phép gióng từ đúng trong khi chỉ có 26% được dành cho các phương pháp ban đầu. Trong các thí nghiệm của chúng tôi, kết quả không chỉ ảnh hưởng đến các điểm liên quan đến “PL”, “ED” và “ING” mà còn ảnh hưởng đến nhiều trường hợp khác. Nói cách khác, phương pháp của chúng tôi cũng đã điều chỉnh các phép gióng khác của những phần không liên quan tới tiền xử lý.

Bảng 5.2. Sốphép gióng từđúng trong khi gióng trong tập ngữ liệu khác nhau

Ngữ liệu gốc Ngữ liệu đã tiền xử lý hình thái

173 490

Một phần của tài liệu Cải tiến thuật toán gióng từ thông qua phân tích hình thái (Trang 56 - 57)

Tải bản đầy đủ (PDF)

(65 trang)