Quá trình kiểm tra

Trong giai đoạn này, chúng tôi kết hợp sử dụng danh sách luật chuyển (Selected TBL rules) thu được trong giai đoạn 2 của quá trình huấn luyện ở trên với mô hình cơ sở để gán nhãn cho ngữ liệu Test-corpus được trích ra từ TreeBank. Chi tiết quá trình này được mô tả trong hình 3-4 như sau:

Hình 3-4: Sơ đồ mô tả quá trình kiểm tra

Raw test corpus Remove label Compare Labeled corpus Test corpus Appling ME

Model Initial corpus

Appling TBL

rules List rules

Accuracy

Đầu vào: Hai kho ngữ liệu Bcorpus và initial-corpus cùng với danh sách các lỗi List POS errors.

Đầu ra: Danh sách các luật chuyển (Selected TBL rules)

Bước 1: Áp dụng mẫu luật rule templates cho danh sách các lỗi (List POS errors) để tạo ra một danh sách các luật chuyển tiềm năng (gọi là list potential-rules)

Bước 2: Áp dụng mỗi luật chuyển có trong danh sách list potential- rules với một kho ngữ liệu là bản copy của kho ngữ liệu initial- corpus. Điểm của mỗi luật ri được tính toán theo công thức: ts(ri)- fs(ri). Trong đó, fs(ri) là các trường hợp mà nhãn đúng chuyển thành nhãn sai và ts(ri) là các trường hợp mà nhãn sai chuyển thành nhãn đúng. Luật có số điểm cao nhất sẽ được chọn (Selected best rule).

Bước 3: Cập nhật lại kho ngữ liệu initial-corpus bằng cách áp dụng luật có số điểm cao nhất vừa chọn được ở bước 2 và thêm luật này vào danh sách luật chuyển được chọn (selected TBL rules). Danh sách các lỗi (list POS error) được cập nhật lại bằng cách so sánh hai kho ngữ liệu initial-corpus với Bcorpus.

Bước 4: Dừng giải thuật nếu điểm số cao nhất của luật nhỏ hơn một ngưỡng T hoặc đã qua K vòng lặp.

Thuật toán: 3-9. Thuật toán đánh giá mô hình kết hợp

Mô tả các giải thuật trong mô hình

Quá trình huấn luyện mô hình kết hợp