Hiện nay, có khá nhiều mô hình có thể áp dụng cho việc gán nhãn từ loại như dùng xác suất thống kê, MAXIMUM ENTROPY(ME)3, học hướng lỗi… . Tuy nhiên độ chính xác của các phương pháp này chỉ dừng lại khoảng 96%. Do đó, có khá nhiều phương pháp cải tiếnđược đưa ra nhằm làm tăng độ chính xác.
Do mỗi mô hình đều có những ưu điểm riêng nên có một cách tiếp cận được đưa ra đó là phối hợp các mô hình lại với nhau. Mô hình kết hợp này sẽ tận dụng cácưu điểm của các mô hình khác nhau. Trong quá trình gán nhãn từ loại, tuỳ theo trường hợp mà mô hình sẽ quyết định nhãn được lấy từ mô hình nào.
Như trong mô hình kết hợp giữa gán nhãn từ loại bằng ME và thống kê chẳng hạn. Giả sử câu được gán nhãn do hai mô hình đánh ra có sự khác nhau.
Khoa C NTT - Ð H KHTN TP.H CM Khoa C NTT - Ð H KHTN TP.H CM
Ví dụ nhưcâu “I go to school”, kết quảgán nhãn từloại của giải thuật ME là:
I/PRP go/VBP to/TO school/VB
Và kết quảgán nhãn từloại dựa trên huớng tiếp cận thống kê nhưsau: I/PRP go/VBP to/TO school/NN
Thì mô hình chính có nhiệm vụ quyết định chọn nhãn của từ “school” là của mô hình nào doởđây trong hai mô hình có thể sẽ có một nhãnđúng.Ở trường hợp này mô hình thống kê đánh đúng. Do mỗi mô hình có một ưu điểm khác nhau mà ở mỗi trường hợp riêng, tỉ lệ chính xác của mỗi mô hình là khác nhau.
Chẳng hạn đối với mô hình thống kê, nếu các câu được gán nhãn từ loại có cùng phạm vi với dữ liệu được huấn luyện thì tỉ lệ chính xác sẽ rất cao. Nhưng đối với các trường hợp mà các câu không nằm trong dữ liệu huấn luyện hoặc đối với các từ chưa biết hoặc không có trong dữ liệu huấn luyện thì mô hình ME tỏ ra chính xác hơn. Chính vì vậy, mô hình tổng hợp phải biết chọn mô hình nào khi kết quả khác nhau.
Ởđây, việc chọn kết quả nào là hết sức khó khăn. Do đó, tuy kết quả của mô hình kết hợp có tăng nhưng vẫn còn khá hạn chế.