Hiện nay, cĩ khá nhiều mơ hình cĩ thể áp dụng cho việc gán nhãn từ loại như dùng xác suất thống kê, MAXIMUM ENTROPY(ME)3, học hướng lỗi… . Tuy nhiên độ chính xác của các phương pháp này chỉ dừng lại khoảng 96%. Do đĩ, cĩ khá nhiều phương pháp cải tiếnđược đưa ra nhằm làm tăng độ chính xác.
Do mỗi mơ hình đều cĩ những ưu điểm riêng nên cĩ một cách tiếp cận được đưa ra đĩ là phối hợp các mơ hình lại với nhau. Mơ hình kết hợp này sẽ tận dụng cácưu điểm của các mơ hình khác nhau. Trong quá trình gán nhãn từ loại, tuỳ theo trường hợp mà mơ hình sẽ quyết định nhãn được lấy từ mơ hình nào.
Như trong mơ hình kết hợp giữa gán nhãn từ loại bằng ME và thống kê chẳng hạn. Giả sử câu được gán nhãn do hai mơ hình đánh ra cĩ sự khác nhau.
Khoa C NTT - Ð H KHTN TP.H CM Khoa C NTT - Ð H KHTN TP.H CM
Ví dụ nhưcâu “I go to school”, kết quảgán nhãn từloại của giải thuật ME là:
I/PRP go/VBP to/TO school/VB
Và kết quảgán nhãn từloại dựa trên huớng tiếp cận thống kê nhưsau: I/PRP go/VBP to/TO school/NN
Thì mơ hình chính cĩ nhiệm vụ quyết định chọn nhãn của từ “school” là của mơ hình nào doởđây trong hai mơ hình cĩ thể sẽ cĩ một nhãnđúng.Ở trường hợp này mơ hình thống kê đánh đúng. Do mỗi mơ hình cĩ một ưu điểm khác nhau mà ở mỗi trường hợp riêng, tỉ lệ chính xác của mỗi mơ hình là khác nhau.
Chẳng hạn đối với mơ hình thống kê, nếu các câu được gán nhãn từ loại cĩ cùng phạm vi với dữ liệu được huấn luyện thì tỉ lệ chính xác sẽ rất cao. Nhưng đối với các trường hợp mà các câu khơng nằm trong dữ liệu huấn luyện hoặc đối với các từ chưa biết hoặc khơng cĩ trong dữ liệu huấn luyện thì mơ hình ME tỏ ra chính xác hơn. Chính vì vậy, mơ hình tổng hợp phải biết chọn mơ hình nào khi kết quả khác nhau.
Ởđây, việc chọn kết quả nào là hết sức khĩ khăn. Do đĩ, tuy kết quả của mơ hình kết hợp cĩ tăng nhưng vẫn cịn khá hạn chế.