Trong đó hi là lịch sử của từ wi. Thay vì phải tính tích các thừa số nhỏ ta logarit hai vế phương trình trên và đưa về phép tính tổng. Khi đó thuật toán tìm kiếm Beam được sử dụng để tìm kiếm chuỗi từ loại phù hợp nhất với chuỗi từ cho trước như sau:
Thuật toán: 3-3. Thuật toán gán nhãn của mô hình cực đại hóa Entropy [51]
Trong quá trình thực nghiệm, chúng tôi chọn N = 3.
3.1.2. Mô hình kết hợp
Hiện nay, có khá nhiều mô hình có thể áp dụng cho việc gán nhãn từ loại như dùng học giám sát, xác suất thống kê, học hướng lỗi…Tuy nhiên độ chính xác của các phương pháp này đang dần tiến đến giới hạn. Bên cạnh đó, cũng đã có khá nhiều phương pháp cải tiến được đưa ra nhằm làm tăng độ chính xác. Do mỗi mô hình đều có những ưu điểm riêng nên có một cách tiếp cận được đưa ra đó là kết hợp các mô hình lại với nhau. Mô hình kết hợp sẽ tận dụng các ưu điểm của các mô hình khác nhau. Trong quá trình gán nhãn từ loại, khả năng kế thừa giữa các mô hình có vai trò quan trọng ảnh hưởng đến hiệu quả của hệ thống.
Ví dụ như câu “Population drain ends”, kết quả gán nhãn từ loại của giải thuật ME thông thường sẽ là: Population/NNP drain/NNP ends/NNS
Và kết quả gán nhãn từ loại dựa trên huớng tiếp cận học luật chuyển đổi như sau:
Đầu vào: Câu W = {w1...wn} bao gồm các từ chưa được gán nhãn.
Đầu ra: Chuỗi từ loại có xác suất cao nhất sn1
Ký hiệu: sij là chỗi từ loại có xác suất cao thứ j tính đến từ wi
Bước 1: Tính xác suất của mỗi từ loại trong tập {T} đối với từ w1,
tìm top N từ loại có giá trị lớn nhất (N là kích thước của Beam) gán vào s1j với 1 ≤ j ≤ N; Gán i = 2;
Bước 2: Thực hiện vòng lặp 2.1. Khởi tạo j = 1;
2.2. Tính xác suất của mỗi từ loại trong tập {T} đối với từ
wi, với s(i-1)j là những từ loại trong ngữ cảnh phía trước của từ hiện tại và chèn thêm các từ loại tại bước hiện tại và chuỗi s(i-1)j
để được chuỗi mới.
2.3. j = j +1; lặp lại bước 2.2 nếu j ≤ N.
Bước 3: Tìm N chuỗi từ loại có xác suất cao nhất từ bước 2 và gán
cho sij 1≤j≤N.
Bước 4: i = i + 1, lặp lại bước 2.1 nếu j ≤ N. Bước 5: Trả lại chuỗi các xác suất cao nhất sn1
Population/NN drain/NN ends/VBZ
Thì mô hình chính có nhiệm vụ quyết định chọn nhãn của từ “ends” là của mô hình nào do ở đây trong hai mô hình có thể sẽ có một nhãn đúng. Ở trường hợp này mô hình luật chuyển đổi gán nhãn đúng. Do mỗi mô hình có một ưu điểm khác nhau mà ở mỗi trường hợp riêng, tỉ lệ chính xác của mỗi mô hình là khác nhau. Chẳng hạn đối với mô hình xác suất thống kê, nếu các câu được gán nhãn từ loại có cùng phạm vi với dữ liệu được huấn luyện thì tỉ lệ chính xác sẽ cao. Nhưng đối với các trường hợp mà các câu không nằm trong dữ liệu huấn luyện hoặc đối với các từ chưa biết hoặc không có trong dữ liệu huấn luyện thì mô hình học luật chuyển đổi tỏ ra chính xác hơn. Chính vì vậy, mô hình kết hợp phải có khả năng kế thừa và phát huy được ưu điểm của từng mô hình. Ở đây, mô hình của chúng tôi đề xuất là mô hình học máy thống kê dựa trên kho ngữ liệu đã được gán nhãn, vì vậy nó sẽ gồm 2 quá trình là quá trình huấn luyện và quá trình kiểm tra. Mô hình tổng quát mà chúng tôi đề xuất như sau:
Hình 3-1: Mô hình kết hợp cho gán nhãn từ loại
Trong mô hình này, dữ liệu thô được gán nhãn dựa trên hai Module: Module gán nhãn từ loại dựa trên mô hình cực đại hóa Entropy làm mô hình gán nhãn cơ sở. Kết quả đầu ra của module này là các câu đã được gán nhãn từ loại. Tuy nhiên theo phân tích trên thì tồn tại các nhãn sai là các lỗi ngoại lệ trong mô hình thống kê. Trong quá trình xây dựng mô hình, lý thuyết Entropy hướng đến mục tiêu “Xây dựng mô hình phân phối đối với mỗi tập dữ liệu và tập các ràng buộc đi cùng phải đạt được độ cân bằng (đều nhất) có thể” [52]. Tuy nhiên việc xây dựng đầy đủ các ràng buộc với từng ngôn ngữ là vô cùng khó. Đặc trưng ngôn ngữ càng phức tạp thì tập các ràng buộc càng lớn. Trong MEM các ràng buộc chính là các đặc trưng được tạo ra trong quá trình học dựa trên ngữ liệu huấn luyện. Công cụ gán nhãn từ loại cho tiếng Việt dựa trên mô hình cực đại hóa Entropy (VnTagger) đạt được kết quả khá khiêm tốn so với công cụ gán nhãn tương đương cho tiếng Anh (Stanford POSTagger) cũng bởi một phần do các ràng buộc có thể
Ngữ liệu thô (Ngữ liệu chưa được gán nhãn)
TBL POS Tagging
MEM POS Tagging (Based line)
Tập luật
mô hình hóa trong tiếng Việt còn chưa được đầy đủ như tiếng Anh [54]. Ngữ liệu sau khi được gán nhãn bởi mô hình cơ sở sẽ được gán nhãn lại trên một số thành phần từ tố có đặc trưng ngữ cảnh phù hợp với tập các luật đã được xây dựng từ quá trình học trước đó. Cụ thể mô hình xử lý như sau:
Thuật toán: 3-4. Thuật toán gán nhãn của mô hình kết hợp