Mơ hình kết hợp cho gán nhãn từ loại

Trong mơ hình này, dữ liệu thơ được gán nhãn dựa trên hai Module: Module gán nhãn từ loại dựa trên mơ hình cực đại hĩa Entropy làm mơ hình gán nhãn cơ sở. Kết quả đầu ra của module này là các câu đã được gán nhãn từ loại. Tuy nhiên theo phân tích trên thì tồn tại các nhãn sai là các lỗi ngoại lệ trong mơ hình thống kê. Trong quá trình xây dựng mơ hình, lý thuyết Entropy hướng đến mục tiêu “Xây dựng mơ hình phân phối đối với mỗi tập dữ liệu và tập các ràng buộc đi cùng phải đạt được độ cân bằng (đều nhất) cĩ thể” [52]. Tuy nhiên việc xây dựng đầy đủ các ràng buộc với từng ngơn ngữ là vơ cùng khĩ. Đặc trưng ngơn ngữ càng phức tạp thì tập các ràng buộc càng lớn. Trong MEM các ràng buộc chính là các đặc trưng được tạo ra trong quá trình học dựa trên ngữ liệu huấn luyện. Cơng cụ gán nhãn từ loại cho tiếng Việt dựa trên mơ hình cực đại hĩa Entropy (VnTagger) đạt được kết quả khá khiêm tốn so với cơng cụ gán nhãn tương đương cho tiếng Anh (Stanford POSTagger) cũng bởi một phần do các ràng buộc cĩ thể

Ngữ liệu thơ (Ngữ liệu chưa được gán nhãn)

TBL POS Tagging

MEM POS Tagging (Based line)

Tập luật

mơ hình hĩa trong tiếng Việt cịn chưa được đầy đủ như tiếng Anh [54]. Ngữ liệu sau khi được gán nhãn bởi mơ hình cơ sở sẽ được gán nhãn lại trên một số thành phần từ tố cĩ đặc trưng ngữ cảnh phù hợp với tập các luật đã được xây dựng từ quá trình học trước đĩ. Cụ thể mơ hình xử lý như sau:

Thuật tốn: 3-4. Thuật tốn gán nhãn của mơ hình kết hợp

3.1.3.1. Quá trình huấn luyện mơ hình kết hợp

Quá trình huấn luyện sử dụng một phần kho ngữ liệu Treebank đặt tên là Tcorpus để xây dựng tập luật chuyển. Kho ngữ liệu này được chia ngẫu nhiên thành 2 kho ngữ liệu là Mcorpus và Bcorpus theo tỉ lệ 3:1. Kho ngữ liệu Mcorpus dùng để xây dựng lên mơ hình xác suất thống kê trong mơ hình cực đại hĩa Entropy, cịn kho ngữ liệu Bcorpus

dùng để học các luật chuyển theo phương pháp TBL.

Quá trình huấn luyện bao gồm hai giai đoạn. Giai đoạn thứ nhất, bao gồm quá trình huấn luyện mơ hình cơ sở bằng kho dữ liệu Mcorpus. Sau khi huấn luyện mơ hình xong thì sẽ sử dụng chính mơ hình đĩ để gán nhãn cho ngữ liệu Bcorpus (là ngữ liệu thu được sau khi loại bỏ thơng tin từ loại trên Bcorpus). Danh sách các lỗi được xác định sau quá trình gán nhãn bằng mơ hình cực đại hĩa Entropy và đem so sánh kết quả gán nhãn với ngữ liệu Bcorpus ban đầu. Giai đoạn thứ hai, xác định được tập các luật chuyển tốt nhất để sửa các lỗi sai ở giai đoạn thứ nhất.

a) Giai đoạn 1

Quá trình phân tích lỗi đối với kết quả của mơ hình cực đại hĩa Entropy được mơ tả chi tiết như sau:

Đầu vào: Ngữ liệu cần gán nhãn từ loại.

Đầu ra: Tập nhãn kết quả (câu đã được gán nhãn).

Bước 1: Tiền xử lý (Tách từ dựa trên đặc trưng ngơn ngữ)

Bước 2: Gán nhãn cơ sở bằng giải thuật ME, với câu cần gán nhãn từ

loại W = {w1...wn}.

- Tìm chuỗi sn1 theo giải thuật tại mục 3.1.1.2.

Bước 3: Gán nhãn từ loại bằng giải thuật TBL

Lặp, với luật ri trong tập luật huấn luyện trên mơ hình kết hợp Lặp, với từ wj trong câu cần gán nhãn từ loại.

Nếu ngữ cảnh của từ wj phù hợp với ngữ cảnh trong luật ri

Áp dụng luật ri cho từ wj

Mơ hình kết hợp cho gán nhãn từ loại

Sơ đồ quá trình làm ngữ liệu

Sơ đồ hoạt động của giải thuật TBL