Xây dựng mô hình cực đại hóa Entropy

Nguyên lý MaxEnt là xây dựng một mô hình phân lớp dựa trên từ những gì đã biết từ dữ liệu giả sử không có gì khác về những gì chưa biết. Có nghĩa rằng mô hình MaxEnt là mô hình có Entropy cao nhất trong các ràng buộc đáp ứng quan sát được từ dữ liệu thực nghiệm. Năm 1996 Berger [3] cùng các cộng sự đã đưa ra mô hình MaxEnt theo công thức toán học như sau:

(3.1) Trong đó là đối tượng dữ liệu cần được phân loại, là các lớp nhãn đầu ra.

là các véc tơ trọng số liên quan với các véc tơ thuộc tính và là thừa số chuẩn hóa để đảm bảo rằng là một phân phối xác suất.

Các thuộc tính trong MaxEnt được định nghĩa như một hàm có hai đối số khi đó [e] trả về giá trị 1 nếu biểu thức logic e đúng, trả về 0 nếu ngược lại. Bằng trực giác ta có thể thấy chỉ ra mối tương quan giữa một thuộc tính hữu ích mà ở đây được gọi là mẫu ngữ cảnh (cp) của đối tượng dữ liệu và một lớp nhãn đầu ra .

Để xây dựng mô hình bằng MaxEnt tôi đã định nghĩa ra một tập lớp nhãn

. Trong đó b- <tên kiểu thực thể> với ý nghĩa là bắt đầu một thực thể tên, và i- <tên kiểu thực thể> với ý nghĩa là bên trong một thực thể tên hoặc từ cuối cùng trong thực thể tên, còn nhãn o với ý nghĩa là không phải thực thể tên. Tập hợp các nhãn này dùng để gán nhãn cho dữ liệu dạng chuỗi theo định dạng IOB2, một cách trình bày gán nhãn cho dữ liệu chuỗi phổ biến trong các bài toán phân đoạn câu, từ. Như vậy, khi gặp câu

đầu vào có kiểu thực thể, từ đầu tiên của thực thể tên đó được đánh dấu bằng cách gán nhãn b-<tên kiểu thực thể> các từ bên trong được đánh dấu bằng cách gán nhãn i-<tên kiểu thực thể> đến khi hết kiểu thực thể, còn nếu không phải thực thể thì được gán nhãn o.

Ví dụ gán các nhãn tương ứng cho câu “thời tiết vũng tàu ngày mai thế nào” theo định dạng IOB2 được mô tả chi tiết trong bảng 3.4 như sau:

Bảng 3.4: Ví dụ gán nhãn cho các câu theo định dạng IOB2 Chuỗi quan sát (Observation

sequence) Gán nhãn dữ liệu theo dạng IOB2

thời o tiết o vũng b-location tàu i-location ngày b-datetime mai i-datetime thế o nào o

Huấn luyện và ước lượng tham số trong mô hình MaxEnt là tìm kiếm một véc tơ trọng số tối ưu nhằm cực đại hóa entropy hoặc cực đại hóa hàm log-likehood đối với tập dữ liệu D. Bởi vì hàm log-likehood là hàm lồi nên việc tìm kiếm tối ưu toàn cục được đảm bảo. Các nghiên cứu gần đây chỉ ra rằng những phương pháp quasi-Newton như e L–BFGS [14] hiệu quả hơn so với các phương pháp khác. Sau khi được huấn luyện, mô hình MaxEnt sẽ được sử dụng dự đoán các lớp nhãn cho dữ liệu mới. Cho một đối tượng dữ liệu x mới, dự đoán nhãn sẽ cho công thức như sau:

Xây dựng mô hình cực đại hóa Entropy

Thuật toán Improved Iterative Scaling (IIS)

Xây dựng tập dữ liệu huấn luyện