TIẾNG VIỆT
2.3.1. Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS)
Mơ hình Entropy cực đại (Maximum Entropy Model, Maxent Model) [BPP96] là một thuật tốn học máy thơng dụng dựa trên xác suất có điều kiện đƣợc sử dụng trong nhiều nghiên cứu về nhận dạng thực thể y sinh [CC03, LTC04]. Trong đó, entropy là độ đo về tính đồng đều hay tính khơng chắc chắn của một phân phối xác suất, một phân phối xác suất có Entropy càng cao thì phân phối của nó càng đều. Ƣớc lƣợng entropy cực đại là ƣớc lƣợng ít lệch nhất có thể cho dữ liệu cho trƣớc, tƣ tƣởng chủ đạo của nguyên lý này là xác định một phân phối mơ hình sao cho phân phối đó thỏa mãn các ràng buộc quan sát từ thực nghiệm và phải gần nhất với phân phối đều, hay nói cách khác là làm entropy một phân phối cực đại dƣới những ràng buộc nhất định.
Maxent áp dụng cho bài toán gán nhãn chuỗi (sequence labeling) nguyên gốc sử dụng thuật toán quy hoạch động Viterbi để giải mã [RA96]. Trong nghiên cứu này, để giải quyết bài toán nhận dạng thực thể biểu hiện và các thực thể liên quan,
41
luận án áp dụngmột phƣơng pháp tìm kiếm xấp xỉ để giải mã là tìm kiếm chùm (beam search, BS) thay vì Viterbi. Tìm kiếm chùm là một biến thể của tìm kiếm theo chiều rộng sử dụng một tham số k để giảm thiểu khơng gian tìm kiếm (mơ hình mà luận án đề xuất thiết lập k=3). Ƣu điểm của việc sử dụng tìm kiếm chùm là việc cho phép sử dụng một cách có kiểm sốt entropy cực đại cho từng quyết định gán nhãn nhƣng bỏ qua khả năng tìm kiếm chuỗi nhãn tối ƣu sử dụng các kỹ thuật quy hoạch động, chính việc này đã nâng cao đƣợc tốc độ tính tốn.