Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng

Một phần của tài liệu nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn (Trang 30)

Bài toán gán nhãn từ loại đƣợc mô hình hóa sử dụng mô hình Markov ẩn (HMM) nhƣ sau: Các nhãn từ loại đƣợc coi là các trạng thái ẩn và các từ của văn bản nhƣ là đầu ra (trạng thái quan sát đƣợc).

Lúc này các từ và các nhãn trong mô hình Markov tƣơng ứng với:

aij = p(xj|xi): xác suất để nhãn xj xuất hiện sau nhãn xi (các xác suất chuyển tiếp)

bi(oj) = p(oj|i): xác suất quan sát đƣợc từ yj tại trạng thái nhãn i (các xác

suất đầu ra)

oi: dữ liệu quan sát đƣợc (các từ)

Giải quyết bài toán gán nhãn từ loại sử dụng mô hình HMM chính là xác định chuỗi nhãn cho các từ trong văn bản sao cho xác suất chuỗi nhãn xuất hiện chuỗi từ đó là cao nhất. Lúc này để giải quyết bài toán gán nhãn là ta giải quyết bài toán thứ 2 của mô hình HMM

Chiến lƣợc EM chủ yếu sử dụng thuật toán tiến lùi dựa trên nguyên tắc sự ƣớc lƣợng khả năng cực đại để đánh giá các tham số (Các xác suất chuyển tiếp và xác suất đầu ra) cho mô hình. Một đặc trƣng khác của phƣơng pháp tiếp cận này là sử dụng một kho từ vựng hay một từ điển đã gán nhãn. Nhƣ vậy một kho từ vựng dễ dàng có thể đƣợc trích từ một từ điển chuẩn.

Để nghiên cứu hiệu quả của EM trên độ chính xác gán nhãn khi dữ liệu huấn luyện là một hỗn hợp của văn bản gán nhãn và chƣa gán nhãn [14]. Một HMM trigram đƣợc xác định sử dụng hai sự huấn luyện khác nhau, một là có hƣớng dẫn (việc đếm tần số quan hệ nội suy với sự phân phối đều) và một là không có hƣớng dẫn (khả năng cực đại). Một kho từ vựng đầy đủ gồm các từ từ cả tập văn huấn luyện và tập văn thử nghiệm đƣợc sử dụng để ƣớc lƣợng các xác suất đầu ra, có nghĩa là các cặp nhãn-từ không có trong kho từ vựng sẽ có xác suất 0.

Một phần của tài liệu nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn (Trang 30)