Giới thiệu thuật toán:
Thuật toán kỳ vọng cực đại (Expectation Maximization - EM) có mục đích tìm mô hình phấn bố dữ liệu hợp lý nhất, với tập dữ liệu ban đầu là một tập nhỏ các dữ liệu đã gán nhãn kết hợp với một số lƣợng lớn các dữ liệu chƣa gán nhãn. Hay nói cách khác đây là một phƣơng pháp nhằm tìm một mô hình tối ƣu để phân lớp các dữ liệu đã gán nhãn và chƣa gán nhãn.
Thuật toán kỳ vọng cực đại là một thuật toán tổng quát đánh giá khả năng cực đại của dữ liệu. Mà dữ liệu không hoàn chỉnh hoặc hàm mục tiêu chứa các biến ẩn.
Nội dung thuật toán:
Thuật toán kỳ vọng cực đại đƣợc thực hiện nhƣ sau:
Bƣớc 1: Tiến hành gán giá trị ngẫu nhiên cho tất cả các tham số của mô hình. Bƣớc 2: Tiến hành lặp hai bƣớc lặp sau.
Bước kỳ vọng: Trong bƣớc này thuật toán tiến hành tính toán hàm mục tiêu mong muốn cho dữ liệu dựa trên các thiết lập tham số và dữ liệu không đầy đủ.
Bước tối đa hóa: Trong bƣớc này thuật toán tiến hành tính toán lại tất cả các tham số, bằng cách sử dụng tất cả các dữ liệu. Qua đó ta sẽ nhận đƣợc một tập các tham số mới.
Tiến trình tiếp tục cho đến khi hàm mục tiêu hội tụ, ví dụ nhƣ hàm mục tiêu đạt tới cực đại địa phƣơng, ...
Thuật toán kỳ vọng cực đại sử dụng hƣớng tiếp cận là xuất phát từ một giá trị khởi ngẫu nhiên nào đó. Do vậy chỉ đảm bảo đạt đƣợc giá cực đại địa mang tính phƣơng. Nên việc đạt tới cực đại toàn cục hay không là phụ thuộc vào điểm bắt đầu xuất phát. Nếu ta xuất phát từ một điểm đúng thì ta có thể tìm đƣợc
cực đại toàn cục. Tuy nhiên vấn đề tìm điểm xuất phát đúng thƣờng rất khó. Ta có thể sử dụng hai phƣơng pháp để giải quyết vấn đề này nhƣ sau:
Một là: Tiến hành thử nhiều giá trị khởi đầu khác nhau, qua đó tiến hành lựa chọn phƣơng án mà giá trị hàm mục tiêu hội tụ lớn nhất.
Hai là: Ta sẽ sử dụng một mô hình đơn giản hơn để tiến hành xác định giá trị khởi đầu. Qua đó sẽ tìm đƣợc vùng tồn tại cực đại toàn cục, sau đó ta sẽ chọn một giá trị khởi đầu trong vùng đó để tiến hành bắt đầu với mô hình phức tạp.
Thuật toán kỳ vọng cực đại có ƣu điểm là có mô hình toán rõ ràng, học theo khung mô hình xác suất khá tốt và có hiệu quả rất tốt nếu mô hình đó là mô hình dạng đóng. Tuy nhiên, thuật toán còn những mặt hạn chế là ta cần phải xác định đƣợc tính chính xác của mô hình, xác minh đƣợc tính đồng nhất của mô hình, ngoài ra xác định tối ƣu bằng giải thuật kỳ vọng cực đại sẽ làm ảnh hƣởng đến những dữ liệu không đƣợc gán nhãn nếu mô hình bị sai.