d. Các ưu thế của SVM trong phân lớp văn bản
2.4.1. Thuật tốn EM
Việc xác định ý định người dùng đầu tiên được lấy ý tưởng dựa trên thuật tốn EM (Expectation Maximiation).
Thuật tốn EM (Expectation - Maximization) được nghiên cứu từ 1958 bởi Hartley và được nghiên cứu đầy đủ bởi Dempster, Laird và Rubin cơng bố năm 1977. Thuật tốn này nhằm tìm ra sự ước lượng về khả năng lớn nhất của các tham số trong mơ hình xác suất (các mơ hình phụ thuộc vào các biến tiềm ẩn chưa được quan sát), nĩ được xem như là thuật tốn dựa trên mơ hình hoặc là mở rộng của thuật tốn k-means.
EM gán các đối tượng cho các cụm đã cho theo xác suất phân phối thành phần của đối tượng đĩ. Phân phối xác suất thường được sử dụng là phân phối xác suất Gaussian với mục đích là khám phá lặp các giá trị tốt cho các tham số của nĩ bằng hàm tiêu chuẩn là hàm logarit khả năng của đối tượng dữ liệu, đây là hàm tốt để mơ hình xác suất cho các đối tượng dữ liệu.
Thuật tốn gồm 2 bước xử lý:
- Đánh giá dữ liệu chưa được gán nhãn (bước E)
- Đánh giá các tham số của mơ hình, khả năng lớn nhất cĩ thể xảy ra (bước M).
Cụ thể thuật tốn EM ở bước lặp thứ t thực hiện các cơng việc sau:
- Bước E: Tính tốn để xác định giá trị của các biến chỉ thị dựa trên mơ
hình hiện tại và dữ liệu.
- Bước M: Đánh giá xác suất
Ta sẽ sử dụng một tập dữ liệu D đã được gán nhãn là cĩ ý định hoặc khơng cĩ ý định để làm tập dữ liệu học cho phương pháp, sau đĩ sẽ tiến hành cho tập dữ liệu chưa được gán nhãn.
Từ bước (E) ta cĩ thể xác định, đánh giá dữ liệu, và bước (M) sẽ tính tốn lại các tham số để đưa ra kết quả tốt nhất.
(2.20)
Về cơ bản thuật tốn EM phân lớp dữ liệu dựa trên cả bộ dữ liệu đã gán nhãn và chưa gán nhãn. Tuy nhiên, trong một tình huống là các đặc trưng trích chọn ra từ dữ liệu đã gán nhãn cĩ thể khơng phù hợp với dữ liệu chưa cĩ nhãn, vì thực tế phần dữ liệu cần gán nhãn chưa cĩ nhãn để sử dụng trích chọn đặc trưng, mà các đặc trưng của tập dữ liệu lại rất quan trọng trong việc phân loại dữ liệu. Đặc biệt trong trường hợp dữ liệu khác miền, thì đặc trưng của tập dữ liệu cĩ nhãn khơng thể sử dụng để đánh giá chính xác tập dữ liệu khơng cĩ nhãn.
Để giải quyết vấn đề của thuật tốn EM trong quá trình xử lý là cần tìm ra cách trích chọn đặc trưng của tập dữ liệu chưa được gán nhãn. Luận văn đề xuất ra 2 phương pháp thay thế phương pháp EM: FS-EM (Feature Selection EM) và Co- Class (Co-classifiation).