3. Các phương pháp phân loại văn bản
3.3.2.5 Thủ tục huấn luyện Generalized iterative scaling
Generalized iterative scaling (GIS) là một thủ tục để tìm kiếm phân bố xác suất p sao cho entropy đạt giá trị cực đại của dạng mô hình LogLinear. Mục chính của giải thuật là tìm ra bộ trọng số tối ưu sao cho thoả tập ràng buộc :
̃
Trong đó, giá trị kì vọng được định nghĩa như sau :
∑ ( ⃗⃗ ) ( ⃗⃗ )
⃗⃗⃗ Công thức tính xấp xỉ như sau :
∑ ∑ ( | ⃗⃗ ) ( ⃗⃗ )
Trong đó,
( | ⃗⃗ ) (∑ ( ⃗⃗ )) ∑ (∑ ( ⃗⃗ )) Và giá trị kì vọng thực nghiệm được định nghĩa như sau :
̃ ∑ ̃( ⃗⃗ ) ( ⃗⃗ )
⃗⃗⃗
∑ ( ⃗⃗ )
Trong đó, N là số văn bản trong tập huấn luyện. Chú ý rằng hai giá trị kì vọng của các hàm đặc trưng này không phải là giá trị nhị phân, mà là giá trị thực để đo khả năng của các ràng buộc.
Thuật giải đòi hỏi tổng giá trị của các hàm đặc trưng ứng với mỗi vector và mỗi lớp c phải là một hằng số C.
33
⃗⃗ ∑ ( ⃗⃗ )
Để hoà thành yêu cầu này, chúng ta định nghĩa C là giá trị lớn của các giá trị của các hàm đặc trưng
⃗⃗ ∑ ( ⃗⃗⃗ )
Tuy nhiên, không phải tất cả các tổng giá trị các hàm đặc trưng đều bằng hằng số C, do đó, chúng ta add thêm vào tập các hàm đặc trưng một hàm đặc trưng như sau :
( ⃗⃗ ) ∑ ( ⃗⃗ )
Thủ tục huấn luyện được thực hiện như sau :
1. Khởi tạo tập trọng số { ( )} ( với 1 i K+1, và (1) là tập trọng số thứ 1 ứng với lần khởi tạo và sẽ tăng dần lên ứng với từng lần lặp). Có thể khởi tạo với bất kì giá trị nào, tuy nhiên thường chúng ta sẽ khởi tạo với giá trị 1, tức là { ( ) }.
Tính giá trị kì vọng thực nghiệm của các hàm đặc trưng ̃ Khởi tạo n=1.
2. Tính xác suất cho từng vector văn bản với từng lớp trong tập phân lớp
( )( ⃗⃗ ), sử dụng tập trọng số i tại thời điểm đang xét và tính theo công thức :
( )( ⃗⃗ ) ∏ . ( )/ ( )
3. Tính giá trị kì vọng (với 1 i K+1) cho các hàm đặc trưng theo công thức xấp xỉ đã trình bày ở trên
34 ∑ ∑ ( | ⃗⃗ ) ( ⃗⃗ ) 4. Cập nhật giá trị cho tập trọng số i ( ) ( ̃ ( ) )
5. Nếu các trọng số đã hội tụ thì dừng chương trình, ngược lại tăng n lên 1 và quay lại bước 2.
Kết quả sau khi chạy giải thuật là tập các trọng số I .
3.3.2.6 Giai đoạn ph}n lớp
Cho một vector văn bản mới ( ).
Sử dụng tập mô hình trọng số đã huấn luyện, tín hai xác suất P(c| ) và P(c| ) theo công thức :
( | ⃗⃗ ) (∑ ( ⃗⃗ )) ∑ (∑ ( ⃗⃗ ))
Sau khi tính hai xác suất, lớp nào có xác suất cao hơn sẽ là lớp cho văn bản mới.
35