TÍNH XẤP XỈ ĐỘ TĂNG

Một phần của tài liệu XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ (Trang 55)

C(SU )= {pЄ P| p(ƒ )= (ƒ) với tất cả các ƒЄ SU }

TÍNH XẤP XỈ ĐỘ TĂNG

Phần phụ lục sẽ giới thiệu về phương pháp tính xấp xỉ độ tăng của hàm log-likelihood, phục vụ cho việc nâng cao tốc độ tính toán trong thuật toán 2.

Đặt xấp xỉ này là ~ΔL(S,ƒ).

Nhắc lại rằng, mô hình PS có một tập các tham số λi, mỗi một tham số tương ứng với một đặc trưng trong S. Mô hình PS U f chứa tập tham số này và cộng thêm một tham số mới α tương đương với đặc trưng ƒ. Ta mong muốn rằng giá trị tối ưu cho λ không thay đổi khi đặc trưng ƒ được thêm vào S. Tuy nhiên, khi một ràng buộc mới được sử dụng, giá trị tối ưu của tất cả các tham số cũng thay đổi.

Do đó, để cho việc tính toán vị trí cho các đặc trưng được dễ dàng kiểm soát, ta giả sử rằng việc thêm một đặc trưng ƒ chỉ ảnh hưởng đến tham số α còn các tham số kết hợp với các đặc trưng khác là không thay đổi. Điều đó có nghĩa là khi xác định độ tăng (gain) của ƒ trên mô hình PS , ta giả sử mô hình tốt nhất mà chứa các đặc trưng S U ƒ có dạng sau:

(24) Với một số giá trị thực của α. Ở đây:

Tham số duy nhất mà phân biệt các mô hình có dạng như ở (24) là tham số α. Trong số các mô hình này, ta quan tâm đến mô hình mà làm cực đại xấp xỉ độ tăng:

Ta sẽ ký hiệu độ tăng của mô hình này là: Và mô hình tối ưu là:

Mặc dù các công thức khá là cồng kềnh thì ý tưởng lại rất đơn giản. Việc tính toán xấp xỉ độ tăng trong hàm log-likelihood từ việc thêm một đặc trưng ƒ

vào tập các đặc trưng PS đã được giảm xuống thành bài toán tối ưu một chiều đơn giản thông qua tham số đơn α. Bài toán này có thể được giải bằng kỹ thuật tìm kiếm đường phổ biến như phương pháp Newton. Điều này mang lại một sự

tiết kiệm tuyệt vời trong tính toán so với việc tính toán độ tăng một cách chính xác. Bài toán tính độ tăng chính xác là một bài toán tối ưu n chiều và yêu cầu các phương pháp phức tạp ví dụ như liên hợp gradient (conjugate gradient). Tuy nhiên, điều này cũng làm nảy sinh một vấn đề: với một số đặc trưng cá biệt, ta có thể đánh giá thấp độ tăng mà nó mang lại và như vậy, sẽ có trường hợp ta chọn đặc trưng ƒ mà độ tăng xấp xỉ của nó ~ΔL(S,ƒ) là cao nhất mà bỏ qua đặc trưng

với độ tăng là lớn nhất .

Hình 15 sau đây minh họa cho điều này. Ở đây, hàm log-likelihood được biểu diễn như là một hàm lồi bất kỳ qua hai tham số: λ tương đương với các tham số cũ và α tương đương với tham số mới. Cố định λ và điều chỉnh α để tìm giá trị α mà làm cực đại hàm log-likelihood. Việc này chỉ liên quan tới tìm kiếm trên một đường (đường in đậm) thay vì phải tìm kiếm trên toàn không gian (f, α).

Hình 16. Giới hạn không gian tìm kiếm 2 chiều xuống 1 chiều

Input: phân phối thực nghiệm , mô hình cơ sở: PS ; ứng viên đặc trưng ƒ

Output: độ tăng xấp xỉ ~ΔL(S,ƒ) của đặc trưng ƒ

Bước 1: Đặt

Bước 2: Khởi tạo: α0 = 0

Bước 3: Lặp cho tới khi GS,ƒn) hội tụ: Tính αn+1 từ αn sử dụng công thức:

Tính GS,ƒn+1)sử dụng công thức:

Bước 4: ~ΔL(S,ƒ)=GS,ƒn+1)

Một phần của tài liệu XỬ LÝ NHẬP NHẰNG NGỮ NGHĨA TRONG DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ (Trang 55)