Tỉ lệ likelihood (Likelihood ratio)

Likelihood ratio là phƣơng pháp khác để tìm kiếm collocation. Phƣơng pháp này

phù hợp đối với các dữ liệu rải rác hơn là phép thử . Giá trị thống kê mà ta sẽ tính toán sau đây (likelihood ratio) dễ hiểu hơn là thống kê . Đơn giản, đó là một số đo cho chúng ta biết rằng, một Giả thuyết thích hợp hơn so với các Giả thuyết khác nhƣ thế nào.

Để áp dụng phép thử likelihood radio cho việc tìm kiếm collocation, xem xét hai giả thuyết sau về tần suất xuất hiện của bigram (Dunning 1993) [13]:

Giả thuyết 1. Giả thuyết 2.

Giả thuyết 1 là hình thức hóa của tính độc lập (sự xuất hiện của không phụ thuộc vào việc đã xuất hiện hay chƣa).

Giả thuyết 2 là hình thức hóa của tính phụ thuộc, là một dấu hiệu tốt cho sự xuất hiện một collocation (giả thiết rằng nếu Giả thuyết 2 đúng, hiếm có trƣờng hợp

, nếu có, nó sẽ tạm thời đƣợc bỏ qua).

Sử dụng các ƣớc lƣợng likelihood cực đại thông thƣờng cho và gán cho số lần xuất hiện của trong kho ngữ liệu:

Công thức 1

(N = 14307668) Với phân phối nhị thức:

Likelihood từ việc tính toán mà chúng ta đã quan sát thực sự là:

(theo Giả thuyết 1) (theo Giả thuyết 2) Bảng 11 tổng kết lại những công thức tính toán này.

Bảng 11. Cách tính toán giá trị likelihood của Dunning.

Ví dụ, likelihood của Giả thuyết là kết quả của hai dòng cuối cùng trong cột ngoài cùng bên phải.

Ta thu đƣợc các likelihood và bằng cách nhân hai dòng cuối cùng, tƣơng ứng là các likelihood của số lần xuất hiện theo lý thuyết của và .

Logarit của tỉ lệ giữa hai likelihood và là:

Trong đó .

Bảng 12 liệt kê 20 bigram chứa powerful có hạng cao nhất theo tỉ lệ likelihood khi phép thử likelihood ratio đƣợc ứng dụng trong kho ngữ liệu New York Times. Tất cả các bigram xuất hiện ở đây đều đƣợc xét đến, kể cả những bigram ít xuất hiện (ví dụ,

Bảng 12. Các bigram có chứa powerful với hạng cao nhất theo phép thử

likelihood ratio của Dunning.

Phép thử likelihood ratio cũng có ƣu điểm là thích hợp dùng cho các dữ liệu rải rác hơn là phép thử . Nhƣng vấn đề là sử dụng phép thử likelihood ratio nhƣ thế nào?

Nếu là tỉ số các giá trị likelihood của một “hình thái đặc biệt” thì đại lƣợng là phân bổ tiệm cận (Mood 1974) [20]. Vì thế có thể dùng các giá trị trong Bảng 12 để kiểm tra Giả thuyết và Giả thuyết . Ví dụ, có thể tra giá trị của phân phối cho powerful cudgels và loại bỏ Giả thuyết cho bigram này (với độ tin cậy thì giá trị xác suất giới hạn là 7.88).

“Hình thái đặc biệt” của tỉ số likelihood cần tìm ở đây là tỉ số giữa ƣớc lƣợng

likelihood cực đại trên một phần của không gian biến và tỉ số ƣớc lƣợng likelihood cực

đại trên toàn bộ không gian biến.

Đối với tỉ số likelihood trong công thức , toàn bộ miền không gian là không gian của cặp xác suất : là xác suất xuất hiện ở vị trí sau và là xác

suất xuất hiện sau một từ bất kỳ khác . Lấy likelihood cực đại cho dữ liệu đã quan sát nếu giả thiết rằng các ƣớc lƣợng likelihood cực đại đƣợc tính toán theo Công thức 1. Một phần không gian là tập con của các trƣờng hợp có . Ƣớc lƣợng trong Công thức 1 đƣa lại giá trị likelihood cực đại trên một phần không gian dữ liệu đã quan sát. Nếu là tỉ số của hai likelihood (likelihood cực đại trên một phần không gian, và trên toàn bộ miền không gian), thì là phân bổ tiệm cận . Khái niệm “tiệm cận” có thể hiểu là khi “một số đủ lớn”. Có hay không các số đủ lớn trong các trƣờng hợp riêng biệt là rất khó để xác định đƣợc. Nhƣng Dunning đã chỉ ra rằng phép thử likelihood ratio nói chung là phù hợp để trích chọn collocation hơn là phép thử của Pearson [20].

Kiểm thử Giả thuyết (Hypothesis testing)

Thông tin tƣơng hỗ MI (Mutual information)