Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp (Hypothesis

Một phần của tài liệu Nghiên cứu bài toán xác định collocation trong tiếng việt (Trang 28 - 30)

(Hypothesis testing of differences)

Trong lĩnh vực từ điển học, công thức t test không thể tìm ra các từ để phân biệt tốt nhất nghĩa của strong powerful. Church và Hanks (1989) [11] đã khắc phục điều này bằng việc đề xuất một công thức tính t khác.

Bảng 7 liệt kê các từ đi cùng với powerful có ý nghĩa hơn là với strong (10 từ đầu), và các từ đi cùng với strong có ý nghĩa hơn là với powerful (10 từ cuối).

20

Bảng 7. Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất hiện có ý nghĩa với powerfulstrong.

Giá trị t trong trƣờng hợp này đƣợc tính toán bằng cách sử dụng mở rộng của phép

thử t test để so sánh các trung bình của hai tập hợp:

Ở đây, Giả thuyết Không quy định rằng sai khác trung bình bằng 0 (μ = 0), vì thế ta có . Mẫu số là tổng các giá trị phƣơng sai riêng của hai tập hợp đang đƣợc so sánh.

Các giá trị t trong Bảng 7 đƣợc tính toán nhƣ sau: Nếu w là một từ có ý nghĩa (ví dụ,

computers hoặc symbol) và , là các từ chúng ta sẽ so sánh (ví dụ, powerful

strong), thì ta có (sử dụng lại xấp xỉ

21 Rút gọn lại công thức trên, thu đƣợc:

C(x) là số lần x xuất hiện trong văn bản.

Công thức tính t do Church và Hanks (1989) [10] xây dựng rất có ích cho việc biên soạn từ điển. Khi biên soạn từ điển, ngoài việc nhìn vào ý nghĩa của từ, còn phải xem xét đến những đặc trƣng riêng về văn hóa. Ví dụ, ngƣời ta thƣờng nói strong tea, nhƣng mặt khác lại nói powerful drugs, sự khác nhau đã nói cho chúng ta biết về thói quen dùng từ nhiều hơn là về ngữ nghĩa của hai tính từ strongpowerful (Church 1991) [11].

Một phần của tài liệu Nghiên cứu bài toán xác định collocation trong tiếng việt (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(63 trang)