Kiểm thử Giả thuyết (Hypothesis testing)

Trong thực tế, có nhiều sự kết hợp từ mà giá trị tần suất cao và phƣơng sai thấp. Điều mà chúng ta cần tìm hiểu, đó là có hay không hai từ xuất hiện cùng với nhau thƣờng xuyên mà không phải là sự xuất hiện ngẫu nhiên. Việc đánh giá một biến cố có xảy ra hay không là một trong những bài toán kinh điển. Nó thƣờng bị ẩn đi trong các thuật ngữ của Kiểm thử Giả thuyết (hypothesis testing). Có một giả thuyết đƣợc gọi là Giả thuyết Không

(null hypothesis) , chỉ xét sự kết hợp từ ngẫu nhiên. Ta sẽ tính toán xác suất p mà biến

cố sẽ xảy ra nếu đúng, và sau đó loại nếu p quá nhỏ (p < 0.05, 0.01, 0.005, 0.001, thông thƣờng ngƣời ta lấy ngƣỡng là trong các thực nghiệm khoa học) hoặc giữ lại trong trƣờng hợp ngƣợc lại.

Đây là một cách phân tích dữ liệu mà chúng ta phải xem xét cùng lúc hai việc. Trƣớc mắt, chúng ta sẽ đi tìm kiếm các mẫu đặc biệt trong dữ liệu, nhƣng bên cạnh đó, cần phải tính toán đƣợc lƣợng dữ liệu đã đƣợc quan sát. Thậm chí nếu có một mẫu rất tốt, thì chúng ta vẫn sẽ đánh giá thấp nó nếu nhƣ không có đủ dữ liệu quan sát để có thể chắc chắn rằng mẫu đó tồn tại không phải do ngẫu nhiên.

Giả thuyết Không là đúng nếu hai từ không tạo thành một collocation. Giả sử rằng mỗi từ và đƣợc sinh ra một cách hoàn toàn độc lập với nhau, vì vậy khả năng chúng xuất hiện cùng nhau là:

Công thức cho thấy rằng xác suất cùng xuất hiện của hai từ chỉ là kết quả của các xác suất riêng của mỗi từ .

2.3.1.Kiểm thử t (t test)

Cần phải có một phép thử thống kê để kiểm tra xác suất cùng xuất hiện của các từ. Phép thử đƣợc sử dụng rộng rãi trong việc tìm kiếm collocation là t test. T test xem xét trung bình và phƣơng sai của một mẫu các phép đo, mà theo Giả thuyết Không, mẫu đó đƣợc rút ra từ một phân bổ với trung bình μ. Phép thử xét sự khác nhau giữa trung bình đƣợc quan sát và trung bình kỳ vọng (đƣợc đo bằng phƣơng sai của dữ liệu) sẽ cho chúng ta một giá trị trung bình và phƣơng sai đặc biệt hơn, với giả thiết mẫu đƣợc rút ra từ một phân phối thông thƣờng với trung bình μ.

Để xác định đƣợc xác suất của một mẫu đặc biệt, cần tính toán giá trị thống kê t:

là trung bình mẫu là phƣơng sai mẫu là kích thƣớc mẫu

là trung bình của phân phối

Nếu t đủ lớn, chúng ta có thể loại bỏ Giả thuyết Không. Chúng ta có thể tìm ra chính xác là t cần phải lớn nhƣ thế nào bằng cách tra cứu trong Bảng phân phối t (Phụ lục).

Để thấy rõ hơn việc sử dụng t test để tìm kiếm collocation, chúng ta sẽ tính giá trị t

cho cụm từ new companies. Vấn đề là chúng ta sẽ đo giá trị trung bình và phƣơng sai của một mẫu nhƣ thế nào. Có một cách, là coi kho ngữ liệu nhƣ một chuỗi dài gồm N bigram, các mẫu sẽ đƣợc lấy bằng 1 nếu bigram đang kiểm tra xuất hiện, và bằng 0 trong trƣờng hợp ngƣợc lại.

Trong kho ngữ liệu ví dụ, new xuất hiện 15828 lần, companies xuất hiện 4675 lần, và có tất cả 14307668 bigram.

Giả thuyết Không quy ƣớc rằng sự xuất hiện các biến cố new và companies phải độc lập với nhau.

Trung bình của phân phối này là và phƣơng sai là (xấp xỉ này đƣợc sử dụng cho tất cả các bigram có xác suất p nhỏ).

Cụm từ new companies xuất hiện 8 lần trên tổng số 14307668 bigram trong kho ngữ liệu. Vì thế, đối với mẫu này, chúng ta có trung bình mẫu là

. Theo công thức tính t:

Vì số mẫu rất lớn nên có thể xem bậc tự do (degrees of freedom) df = ∞, với ngƣỡng cho xác suất p là , tra trong Bảng phân phối t (Phụ lục) đƣợc giá trị 2.57583. Dễ thấy t < 2.57583 nên không thể loại bỏ Giả thuyết Không (Giả thuyết Không là đúng vì new và companies tuy cùng xuất hiện nhƣng vẫn độc lập với nhau), vì vậy new

companies không phải là collocation.

Bảng 6 cho thấy các giá trị t của 10 bigram xuất hiện với tần suất 20 lần trong kho ngữ liệu. Đối với 5 bigram đầu tiên, chúng ta có thể loại bỏ Giả thuyết Không với , vì vậy các bigram này rất có thể là các collocation. Phép tính t cho 5 bigram cuối cùng không cho kết quả tốt, vì vậy có khả năng chúng không phải là collocation.

Bảng 6. Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t.

Chú ý rằng phƣơng pháp Tần suất không thể xếp hạng đƣợc 10 bigram khi chúng xuất hiện với tần suất bằng nhau. Nhìn vào Bảng 6, có thể thấy phép thử t test tính số lần cùng xuất hiện của hai từ trong bigram. C( ) liên quan đến tần suất của các từ thành phần. Nếu tần suất của cả hai từ là cao (Ayatollah Ruhollah, videocassette recorder) hoặc ít nhất là tần suất của một trong hai từ (unsaled) trong bigram là rất cao thì giá trị t của chúng cũng cao. Đánh giá này dựa nhiều vào trực giác.

Phép thử t test và các phép thử thống kê khác rất có ích trong một số phƣơng pháp xếp hạng collocation (ranking collocation).

Kiểm thử Giả thuyết (Hypothesis testing)

Tỉ lệ likelihood (Likelihood ratio)

Thông tin tƣơng hỗ MI (Mutual information)