T test có nhƣợc điểm là nó thừa nhận các xác suất đƣợc phân bổ theo cách xấp xỉ
thông thƣờng, điều này trong thực tế là không đúng (theo Church và Mercer 1993) [7]. Vào năm 1900, Karl Pearson đã phát triển một thống kê ( ) so sánh các giá trị đƣợc quan sát và kỳ vọng khi dữ liệu đƣợc chia thành các mục riêng biệt. Các giá trị quan sát (observed) và kỳ vọng (expected) có thể đƣợc giải thích trong phạm vi các giả thuyết kiểm tra (hypothesis testing). Tức là nếu dữ liệu đƣợc phân chia thành các mục riêng và có định nghĩa Giả thuyết Không trên dữ liệu đó thì giá trị đƣợc kỳ vọng là giá trị của mỗi mục nếu nhƣ Giả thuyết Không là đúng, giá trị đƣợc quan sát là giá trị mỗi mục mà ta quan sát từ dữ liệu mẫu [17].
Kiểm thử khi-bình phƣơng ( test) của Pearson là phép thử đáng tin cậy hơn phép Kiểm thử t [17].
Trong trƣờng hợp đơn giản nhất, phép thử khi-bình phƣơng đƣợc sử dụng với bảng 2x2 nhƣ minh họa ở Bảng 8.
22
8
(new companies)
4667 (e.g., old companies) 15820
(e.g., new machines)
14287173 (e.g., old machines)
Bảng 8. Bảng 2x2 chỉ ra sự phụ thuộc của sự xuất hiện new và companies.
Cụm new companies xuất hiện 8 lần trong kho ngữ liệu, có 4667 bigram mà từ thứ
hai là companies và từ đầu tiên không phải là new, có 15820 bigram mà từ đầu tiên là new
và từ thứ hai không phải là companies, và 14287181 bigram không chứa cả new và
companies. Bản chất của phép thử là so sánh các giá trị tần suất đƣợc quan sát trong bảng
với các giá trị tần suất đƣợc kỳ vọng cho sự độc lập. Nếu sự sai khác giữa các giá trị này là lớn thì chúng ta có thể loại bỏ Giả thuyết Không về tính độc lập.
Bảng 8 cho thấy phân phối của new và companies trong kho ngữ liệu. Nhớ lại rằng
, , , và có 14307668
bigram trong kho ngữ liệu. Điều đó có nghĩa là số lƣợng các bigram với từ tố đầu tiên khác new và từ tố thứ hai là companies là 4667 = 4675 – 8. Hai ô ở hàng cuối cùng đƣợc tính toán tƣơng tự.
Thống kê cộng tổng các sai khác giữa giá trị tần suất quan sát đƣợc và giá trị tần suất đƣợc kỳ vọng trong tất cả các ô của bảng. Giá trị đƣợc tính theo công thức:
ilà các hàng
j là các cột
là giá trị tần suất quan sát đƣợc ở ô (i,j). là giá trị tần suất đƣợc kỳ vọng cho ô (i,j).
23
Các giá trị tần suất đƣợc kỳ vọng đƣợc tính toán từ các xác suất giới hạn, có nghĩa là từ toàn bộ các hàng và các cột của bảng.
Sau đây là các tính toán chi tiết với ví dụ về cụm từ new companies: Giá trị tần suất quan sát đƣợc:
Row total
Column total
Giá trị tần suất đƣợc kỳ vọng:
Row total
Column total
Nếu new và companies xuất hiện hoàn toàn độc lập với nhau thì ta sẽ kỳ vọng tần suất xuất hiện trung bình của new companies trong kho ngữ liệu là
.
24
Cách tính nhƣ trên có thể đƣợc ứng dụng với các bảng có kích thƣớc bất kỳ. Với bảng 2x2, công thức đƣợc khai triển nhƣ sau:
Áp dụng công thức này để tính giá trị cho ví dụ ở Bảng 8:
Bậc tự do (degrees of freedom):
df = (row total - 1)(column total - 1) = (2 - 1)(2 - 1) = 1.
Tra trong Bảng phân phối (Phụ lục), nếu chọn thì ứng với df = 1, giá trị tới hạn của là 3.84146. Vì vậy không thể loại bỏ Giả thuyết Không, có nghĩa là new và
companies xuất hiện độc lập với nhau, chứng tỏ new companies rất có thể không phải là
một collocation.
Kết quả này tƣơng tự kết quả đạt đƣợc với thống kê t (trong phép thử t test). Thông thƣờng, đối với bài toán tìm kiếm collocation, sự khác nhau giữa thống kê t và không quá lớn. Ví dụ, 20 bigram với giá trị t lớn nhất trong kho ngữ liệu ví dụ cũng là 20 bigram có giá trị lớn nhất.
Phép thử cũng phù hợp với các xác suất lớn, cho những giả thiết thông thƣờng mà phép thử t test thất bại. Điều này có lẽ là lý do khiến đƣợc ứng dụng trong những miền rộng hơn của bài toán tìm kiếm collocation.
Một trong số các cách sử dụng phép thử trong lĩnh vực thống kê xử lý ngôn ngữ tự nhiên là nhận diện các cặp dịch trong tập các kho ngữ liệu tƣơng ứng (Church và Gale 1991 dùng một độ đo gọi là ) [7].
25
Dữ liệu trong Bảng 9 đã đƣa ra một khẳng định chắc chắn rằng vache trong tiếng Pháp dịch sang tiếng Anh là cow. Ở đây, 59 là số các cặp câu tiếng Anh và câu tiếng Pháp có chứa tƣơng ứng cow và vache... Giá trị tính toán đƣợc ở đây rất cao: . Vì thế chúng ta có thể loại bỏ Giả thuyết Không, cow và vache xuất hiện một cách độc lập với nhau với một độ tin cậy cao. Cặp từ này là rất có thể là một cặp dịch.
Bảng 9. Tƣơng ứng của vache và cow trong hai kho ngữ liệu đã sắp xếp tƣơng ứng.
Bằng cách sử dụng phép thử cho bảng này, có thể chỉ ra rằng vache và cow là hai từ dịch ra của nhau trong tiếng Pháp và tiếng Anh.
Một ứng dụng quan trọng của là sử dụng nhƣ một chuẩn đo (metric) sự tƣơng đồng kho ngữ liệu (Kilgarriff và Rose 1998) [20]. Để làm đƣợc điều này, cần sử dụng một bảng nx2 với n rất lớn (ví dụ n = 500), 2 cột tƣơng ứng với hai kho ngữ liệu. Mỗi hàng ứng với một từ riêng biệt. Ví dụ đƣợc mô tả trong Bảng 10.
Bảng 10. Phép thử cho sự độc lập của các từ trong các kho ngữ liệu khác nhau, sử dụng .
Phép thử này có thể đƣợc sử dụng nhƣ là một chuẩn đo sự tƣơng đồng của các kho ngữ liệu.
Nếu tỉ số các lần đếm gần nhƣ là bằng nhau (nhƣ trƣờng hợp trong Bảng 10, mỗi từ xuất hiện trong kho ngữ liệu 1 nhiều hơn trong kho ngữ liệu 2 khoảng 6 lần) thì chúng ta không thể loại bỏ Giả thuyết Không (Giả thuyết Không trong trƣờng hợp này quy ƣớc: cả hai kho ngữ liệu đƣợc rút ra dƣới cùng một nguồn). Mặt khác, nếu tỉ số khác nhau nhiều thì giá trị sẽ cao, điều này chứng tỏ độ không tƣơng đồng cao.
26