Do trong Tiếng Việt, hiếm gặp những cụm từ kiểu knock... door nhƣ trong Tiếng Anh nên phần thực nghiệm tạm thời bỏ qua phƣơng pháp Kỳ vọng và phương sai (Mean and variance).
Các phƣơng pháp đƣợc tiến hành thử nghiệm để xác định collocation là: Tần suất
(Frequency), Kiểm thử t (t test), Kiểm thử khi-bình phương (chi-square test), Tỉ lệ
likelihood (likelihood ratio) và Thông tin tương hỗ (mutual information). Các phƣơng
pháp này sẽ thao tác trên kho ngữ liệu VnExpress đã qua bƣớc tiền xử lý.
4.2.2.Môi trƣờng thực nghiệm
a. Cấu hình phần cứng
Quá trình thực nghiệm đƣợc tiến hành trên máy tính có cấu hình phần cứng nhƣ sau:
Thành phần Chỉ số
CPU 1 Pentium IV 2.40 GHz
RAM 1.0 GB
OS WindowsXP Service Pack 2
Bộ nhớ ngoài 120GB
Bảng 19. Cấu hình phần cứng sử dụng trong thực nghiệm.
b. Cài đặt chƣơng trình
Chƣơng trình thử nghiệm viết trên ngôn ngữ python, thực hiện trích ra các bigram (với gram ở mức từ) từ kho ngữ liệu VnExpress đã qua bƣớc tiền xử lý nói trên, tính các số đo cho các bigram dựa vào các phƣơng pháp thống kê kể trên.
Chƣơng trình thực hiện những công việc cụ thể nhƣ sau:
- Đọc dữ liệu từ các file text chứa trong các thƣ mục của kho ngữ liệu. - Loại bỏ các ký tự đặc biệt, trích ra các bigram.
46
- Tính toán các giá trị Tần suất, Kiểm thử t, Kiểm thử khi-bình phương, Tỉ lệ
likelihood, Thông tin tương hỗ cho mỗi bigram bằng cách áp dụng các công thức
(đã trình bày trong phần lý thuyết).
- Sắp xếp các bigram theo thứ tự giá trị thống kê giảm dần, ghi kết quả ra các file text.
4.2.3.Các giá trị ngƣỡng đối với từng phƣơng pháp
Ngƣỡng collocation đối với từng phƣơng pháp đƣợc chọn nhƣ bảng dƣới đây.
Phƣơng pháp Giá trị ngƣỡng
Tần suất 100
Kiểm thử t 8.40
Kiểm thử khi-bình phƣơng 983,214.93
Tỷ lệ likelihood 205.10
Thông tin tƣơng hỗ 19.86
Bảng 20. Giá trị ngƣỡng cho các phƣơng pháp xác định collocation.
Ngƣỡng đặt ra đối với các phƣơng pháp Kiểm thử đúng ra phải tuân theo Bảng phân phối giá trị t và khi-bình phƣơng (Phụ lục) nhƣ trong phần lý thuyết đã trình bày. Tuy nhiên dựa trên kết quả thực nghiệm và Luận văn Cao học của Thạc sỹ Nguyễn Cẩm Tú [27], có thể đặt lại các ngƣỡng cho hai phép kiểm thử này để rút bớt số lƣợng collocation mà các phƣơng pháp trả về, từ đó đơn giản hóa việc lấy mẫu.