Phương pháp kiểm thử chủ yếu trong các nghiên cứu về collocations đến thời điểm này[19, 34, 40] vẫn là phương pháp thủ công. Do vậy, trong giới hạn của luận văn này, chúng tôi cũng áp dụng phương pháp kiểm thử bằng tay để đánh giá độ chính xác của chương trình trích chọn. Với mỗi tập kết quả, chúng tôi lấy ra 500 kết quả đầu tiên. Từ 500 kết quả đó, chúng tôi cho sinh ngẫu nhiên 100 kết quả. 100 kết quả thu được từ quá trình sinh ngẫu nhiên này sẽ được đánh giá bằng tay từ đó dùng để đánh giá độ chính xác của chương trình. Phần bên dưới trình bày chi tiết hơn về kết quả thực nghiệm thu được.
2.4.4.1. Bộ dữ liệu chỉ được tách từ đơn thuần
Chạy thử nghiệm bốn phương pháp trên bộ dữ liệu chỉ được tách từ, với độ lớn cửa sổ thay đổi từ 1 đến 5, ta sẽ thu được 20 tập kết quả. Bảng 2-8 và hình 2-1 minh họa kết quả thu được bằng phương pháp kiểm thử bằng tay khi chạy các mô hình thực nghiệm trên bộ dữ liệu đã được tách từ.
Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5
Window size
Freq- based
Chi-
square PMI T-test
1 62% 66% 69% 71%
2 57% 65% 67% 65%
3 46% 59% 55% 64%
4 47% 66% 68% 61%
20
Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5
Nhìn vào hình vẽ và bảng chúng ta thấy độ lớn cửa sổ bằng 1 đem lại kết quả khả quan nhất. Khi so sánh các phương pháp, phương pháp kiểm tra t đem lại độ chính xác cao nhất cho tiếng Việt, phương pháp kiểm tra Chi bình phương và phương pháp dựa trên thông tin tương hỗ (PMI) cũng đem lại kết quả khá khả quan, trong khi đó, phương pháp dựa trên tần số mang lại độ chính xác thấp hơn hẳn, đặc biệt khi độ lớn cửa sổ tăng lên và có độ chính xác bị ảnh hưởng nhiều nhất bởi độ lớn cửa sổ. Độ chính xác của phương pháp trích chọn dựa trên tần số tỉ lệ nghịch với độ lớn của cửa sổ. Qua thực nghiệm, chúng tôi cũng nhận thấy phương pháp kiểm tra t và phương pháp kiểm tra Chi có độ trùng khớp về kết quả khác lớn, và cả hai phương pháp này thích hợp hơn cho việc trích chọn các collocations có dạng cụm danh từ cố định, đặc biệt là cụm danh từ riêng (ví dụ: Bộ Công_An, Đoàn thanh_tra, Bí_thư Đảng_ủy, Công_nương Diana…).
2.4.4.2. Bộ dữ liệu đã được tách từ và gán nhãn từ loại
Bảng 2-9 và hình 2-2 minh họa kết quả thu được khi chạy thử nghiệm 9 mô hình trên tập dữ liệu đã gán nhãn.
Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ loại Freq-
based
Chi-
square PMI T-test
Freq- Chi-PMI Freq-Chi- T-test Chi-PMI- T-test Freq-PMI- T-test Freq-Chi- PMI-T-test 65% 63% 65% 64% 57% 56% 66% 55% 66% 0% 10% 20% 30% 40% 50% 60% 70% 80%
Freq-based Chi-square PMI T-test
Window_size = 1 Window_size = 2 Window_size = 3 Window_size = 4 Window_size = 5
21
Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn
Nhìn vào bảng kết quả và hình vẽ, chúng ta thấy, nếu xét các mô hình thực nghiệm dựa trên các phương pháp riêng lẻ, các phương pháp đạt độ chính xác xấp xỉ nhau, trong khoảng từ 63%-65%; phương pháp dựa trên thông tin tương hỗ và phương pháp dựa trên tần số đem lại kết quả cao nhất. Khi xét các phương pháp kết hợp, việc kết hợp cả 4 phương pháp và việc kết hợp 3 phương pháp: phương pháp kiểm tra chi, phương pháp kiểm tra t, và phương pháp dựa trên thông tin tương hỗ tỏ ra thích hợp nhất. Sở dĩ kết quả trích chọn từ 3 bộ 3 phương pháp còn lại thấp là do tập kết quả của các phương pháp đó khác nhau khá nhiều, độ lớn của tập kết quả nhỏ, do đó, tập kết quả chung của 3 phương pháp sẽ chứa nhiều bigram không phải là collocation; dẫn đến làm giảm độ chính xác của các phương pháp. Qua đánh giá kết quả, chúng ta cũng nhận thấy thông tin về nhãn từ loại, với cách áp dụng đã được trình bày, không cải thiện độ chính xác của quá trình trích chọn.
2.4.4.3. Bộ dữ liệu đã được phân tích cú pháp
Hình 2-9 và bảng 2-3 minh họa kết quả chạy thực nghiệm trên 9 mô hình, với bộ dữ liệu đầu vào đã được phân tích cú pháp.
Bảng 2-10: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp Freq-
based Chi-
square PMI T-test
Freq- Chi-PMI Freq-Chi- T-test Freq-PMI- T-test Chi-PMI- T-test Fre-Chi- PMI-T-test 78% 75% 89% 84% 87% 92% 86% 85% 88% 0% 10% 20% 30% 40% 50% 60% 70% Hiệu suất
22
Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp
Nhìn vào bảng và hình vẽ chúng ta thấy thông tin cú pháp làm cải thiện đáng kể độ chính xác chương trình trích chọn trên cả 9 mô hình thử nghiệm. Sự kết hợp 3 phương pháp: phương pháp dựa trên tần số, phương pháp dựa trên thông tin tương hỗ, và phương pháp kiểm tra t đem lại độ chính xác cao nhất, tuy nhiên, phương pháp kết hợp cả 4 phương pháp, phương pháp dựa trên thông tin tương hỗ cũng đem lại độ chính xác rất cao.
2.4.4.4. Đánh giá
Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Hiệu suất 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Window_size = 1 Window_size = 2 Window_size = 3 Window_size = 4 Window_size = 5 POS_TAGGED PARSED
23
Bảng 2-11: Kết quả chạy thực nghiệm trên tất cả các mô hình thực nghiệm Phương pháp Dữ liệu chỉ được tách từ Dữ liệu đã
gán nhãn Dữ liệu đã phân tích cú pháp w = 1 w = 2 w = 3 w = 4 w = 5 Freq-based 62% 57% 46% 47% 43% 65% 78% Chi-square 66% 65% 59% 66% 60% 63% 75% PMI 69% 67% 55% 68% 69% 65% 89% t-test 71% 65% 64% 61% 70% 64% 87% Freq-Chi-PMI 57% 87% Freq-Chi-T-test 56% 92% Chi-PMI-T-test 66% 86% Freq-PMI-T-test 55% 85% Freq-Chi-PMI-T-test 66% 88%
Nghiên cứu và thực nghiệm cho thấy, các phương pháp thống kê cổ điển đạt độ chính xác khá cao trong trích chọn collocations trong tiếng Việt. Hình 2-4 minh họa kết quả thu được từ tất cả các mô hình thực nghiệm trên tất cả các bộ dữ liệu. Nhìn vào đồ thị ta thấy, phương pháp dựa trên tần số có độ chính xác thấp hơn cả và phương pháp kiểm tra t tỏ ra khả quan nhất. Khi xét các phương pháp kết hợp, kết quả cho thấy phương pháp kết hợp cả 4 phương pháp đã giúp cải thiện độ chính xác chương trình, đặc biệt trên bộ dữ liệu đã được phân tích cú pháp.
Quả thật, độ chính xác của chương trình trích chọn dựa trên tần số với bộ dữ liệu gán nhãn đã được cải thiện đáng kể, tuy nhiên, độ chính xác của các phương pháp còn lại trên bộ dữ liệu đã được gán nhãn không đạt được độ chính xác cao như mong đợi. Có thể nói, thông tin về nhãn từ loại không làm cải thiện độ chính xác các phương pháp kiểm định giả thuyết và dựa trên thông tin tương hỗ, thậm chí còn làm giảm đáng kể độ chính xác của các phương pháp kết hợp so với việc áp dụng cho các phương pháp riêng lẻ. Nguyên nhân của vấn đề này có thể là do độ chính xác của chương trình gán nhãn cũng như việc áp dụng các mô hình trích chọn không phù hợp với các phương pháp đó.
Kết quả chạy thử nghiệm cả 9 mô hình thử nghiệm trên cả 3 bộ dữ liệu cho thấy thông tin cú pháp thêm vào làm cải thiện đáng kể độ chính xác của chương trình trích chọn. Thông tin cú pháp thêm vào đã có tác dụng tích cực đối với độ chính xác của chương trình. Độ chính xác cao nhất trong trích chọn collocations cho bộ dữ liệu đã được phân tích cú pháp, sử dụng phương pháp kết hợp cả bốn phương pháp lên tới khoảng 90%. Như vậy, phương pháp trích chọn collocations bằng cách kết hợp cả 4 phương pháp trên bộ dữ liệu đã được phân tích cú pháp có thể nói là hướng trích chọn collocations thích hợp nhất cho tiếng Việt.
24
Tuy nhiên cần phải chú ý là độ chính xác của chương trình cũng bị ảnh hưởng không nhỏ bởi độ chính xác của chương trình phân tích cú pháp và chương trình gán nhãn từ loại. Do vậy, lựa chọn một chương trình phân tích cú pháp phù hợp cũng làm ảnh hưởng không nhỏ tới độ chính xác chương trình
25
Chương 3. MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH
CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ
Các phương pháp được trình bày ở chương 2 chỉ có thể trích chọn được các collocations là bigrams. Song trên thực tế, collocations có dạng n-grams cũng xuất hiện khá thường xuyên trong các văn bản. Do vậy, một yêu cầu rất tự nhiên là trích chọn cả các collocations có dạng n-grams. Một phương pháp đơn giản được đề xuất có thể là trích chọn tất cả các n-grams trong tập dữ liệu để làm đầu vào cho các phương pháp thống kê nhằm trích chọn danh sách collcoations. Tuy nhiên, cách tiếp cận đó có độ phức tạp và thời gian tính toán khổng lồ. Chính vì vậy, khi corpus dữ liệu lớn, n lớn, việc trích chọn collocations là n-gram sử dụng phương pháp này là không thể thực hiện được và đặc biệt kém hiệu quả. Trong chương này, chúng tôi đề xuất một phương pháp trích chọn collocations có dạng bigram hoặc n-gram là cụm danh từ trong văn bản.
Phương pháp này xuất phát từ ý tưởng được sử dụng trong công cụ Xtract[19] được Frank Smadja trình bày vào năm 1993 và dựa chủ yếu trên nghiên cứu của Chouka, sử dụng các giả định thống kê dựa trên các đặc trưng của collocations kết hợp với sử dụng các thông tin về ngữ nghĩa. Cụ thể hơn, chúng tôi sẽ trích chọn các collocations có quan hệ ngữ pháp giữa các từ thành phần, và sẽ trích chọn các collocation có dạng n-gram xuất phát từ tập collocations có dạng bigram. Chương trình có thể trích chọn được các bigram liền nhau cũng như ngắt quãng, có thể trích chọn các collcations là bigram hay n-gram. Dữ liệu đầu vào của chương trình là một bộ dữ liệu đã được đi qua bộ phân tích cú pháp. Trong phạm vi luận văn này, chúng tôi sử dụng tập dữ liệu khoảng 300,000 câu đã được phân tích cú pháp, tương đương với khoảng 7,142,500 từ. Tuy nhiên, trong giới hạn của luận văn này, chúng tôi chỉ trích chọn các bigram là collocations có dạng N+A và N+N trong tiếng Việt và các n-gram collocations là cụm danh từ cố định. Do vậy, từ bộ dữ liệu đã được phân tích cú pháp, chúng tôi viết chương trình lọc các cụm danh từ. Các cụm danh từ này sẽ được sử dụng làm đầu vào cho chương trình trích chọn collocation trình bày bên dưới. Có khoảng 719,000 cụm danh từ đã được trích chọn từ tập dữ liệu văn bản gồm 300,000 câu. Quá trình trích chọn collocation được chia ra làm 2 giai đoạn chính. Kết quả của giai đoạn thứ nhất sẽ được đưa vào làm đầu vào của giai đoạn thứ hai. Giai đoạn thứ nhất có nhiệm vụ chiết xuất các collocation có dạng bigram sử dụng một số phép lọc và phép kiểm tra thống kê. Giai đoạn thứ hai có nhiệm vụ trích chọn các collocation có dạng n-gram từ các cặp bigram là kết quả của bước 1. Cụ thể hơn, so với mô hình thông thường, chúng tôi không giới hạn n mà chỉ giới hạn các câu dùng trong quá trình
26
trích chọn. Chúng tôi không sử dụng tất cả các câu đầu vào ở bước 1 để trích chọn