Kết quả thực nghiệm và đánh giá kết quả

Từ kho ngữ liệu đƣợc chuẩn bị ban đầu (VnExpress), trích ra đƣợc gần 2 triệu bigram. Sau khi thiết lập giá trị ngƣỡng, rút gọn đƣợc tập kết quả và thu đƣợc các bigram có khả năng cao nhất là collocation. Việc đánh giá các phƣơng pháp dựa trên một độ đo là độ chính xác. Cụ thể cách đánh giá nhƣ sau:

Tính bằng tay một tập dữ liệu test - bao gồm các bigram tốt nhất đƣợc đƣa ra bởi mỗi phƣơng pháp đang đƣợc đánh giá. Độ chính xác đƣợc tính theo công thức:

Trong đó, tử số là số lƣợng các bigram đúng là collocation nhận đƣợc từ phƣơng pháp, mẫu số là tổng số các collocation nhận đƣợc từ phƣơng pháp.

Phƣơng pháp Giá trị ngƣỡng Số lƣợng các collocation đúng nhận đƣợc từ phƣơng pháp Số lƣợng các collocation nhận đƣợc từ phƣơng pháp Độ chính xác (precision) Tần suất 100 854 6,013 14.20% Kiểm thử t 8.40 1,527 6,701 22.79% Kiểm thử khi- bình phƣơng 983,214.93 2,316 6,321 36.64% Tỷ lệ likelihood 205.10 1,481 6,032 24.55% Thông tin tƣơng hỗ 19.86 1,392 6,504 21.40%

Bảng 21. Đánh giá độ chính xác của các phƣơng pháp xác định collocation.

Trong các phƣơng pháp trên, phƣơng pháp Kiểm thử khi-bình phƣơng xem ra phù hợp nhất với kho ngữ liệu Tiếng Việt đƣợc sử dụng (độ chính xác cao nhất, đạt xấp xỉ 36.64%).

Nhận xét rằng, độ chính xác của các phƣơng pháp đã đƣợc đƣa ra thử nghiệm còn thấp, lý do có thể đƣợc giải thích một cách cảm tính nhƣ sau:

- Do ngƣời thực hiện phải đánh giá bằng tay để tìm ra các collocation trong tổng số hàng chục nghìn kết quả, và không có sự thẩm định lại của chuyên gia, nên khả năng lựa chọn mẫu còn chƣa chính xác.

- Bộ dữ liệu sử dụng trong thực nghiệm chƣa đủ lớn để bao phủ miền tiếng Việt. - Riêng đối với phƣơng pháp Tần suất, chƣa có bộ lọc từ loại Tiếng Việt để tối ƣu

kết quả thu đƣợc, nên trong miền dữ liệu rải rác ở các lĩnh vực khác nhau, phƣơng pháp Tần suất đã đƣa ra các collocation không tốt.

Bảng 22 liệt kê một số collocation với các số đo tƣơng ứng sau khi thu đƣợc từ thực nghiệm.

Collocation Tần suất Kiểm thử t Kiểm thử khi- bình phƣơng Tỷ lệ likelihood Thông tin tƣơng hỗ tay vợt 5,901 76.70 4,071,297.37 33,835.18 9.39 giải đấu 1,353 36.71 723,085.02 6,626.91 8.96 thị_trƣờng chứng_khoán 992 31.31 208,296.54 3,703.80 7.41 giám_đốc điều_hành 599 24.44 519,288.99 3,128.79 9.65 công_nghệ thông_tin 469 21.49 73,891.87 1,629.13 7.07 đội_tuyển quốc_gia 340 18.38 116,530.84 1,422.93 8.21 vũ_khí hạt_nhân 285 16.87 518,370.02 1,648.56 10.66

Kết luận

Collocation là một phần của Ngôn ngữ tự nhiên, việc Xử lý ngôn ngữ tự nhiên sẽ thuận lợi hơn nhiều nếu xác định đƣợc các collocation có ý nghĩa. Collocation đƣợc sử dụng trong một số ứng dụng nhƣ: dịch máy, sinh ngôn ngữ tự nhiên, tóm tắt văn bản, xây dựng từ điển... Chính vì vậy nghiên cứu các phƣơng pháp xác định collocation là một công việc rất đáng đƣợc quan tâm.

Do có nhiều sự nhập nhằng của ngôn ngữ tự nhiên, và chƣa có ranh giới phân biệt thực sự rõ ràng, nên khái niệm collocation vẫn còn mơ hồ, và rất dễ bị nhầm lẫn với các khái niệm về từ hoặc cụm từ khác.

Khóa luận này tiếp cận các vấn đề nói trên và nghiên cứu các phƣơng pháp thống kê phổ biến hiện nay cho việc xác định collocation, từ đó lựa chọn phƣơng pháp và thuật toán áp dụng vào Tiếng Việt.

Khóa luận đã đạt đƣợc những kết quả sau:

- Tìm ra các cách định nghĩa khác nhau về collocation.

- Phân tích các vấn đề xung quanh bài toán xác định collocation.

- Bàn về các phƣơng pháp thống kê đang đƣợc sử dụng phổ biến để xác định collocation.

- Khái niệm collocation trong Tiếng Việt.

- Xây dựng chƣơng trình thực nghiệm, áp dụng các thuật toán xác định collocation trong Tiếng Việt.

Do giới hạn về thời gian cũng nhƣ kiến thức của ngƣời làm Khóa luận nên hiệu quả chƣơng trình thực nghiệm cho Tiếng Việt còn thấp. Hơn nữa, chƣơng trình chỉ thực hiện trích ra và tính toán thống kê cho các bigram. Hạn chế này cần đƣợc tiếp tục nghiên cứu và cải tiến để cho kết quả tìm kiếm collocation tốt hơn trong Tiếng Việt.

Tài liệu tham khảo

Tài liệu Tiếng Việt

[1] Hoàng Thị Châu. Vài nhận xét về quá trình tiêu chuẩn hoá tiếng Việt thể hiện qua

cách dùng từ địa phương trong sách vở, báo chí trước và sau Cách mạng Tháng Tám.

Tạp chí Ngôn ngữ, số 4 (1970), http://www.ngonngu.net.

[2] Mai Ngọc Chừ; Vũ Đức Nghiệu & Hoàng Trọng Phiến. Cơ sở ngôn ngữ học và tiếng Việt. Nxb Giáo dục, H., 1997.

[3] Nguyễn Thiện Giáp. Từ vựng học tiếng Việt. Nxb Giáo dục, H., 2002.

[4] Phạm Quỳnh. Bàn về sự dùng chữ nho trong văn học quốc ngữ. Nam Phong tạp chí, số 9 (1919), http://www.ngonngu.net.

[5] Báo điện tử VnExpress, http://vnexpress.net/

[6] Trung tâm ngôn ngữ học Việt Nam, Đặc điểm Tiếng Việt,

http://www.vietlex.com/vietnamese.htm.

Tài liệu Tiếng Anh

[7] Thanh Bon Nguyen, Thi Minh Huyen Nguyen, Laurent Romary, Xuan Luong Vu,

Lexical Descriptions For Vietnamese Language Processing, 2004,

http://www.vietlex.com/input/uploads/ALRWS2004-Paper007.pdf.

[8] Church Kenneth W., and Robert L. Mercer. 1993. Introduction to the special issue on

computational linguistics using large corpora. Computational Linguistics 19:1–24.

[9] Church Kenneth W., and William A. Gale. 1991. Concordances for parallel text.In Proceedings of the Seventh Annual Conference of the UW Centre for the NewOED and Text Research, pp. 40–62, Oxford.

[10] Church Kenneth W., and Patrick Hanks. 1989. Word association norms, mutual

information and lexicography. In ACL 27, pp. 76–83,

[11] Church Kenneth, William Gale, Patrick Hanks, and Donald Hindle. 1991. Using

statistics in lexical analysis. In Uri Zernik (ed.), Lexical Acquisition: Exploiting On-

Line Resources to Build a Lexicon, pp. 115–164. Hillsdale, NJ: LawrenceErlbaum. [12] Cover, Thomas M., and Joy A. Thomas. 1991. Elements of Information Theory.

New York: John Wiley & Sons.

[13] Dunning, Ted. 1993. Accurate methods for the statistics of surprise and

coincidence. Computational Linguistics 19:61–74.

[14] Gitsaki C., Daigaku N. and Taylor R. (2000). English collocations and their place

in the EFL, classroom available at:

http://www.hum.nagoyacu.ac.jp/~taylor/publications/collocations.html.

[15] Hodges, Julia, Shiyun Yie, Ray Reighart, and Lois Boggess. 1996. An automated

system that assists in the generation of document indexes. Natural Language

Engineering 2:137–160.

[16] Joachim Wermter Udo Hahn - Computerlinguistik, Friedrich-Schiller-Universität Jena - Fürsten graben 30, D-07743 Jena, Germany. Collocation extraction based on

modifiability statistics, http://www.aclweb.org/anthology-new/C/C04/C04-1141.pdf.

[17] Kostas Fragos, Yannis Maistros, Christos Skourlas. Extracting collocation in

modern Greek language, http://glotta.ntua.gr/nlp_lab/Fraggos/files/DiCofinal.pdf.

[18] Krenn and S. Evert. 2001. Can we do better than frequency? A case study on

extracting pp-verb collocations. In Proceedings of the ACL Workshop on

Collocations.

[19] Lin D. (1998). Extracting collocations from text corpora. In First Workshop on Computational Terminology, Montreal, Canada, Augaust,

http://www.cs.ualberta.ca/~lindek/papers/compterm.ps.

[20] Manning C. And Schütze H. (1999). Foudations of statistical Natural Language

Processing (fifth printing 2002). The MIT Press.

[21] Mood, Alexander M., Franklin A. Graybill, and Duane C. Boes. 1974. Introduction

[22] Raplph Grishman. Computational linguistic. Courant Institute of Mathematical Sciences, New Yourk University.

[23] Smadja, Frank A., and Kathleen R. McKeown. 1990. Automatically extracting and

representing collocations for language generation. In ACL 28, pp. 252–259,

http://www.ldc.upenn.edu/acl/P/P90/P90-1032.pdf.

[24] Smandja F. (1993). Retrieving collocations from text: Xtract. Computational Linguistics, 19(1):143-177, March.

[25] Smith A. David (2002). Detecting events with date and place information in

unstructured, http://perseus.mpiwg-berlin.mpg.de/Articles/datestat.pdf.

[26] Le Dieu Thu, On the analysis of large-scale datasets towards online contextual

advertising, Thesis in College of Technology, Viet Nam National University, 2008.

[27] Nguyen Cam Tu, Hidden topic discovery toward classification and clustering in

Vietnamese web documents, Master Thesis in College of Technology, Viet Nam

National University, 2008.

[28] Nguyen Cam Tu, JVnTextpro: A Java-based Vietnamese Text Processing Toolkit. [29] Distribution tables, http://www.statsoft.com/textbook/sttable.html

Phụ lục

Kết quả thực nghiệm và đánh giá kết quả

Kiểm thử Giả thuyết (Hypothesis testing)

Tỉ lệ likelihood (Likelihood ratio)