1. Trang chủ
  2. » Luận Văn - Báo Cáo

LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc

63 502 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 1,91 MB

Nội dung

Fn H ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ Phạm Thị Ngọc Bích NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ Phạm Thị Ngọc Bích NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hƣớng dẫn: Th.S Trần Thị Oanh Cán đồng hƣớng dẫn: CN Nguyễn Minh Tuấn HÀ NỘI - 2009 Lời cảm ơn Trƣớc hết, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới Phó Giáo sƣ Tiến sỹ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh Cử nhân Nguyễn Minh Tuấn, ngƣời tận tình quan tâm, bảo hƣớng dẫn tơi suốt q trình thực Khóa luận tốt nghiệp Tơi xin chân thành cảm ơn thầy cô tạo cho điều kiện thuận lợi để học tập nghiên cứu Trƣờng Đại học Công nghệ Tôi xin gửi lời cảm ơn tới anh chị SIS Lab tận tình giúp đỡ, hỗ trợ cho tơi kiến thức chuyên môn Cuối cùng, muốn gửi lời cảm ơn tới gia đình, bạn bè, ngƣời thân yêu bên cạnh động viên, nguồn cổ vũ để tơi hồn thành Khóa luận tốt nghiệp Tơi xin chân thành cảm ơn! Sinh viên Phạm Thị Ngọc Bích Tóm tắt nội dung Collocation cụm từ (gồm hai hay nhiều từ) thƣờng đƣợc sử dụng với Bài toán xác định collocation kho ngữ liệu nhận đƣợc nhiều quan tâm, nghiên cứu nhà khoa học giới Có nhiều phƣơng pháp để giải toán này, song nay, phƣơng pháp thống kê đƣợc sử dụng phổ biến ngƣời làm lĩnh vực Xử lý ngơn ngữ tự nhiên Khóa luận tốt nghiệp với đề tài “Nghiên cứu toán xác định collocation Tiếng Việt” tập trung nghiên cứu số phƣơng pháp thống kê điển hình (Tần suất, Kỳ vọng phƣơng sai, Kiểm thử t, Kiểm thử khi-bình phƣơng, Tỷ lệ likehood, Thơng tin tƣơng hỗ) để trích chọn collocation Khóa luận tiến hành thử nghiệm xác định collocation tiếng Việt cho kết tƣơng ứng với phƣơng pháp kiểm thử thống kê nói Thơng qua kết thử nghiệm, Khóa luận nhận thấy phƣơng pháp Kiểm thử khibình phƣơng phù hợp để xác định collocation tiếng Việt Mục lục Lời mở đầu Chƣơng TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH COLLOCATION 1.1 Khái niệm collocation 1.1.1 Định nghĩa collocation 1.1.2 Đặc trƣng collocation 1.2 Collocation ứng dụng Xử lý ngôn ngữ tự nhiên Chƣơng CÁC PHƢƠNG PHÁP XÁC ĐỊNH COLLOCATION 2.1 Phƣơng pháp Tần suất (Frequency) 2.2 Phƣơng pháp Kỳ vọng Phƣơng sai (Mean & Variance) 11 2.3 Kiểm thử Giả thuyết (Hypothesis testing) 16 2.3.1 Kiểm thử t (t test) 17 2.3.2 Kiểm thử Giả thuyết để đo khác biệt hai tập hợp (Hypothesis testing of differences) 19 2.4 Kiểm thử khi-bình phƣơng (Pearson’s chi-square test) 21 2.5 Các tỉ lệ likelihood (Likelihood ratios) 26 2.5.1 Tỉ lệ likelihood (Likelihood ratio) 26 2.5.2 Các tỉ lệ tần suất tƣơng đối (Relative Frequency Ratios) 29 2.6 Thông tin tƣơng hỗ MI (Mutual information) 30 Chƣơng COLLOCATION TRONG TIẾNG VIỆT 36 3.1 Đặc điểm từ vựng Tiếng Việt 36 3.1.1 Đơn vị cấu tạo từ 36 3.1.2 Phƣơng thức cấu tạo từ 36 3.1.3 Biến thể từ 37 3.1.4 Những trình diễn phát triển từ vựng Tiếng Việt 38 3.2 Khái niệm collocation Tiếng Việt 40 3.3 Bài toán xác định collocation Tiếng Việt 41 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ 44 4.1 Dữ liệu thực nghiệm 44 4.1.1 Chuẩn bị liệu 44 4.1.2 Tiền xử lý liệu 44 4.2 Thiết kế thực nghiệm 45 4.2.1 Phƣơng pháp thực nghiệm 45 4.3 Kết thực nghiệm đánh giá kết 46 Kết luận 49 Tài liệu tham khảo 50 Tài liệu Tiếng Việt 50 Tài liệu Tiếng Anh 50 Phụ lục 53 Bảng phân phối t 53 Bảng phân phối 54 Danh sách bảng Bảng Tìm kiếm collocation dựa vào tần suất Bảng Các mẫu từ loại dùng cho việc lọc collocation Bảng Tìm kiếm collocation: lọc từ loại Justeson Katz Bảng Các danh từ w xuất thƣờng xuyên mẫu strong w powerful w 10 Bảng Tìm kiếm collocation dựa vào Kỳ vọng phƣơng sai 15 Bảng Xếp hạng 10 bigram xuất với tần suất 20 với Kiểm thử t 19 Bảng Kiểm thử giả thuyết để đo khác biệt hai tập hợp: từ xuất có ý nghĩa với powerful strong 20 Bảng Bảng 2x2 phụ thuộc xuất new companies 22 Bảng Tƣơng ứng vache cow hai kho ngữ liệu xếp tƣơng ứng 25 Bảng 10 Phép thử cho độc lập từ kho ngữ liệu khác nhau, sử dụng 25 Bảng 11 Cách tính tốn giá trị likelihood Dunning 27 Bảng 12 Các bigram có chứa powerful với hạng cao theo phép thử likelihood ratio Dunning 28 Bảng 13 Phép thử tỉ lệ tần suất Damerau 30 Bảng 14 Tìm kiếm collocation dựa vào thông tin tƣơng hỗ 31 Bảng 15 Sự phù hợp chambre house, communes house kho ngữ liệu 32 Bảng 16 Thông tin tƣơng hỗ từ liệu rải rác 33 Bảng 17 Các định nghĩa khác thông tin tƣơng hỗ 35 Bảng 18 Các collocation có giá trị khi-bình phƣơng cao 43 Bảng 19 Cấu hình phần cứng sử dụng thực nghiệm 45 Bảng 20 Giá trị ngƣỡng cho phƣơng pháp xác định collocation 46 Bảng 21 Đánh giá độ xác phƣơng pháp xác định collocation 47 Bảng 22 Một số collocation thu đƣợc từ thực nghiệm 48 Danh sách hình Hình Sử dụng cửa sổ collocation từ để lấy đƣợc bigram khoảng cách 12 Hình Biểu đồ tần suất biểu diễn vị trí tƣơng đối strong với “từ trung tâm”: opposition, support, for 14 Hình Phân loại cụm từ cố định Tiếng Việt 41 Lời mở đầu Collocation có ích nhiều ứng dụng Xử lý ngơn ngữ tự nhiên, ví dụ nhƣ sinh ngơn ngữ tự nhiên, dịch tự động, tóm tắt văn xây dựng từ điển [17] Chính tầm quan trọng collocation, nên ngƣời ta đặt vấn đề làm để xác định collocation kho ngữ liệu Có nhiều phƣơng pháp để giải tốn xác định collocation, có phƣơng pháp xác định dựa vào thống kê Phƣơng pháp thống kê sử dụng kỹ thuật toán học khác kho ngữ liệu lớn để mở rộng xấp xỉ mơ hình suy rộng tƣợng ngơn ngữ, dựa ví dụ thực tế tƣợng ngôn ngữ đƣợc cung cấp kho ngữ liệu mà không bổ sung vào thành phần tri thức khác Khóa luận với đề tài “Nghiên cứu tốn xác định collocation Tiếng Việt” tập trung nghiên cứu collocation, phƣơng pháp xác định collocation từ ngôn ngữ khác lựa chọn phƣơng pháp, thi hành chƣơng trình thực nghiệm để kiểm chứng tính khả thi chúng kho ngữ liệu Tiếng Việt Khóa luận gồm bốn chƣơng, nội dung đƣợc mô tả sơ nhƣ sau: Chƣơng Tổng quan toán xác định collocation giới thiệu khái niệm collocation, đặc trƣng collocation Chƣơng nêu lên tầm quan trọng nhƣ ứng dụng collocation lĩnh vực Xử lý ngôn ngữ tự nhiên Chƣơng Các phương pháp xác định collocation phân tích phƣơng pháp thống kê đƣợc sử dụng phổ biến để xác định collocation, số đánh giá ƣu nhƣợc điểm nhƣ mức độ phù hợp phƣơng pháp loại collocation liệu khác Chƣơng Collocation Tiếng Việt trình bày đặc điểm Tiếng Việt, khái niệm collocation Tiếng Việt phát biểu Bài toán xác định collocation Tiếng Việt Chƣơng Thực nghiệm đánh giá trình bày nội dung thử nghiệm sử dụng phƣơng pháp Tần suất (Frequency), Kiểm thử t (t test), Kiểm thử khibình phương (chi-square test), Tỉ lệ likelihood (Likelihood ratio), Thông tác phẩm văn học sau này, nói chung, từ thƣờng dùng, có tần suất sử dụng cao [1] Trong q trình phát triển từ vựng tiếng Việt, nhiều từ địa phƣơng đƣợc thu hút vào vốn từ toàn dân, làm giàu thêm cho ngơn ngữ văn hố tồn dân Đó từ ngữ sản vật địa phƣơng, từ ngữ nghề nghiệp riêng từ vựng, chẳng hạn: lúa vào sữa, lúa toát địng, lợn kéo xác, mạ ngồi, ngơ xốy uốn, tằm ăn rỗi 3.2 Khái niệm collocation Tiếng Việt Theo nhƣ cách dịch từ điển Anh – Việt, Collocation nghĩa “sự xếp vào chỗ, đặt theo thứ tự” Trong lĩnh vực ngơn ngữ, collocation hiểu nơm na “(cách) dùng từ, (cách) kết hợp từ” Tiếng Việt có khái niệm gần với ý nghĩa từ collocation, cụm từ cố định Cụm từ cố định đơn vị số từ hợp lại, tồn với tƣ cách đơn vị có sẵn nhƣ từ, có thành tố cấu tạo ngữ nghĩa ổn định nhƣ từ [2] Nghĩa cụm từ cố định đƣợc xây dựng tổ chức theo lối tổ chức nghĩa cụm từ, nói chung mang tính hình tƣợng Chính vậy, vào bề mặt, vào nghĩa thành tố cấu tạo nói chung khơng thể hiểu đƣợc đích thực tồn cụm từ Ví dụ: anh hùng rơm, đồng khơng mơng quạnh, tiếng bấc tiếng chì… Thêm nữa, cụm từ cố định có ý nghĩa nhƣ chỉnh thể tƣơng ứng với chỉnh thể cấu trúc vật chất Có nghĩa có tính thành ngữ cao, ví dụ, chỉnh thể ý nghĩa cụm từ cố định: rán sành mỡ, méo miệng địi ăn xơi vị, say điếu đổ… có tính thành ngữ cao đến mức tối đa Cụm từ cố định cần đƣợc phân biệt với đơn vị lân cận, dễ lầm lẫn với chúng, từ ghép cụm từ tự Nếu tạm thời chấp nhận tên gọi mà chƣa xác định nội dung khái niệm chúng, tóm tắt tranh phân loại cụm từ cố định Tiếng Việt nhƣ sau [1]: 40 Hình Phân loại cụm từ cố định Tiếng Việt Việc phân loại cụm từ cố định tiếng Việt vạch ranh giới tuyệt đối loại, đơn vị loại thể thuộc tính khiết loại Có đơn vị trung gian đƣợc cấu tạo theo lối thành ngữ nhƣng tính tự do, ổn định cịn rõ nét Có đơn vị đạt đƣợc tính thành ngữ cao nhƣng tính bền chắc, tính chỉnh thể cấu trúc lại ổn định Nghĩa số thành tố cấu tạo nên chúng tăng hay giảm đƣợc cách tuỳ nghi 3.3 Bài toán xác định collocation Tiếng Việt Khái niệm collocation cụm từ cố định Tiếng Việt gần nhau, nhƣng với Bài toán xác định collocation Tiếng Việt, collocation đƣợc hiểu theo nghĩa rộng cụm từ cố định Bắt nguồn từ đặc trƣng collocation (cụm từ gồm hai hay nhiều từ thƣờng xuyên xuất hiện), Bài toán xác định collocation Tiếng Việt trở thành tốn trích chọn n-gram gồm nhiều từ thƣờng xuyên xuất với Collocation Bài toán xác định collocation Tiếng Việt bao gồm: từ ghép, cụm từ cố định, hay chí cụm từ tự chúng xuất với tần suất lớn kho ngữ liệu Từ 20 năm trƣớc, lĩnh vực Xử lý ngôn ngữ tự nhiên đạt đƣợc nhiều thành tựu (nhƣ gán nhãn từ loại, phát chủ đề, thu hồi thông tin ) Tuy nhiên, hầu hết cơng trình đƣợc thực cho ngơn ngữ phƣơng Tây giá trị chúng bị mát tƣơng đối đƣợc áp dụng vào ngôn ngữ khác [7] Chỉ gần đây, nhà nghiên cứu Việt Nam bắt đầu bị thu hút vào lĩnh vực Xử lý ngơn ngữ tự nhiên Nên có cơng trình nghiên cứu thức ngơn ngữ học với chuẩn từ loại Tiếng Việt, cơng trình phân tích văn Tiếng Việt sở nhƣ gán nhãn từ loại, phân tích cú pháp đƣợc đƣa Những kho ngữ liệu cần 41 thiết đƣợc xây dựng không theo tiêu chuẩn định, hầu nhƣ khơng có tài nguyên đƣợc chia sẻ công khai [7] Đây khó khăn cho ngƣời khơng chun muốn tìm hiểu, nghiên cứu lĩnh vực Trong Luận văn Cao học Thạc sỹ Nguyễn Cẩm Tú [27] (về vấn đề Phát chủ đề ẩn cho việc phân lớp phân cụm tài liệu web tiếng Việt), sinh nhãn dựa vào Ngram testing để trích cụm từ có ý nghĩa (hay collocation) từ n-gram sở phép thử thống kê Luận văn có kể đến tên vài phƣơng pháp thống kê để xác định collocation, nhƣ Đo thông tin tƣơng hỗ (mutual information), kỹ thuật Kiểm thử Giả thuyết (hypothesis testing technologies), Giả thuyết Không (null hypothesis) tính độc lập từ n-gram các cách Kiểm thử để kiểm tra tính hợp lệ Giả thuyết Khơng Trong đó, tác giả sử dụng phƣơng pháp Kiểm thử Giả thuyết với n-gram (n

Ngày đăng: 27/06/2014, 22:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Mai Ngọc Chừ; Vũ Đức Nghiệu & Hoàng Trọng Phiến. Cơ sở ngôn ngữ học và tiếng Việt. Nxb Giáo dục, H., 1997 Sách, tạp chí
Tiêu đề: Cơ sở ngôn ngữ học và tiếng Việt
Nhà XB: Nxb Giáo dục
[4] Phạm Quỳnh. Bàn về sự dùng chữ nho trong văn học quốc ngữ. Nam Phong tạp chí, số 9 (1919), http://www.ngonngu.net Sách, tạp chí
Tiêu đề: Bàn về sự dùng chữ nho trong văn học quốc ngữ
Tác giả: Phạm Quỳnh. Bàn về sự dùng chữ nho trong văn học quốc ngữ. Nam Phong tạp chí, số 9
Năm: 1919
[6] Trung tâm ngôn ngữ học Việt Nam, Đặc điểm Tiếng Việt, http://www.vietlex.com/vietnamese.htm.Tài liệu Tiếng Anh Sách, tạp chí
Tiêu đề: Đặc điểm Tiếng Việt
[7] Thanh Bon Nguyen, Thi Minh Huyen Nguyen, Laurent Romary, Xuan Luong Vu, Lexical Descriptions For Vietnamese Language Processing, 2004, http://www.vietlex.com/input/uploads/ALRWS2004-Paper007.pdf Sách, tạp chí
Tiêu đề: Lexical Descriptions For Vietnamese Language Processing
[8] Church Kenneth W., and Robert L. Mercer. 1993. Introduction to the special issue on computational linguistics using large corpora. Computational Linguistics 19:1–24 Sách, tạp chí
Tiêu đề: Introduction to the special issue on computational linguistics using large corpora
[9] Church Kenneth W., and William A. Gale. 1991. Concordances for parallel text.In Proceedings of the Seventh Annual Conference of the UW Centre for the NewOED and Text Research, pp. 40–62, Oxford Sách, tạp chí
Tiêu đề: Concordances for parallel text
[10] Church Kenneth W., and Patrick Hanks. 1989. Word association norms, mutual information and lexicography. In ACL 27, pp. 76–83, http://www.ldc.upenn.edu/acl/J/J90/J90-1003.pdf Sách, tạp chí
Tiêu đề: Word association norms, mutual information and lexicography
[11] Church Kenneth, William Gale, Patrick Hanks, and Donald Hindle. 1991. Using statistics in lexical analysis. In Uri Zernik (ed.), Lexical Acquisition: Exploiting On- Line Resources to Build a Lexicon, pp. 115–164. Hillsdale, NJ: LawrenceErlbaum Sách, tạp chí
Tiêu đề: Using statistics in lexical analysis
[12] Cover, Thomas M., and Joy A. Thomas. 1991. Elements of Information Theory. New York: John Wiley & Sons Sách, tạp chí
Tiêu đề: Elements of Information Theory
[13] Dunning, Ted. 1993. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics 19:61–74 Sách, tạp chí
Tiêu đề: Accurate methods for the statistics of surprise and coincidence
[14] Gitsaki C., Daigaku N. and Taylor R. (2000). English collocations and their place in the EFL, classroom available at:http://www.hum.nagoyacu.ac.jp/~taylor/publications/collocations.html Sách, tạp chí
Tiêu đề: English collocations and their place "in the EFL
Tác giả: Gitsaki C., Daigaku N. and Taylor R
Năm: 2000
[15] Hodges, Julia, Shiyun Yie, Ray Reighart, and Lois Boggess. 1996. An automated system that assists in the generation of document indexes. Natural Language Engineering 2:137–160 Sách, tạp chí
Tiêu đề: An automated system that assists in the generation of document indexes
[16] Joachim Wermter Udo Hahn - Computerlinguistik, Friedrich-Schiller-Universitọt Jena - Fürsten graben 30, D-07743 Jena, Germany. Collocation extraction based on modifiability statistics, http://www.aclweb.org/anthology-new/C/C04/C04-1141.pdf Sách, tạp chí
Tiêu đề: Collocation extraction based on modifiability statistics
[17] Kostas Fragos, Yannis Maistros, Christos Skourlas. Extracting collocation in modern Greek language, http://glotta.ntua.gr/nlp_lab/Fraggos/files/DiCofinal.pdf Sách, tạp chí
Tiêu đề: Extracting collocation in modern Greek language
[18] Krenn and S. Evert. 2001. Can we do better than frequency? A case study on extracting pp-verb collocations. In Proceedings of the ACL Workshop on Collocations Sách, tạp chí
Tiêu đề: Can we do better than frequency? A case study on extracting pp-verb collocations
[19] Lin D. (1998). Extracting collocations from text corpora. In First Workshop on Computational Terminology, Montreal, Canada, Augaust, http://www.cs.ualberta.ca/~lindek/papers/compterm.ps Sách, tạp chí
Tiêu đề: Extracting collocations from text corpora
Tác giả: Lin D
Năm: 1998
[20] Manning C. And Schütze H. (1999). Foudations of statistical Natural Language Processing (fifth printing 2002). The MIT Press Sách, tạp chí
Tiêu đề: Foudations of statistical Natural Language Processing
Tác giả: Manning C. And Schütze H
Năm: 1999
[21] Mood, Alexander M., Franklin A. Graybill, and Duane C. Boes. 1974. Introduction to the theory of statistics. New York: McGraw-Hill. 3rd edition Sách, tạp chí
Tiêu đề: Introduction to the theory of statistics
[22] Raplph Grishman. Computational linguistic. Courant Institute of Mathematical Sciences, New Yourk University Sách, tạp chí
Tiêu đề: Computational linguistic
[23] Smadja, Frank A., and Kathleen R. McKeown. 1990. Automatically extracting and representing collocations for language generation. In ACL 28, pp. 252–259, http://www.ldc.upenn.edu/acl/P/P90/P90-1032.pdf Sách, tạp chí
Tiêu đề: Automatically extracting and representing collocations for language generation

HÌNH ẢNH LIÊN QUAN

Bảng 4 liệt kê hai mươi cụm từ hạng cao nhất có chứa strong và  powerful có dạng - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 4 liệt kê hai mươi cụm từ hạng cao nhất có chứa strong và powerful có dạng (Trang 18)
Bảng 4.  Các danh từ w xuất hiện thường xuyên nhất trong các mẫu strong w và  powerful w - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 4. Các danh từ w xuất hiện thường xuyên nhất trong các mẫu strong w và powerful w (Trang 19)
Hình 1.  Sử dụng cửa sổ collocation 3 từ để lấy đƣợc các bigram ở một khoảng  cách. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Hình 1. Sử dụng cửa sổ collocation 3 từ để lấy đƣợc các bigram ở một khoảng cách (Trang 21)
Hình 2 là ví dụ minh họa phân bổ về khoảng cách của một từ đối với một từ khác (từ - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Hình 2 là ví dụ minh họa phân bổ về khoảng cách của một từ đối với một từ khác (từ (Trang 22)
Hình 2.  Biểu đồ tần suất biểu diễn vị trí tương đối của strong với các “từ  trung tâm”: opposition, support, for - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Hình 2. Biểu đồ tần suất biểu diễn vị trí tương đối của strong với các “từ trung tâm”: opposition, support, for (Trang 23)
Hình 2c. Sự xuất hiện của strong cùng với for là một phân bổ đều hơn. Có xu hướng - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Hình 2c. Sự xuất hiện của strong cùng với for là một phân bổ đều hơn. Có xu hướng (Trang 24)
Bảng 6.  Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 6. Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t (Trang 28)
Bảng 7.  Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất  hiện có ý nghĩa với powerful và strong - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 7. Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất hiện có ý nghĩa với powerful và strong (Trang 29)
Bảng 8.  Bảng 2x2 chỉ ra sự phụ thuộc của sự xuất hiện new và companies. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 8. Bảng 2x2 chỉ ra sự phụ thuộc của sự xuất hiện new và companies (Trang 31)
Bảng 9.  Tương ứng của vache và cow trong hai kho ngữ liệu đã sắp xếp tương  ứng. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 9. Tương ứng của vache và cow trong hai kho ngữ liệu đã sắp xếp tương ứng (Trang 34)
Bảng 11.  Cách tính toán giá trị likelihood của Dunning. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 11. Cách tính toán giá trị likelihood của Dunning (Trang 36)
Bảng 12.  Các bigram có chứa powerful với hạng cao nhất theo phép thử - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 12. Các bigram có chứa powerful với hạng cao nhất theo phép thử (Trang 37)
Bảng 13.  Phép thử tỉ lệ tần suất của Damerau. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 13. Phép thử tỉ lệ tần suất của Damerau (Trang 39)
Bảng 14.  Tìm kiếm collocation dựa vào thông tin tương hỗ. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 14. Tìm kiếm collocation dựa vào thông tin tương hỗ (Trang 40)
Bảng 15.  Sự phù hợp của chambre và house, communes và house trong kho ngữ  liệu. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 15. Sự phù hợp của chambre và house, communes và house trong kho ngữ liệu (Trang 41)
Bảng 16.  Thông tin tương hỗ từ các dữ liệu rải rác. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 16. Thông tin tương hỗ từ các dữ liệu rải rác (Trang 42)
Hình 3.  Phân loại cụm từ cố định Tiếng Việt. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Hình 3. Phân loại cụm từ cố định Tiếng Việt (Trang 50)
Bảng 18.  Các collocation có giá trị khi-bình phương cao nhất. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 18. Các collocation có giá trị khi-bình phương cao nhất (Trang 52)
Bảng 19.  Cấu hình phần cứng sử dụng trong thực nghiệm. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 19. Cấu hình phần cứng sử dụng trong thực nghiệm (Trang 54)
Bảng 20.  Giá trị ngưỡng cho các phương pháp xác định collocation. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 20. Giá trị ngưỡng cho các phương pháp xác định collocation (Trang 55)
Bảng 21.  Đánh giá độ chính xác của các phương pháp xác định collocation. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 21. Đánh giá độ chính xác của các phương pháp xác định collocation (Trang 56)
Bảng 22.  Một số collocation thu đƣợc từ thực nghiệm. - LUẬN VĂN:NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT doc
Bảng 22. Một số collocation thu đƣợc từ thực nghiệm (Trang 57)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w