Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 106 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
106
Dung lượng
907,6 KB
Nội dung
Luận văn tôt nghiệp ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN VĂN TRÍ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO HƯỚNG XÁC SUẤT Chun ngành : Cơng nghệ thơng tin Mã số nghành : 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 02 năm 2007 Luận văn tơt nghiệp MỤC LỤC CHƯƠNG PHÁT BIỂU VẤN ĐỀ 1.1 Đặt vấn đề 1.2 Những đóng góp đề tài 1.3 Hướng nghiên cứu 1.4 Cấu trúc luận văn 1.5 Qui ước thuật ngữ ký hiệu CHƯƠNG 11 TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN 11 2.1 Những kết cơng trình nghiên cứu nước 11 2.2 Những kết cơng trình nghiên cứu ngồi nước 11 CHƯƠNG 13 VĂN PHẠM TIẾNG VIỆT VÀ QUÁ TRÌNH CHUYỂN ĐỔI CÚ PHÁP TỪ NGÔN NGỮ TIẾNG ANH SANG TIẾNG VIỆT 13 3.1 Ngôn ngữ tự nhiên 13 3.2 Văn phạm cấu trúc ngữ pháp[22] 13 3.3 Một số điểm cú pháp khác ngôn ngữ Anh - Việt [22] 19 3.4 Ánh xạ cú pháp, luật sinh từ tiếng Anh sang tiếng Việt [22] 21 3.5 Một số vấn đề cú pháp chuyển đổi luật sinh tiếng Việt 26 3.5.1 Một số vấn đề cú pháp 26 3.5.2 Một số vấn đề chuyển đổi luật sinh tiếng Việt [22] 26 CHƯƠNG 28 CƠ SỞ LÝ THUYẾT PHÂN TÍCH CÚ PHÁP THEO PHƯƠNG PHÁP THỐNG KÊ 28 4.1 Lý thuyết xác suất 28 4.1.1 Xác suất 28 4.1.2 Xác suất ngôn ngữ 29 4.1.3 Thơng số ước đốn khả xảy lớn (MLE) 29 4.1.4 Corpus – database ngôn ngữ 29 4.1.5 Penn treebank 30 4.1.6 Văn phạm phi ngữ cảnh có xác suất (PCFG) 36 4.2 Một số giải thuật phân tích cú pháp xác suất 37 4.2.1 Giải thuật CKY(Cocke,Kasami, Younger) mở rộng, CKY+ 37 4.2.2 Giải thuật Best-First Parsing 38 4.2.3 Giải thuật ViterbiPCFGParser 39 4.3.4 Giải thuật stack decoding 40 4.3.5 Giải thuật phân tích tìm kiếm A* 40 CHƯƠNG 42 THIẾT KẾ VÀ THỰC HIỆN ĐỀ TÀI 42 5.1 Mơ hình thiết kế đề tài 42 5.1.1 Phân tích Peen treebank xây dựng tập luật sinh cho tiếng Việt 42 Luận văn tôt nghiệp 5.1.2 Phân tích cú pháp tiếng Việt theo phương pháp thống kê 46 5.1.3 Pháp phân tích cú pháp theo phương pháp thống giải nhập nhằng 47 5.1.4 Lựa chọn biểu diễn cho (Tree representation) để tối ưu mơ hình 47 5.1.5 Mơ hình thống kê 49 5.2 Một số giải thuật phương pháp đánh giá hiệu suất 50 5.2.1 Rút trích câu, từ loại đồng thời tạo loại bỏ nút treebank 50 5.2.2 Gán thông tin nút cha (parent annotation) lên nguyên thủy 51 5.2.3 Nhận diện chuyển đổi cú pháp 54 5.2.4 Chuyển đổi luật sinh dạng right_branching_ binary 55 5.2.5 Thống kê xây dựng tập huấn luyện PCFG 56 5.2.6 Giải thuật phân tích cú pháp tìm có xác suất cao 57 5.2.6 Kiểm tra phù hợp phân tích cú pháp kết chuyển dạng phù hợp với treebank 59 5.2.7 Đánh giá hiệu suất [11][20] 59 5.3 Demo chương trình 61 CHƯƠNG 71 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 71 6.1 Kết luận 71 6.2 Những vấn đề đạt 71 6.3 Những vấn chưa đạt 72 6.4 Hướng phát triển 73 THAM KHẢO 75 DANH MỤC HÌNH 77 DANH MỤC CÁC BẢNG 78 PHỤ LỤC A 79 PHỤ LỤC B 90 PHỤ LỤC C 101 Luận văn tôt nghiệp CHƯƠNG PHÁT BIỂU VẤN ĐỀ 1.1 Đặt vấn đề Ngày nay, máy tính ứng dụng vào lĩnh vực đời sống kinh tế xã hội Nhưng vấn đề xử lý ngôn ngữ tự nhiên, cách để máy tính hiểu ngơn ngữ, xử lý ứng dụng ngơn ngữ thách thức lớn cho nhà khoa học Xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy (MT: Machine Translation), nhận dạng tiếng nói (SR: Speech Recognition), tìm kiếm ngơn ngữ tự nhiên (NLQ: Nature Language Querying), bắt lỗi tả (SC: Spelling Correction), v.v… Trong lĩnh vực trên, phân tích cú pháp vấn đề đóng vai trị quan trọng tiến trình xử lý cho ngôn ngữ máy ngôn ngữ tự nhiên Những ứng dụng xử lý ngôn ngữ tự nhiên dịch máy, rút trích thơng tin, nhận dạng văn bản, bắt lỗi tả,… đạt chất lượng cao có hệ thống phân tích cú pháp có độ xác cao Từ quan điểm trên, tìm hiểu phương pháp phân tích cú pháp tốt điều cần thiết Một khó khăn phân tích cú pháp “nhập nhằng” (ambiguity) Sự nhập nhằng xảy phân tích cú pháp cho kết nhiều phân tích với câu nhập Những giải thuật phân tích cú pháp hầu hết phát triển vào năm 1960 ứng dụng nhiều xử lý ngôn ngữ tự nhiên Tuy nhiên, “nhập nhằng” ngôn ngữ tự nhiên chưa giải Hầu hết giải thuật phụ thuộc vào tồn khơng gian tìm kiếm để tìm diễn dịch phù hợp với câu phân tích Nếu có giải nhập nhằng cách đưa yếu tố từ bên vào lại khó thực tốn Luận văn tôt nghiệp nhiều thời gian Các phương pháp phân tích trước thường cho kết nhiều phân tích Những năm gần đây, việc áp dụng xác suất để giải nhập nhằng phân tích cú pháp ngày phát triển mạnh mẽ có nhiều triển vọng nhờ corpus - kho liệu ngơn ngữ tự nhiên có sẵn Với mơ hình phân tích xác suất - xác suất gán vào phân tích cú pháp - chọn kết phân tích phù hợp (có xác suất cao nhất) cho câu nhập Tuy nhiên, ứng dụng đươc thử nghiệm cho ngơn ngữ tiếng Anh, Pháp, … cịn ngơn ngữ tiếng Việt chưa có cơng trình cơng bố lĩnh vực nghiên cứu Với mục tiêu nghiên cứu phát triển ứng dụng nhằm hỗ trợ cho việc xử lý phân tích cú pháp cho ngơn ngữ tiếng Việt máy tính, tác giả chọn đề tài “Phân tích cú pháp tiếng Việt theo hướng xác suất (Probabilistic Parsing)” Đây lĩnh vực mẽ đòi hỏi phải có trợ giúp nhiều nhà ngơn ngữ học Để thực thành công đề tài trước hết phải xây dựng kho liệu corpus Treebank cho tiếng Việt Việc xây dựng kho liệu cho tiếng Việt địi hỏi phải có nhiều thời gian cơng sức đồng thời thuộc lĩnh vực nghiên cứu nhà ngôn ngữ học, điều ngồi khả tác giả Hiện chưa có kho liệu treebank cho tiếng Việt, để thực đề tài tác giả sử dụng Penn treebank tiếng Anh dựa tương đồng không tương đồng ngôn ngữ Anh - Việt chuyển Penn treebank thành tập luật sinh cú pháp tiếng Việt với giúp đỡ chuyên gia dịch thuật Luận văn tôt nghiệp 1.2 Những đóng góp đề tài Đề tài nhằm hướng tới mục tiêu sau: Nghiên cứu văn phạm tiếng Việt để tìm khác biệt cú pháp hai ngôn ngữ tiếng Việt tiếng Anh Nghiên cứu xây dựng luật sinh, từ loại cho tiếng Việt từ Penn treebank có sẵn Dựa tập luật sinh tiếng Anh nghiên cứu phương pháp chuyển đổi cú pháp sang tập luật sinh tiếng Việt Nghiên cứu phương pháp chuẩn hóa hồn thiện giải thuật huấn luyện để tạo tập luật sinh có xác suất Sử dụng tập luật sinh tiếng Việt lựa chọn giải thuật phân tích cú pháp xác suất để thực phân tích cú pháp cho câu tiếng Việt Xây dựng chương trình để phân tích cú pháp số câu tiếng Việt đơn giản đánh giá kết 1.3 Hướng nghiên cứu Phân tích cú pháp theo phương pháp xác suất ứng dụng cho tiếng Việt, người sử dụng nhập vào câu tiếng Việt, qua loạt thao tác xử lý cho kết cú pháp phù hợp với câu nhập, nói cách khác có xác suất cao Để giải vấn đề này, cần phải có kho liệu treebank cho tiếng Việt, Việt Nam chưa có kho liệu treebank cơng bố Chính khó khăn đó, để có treebank cho tiếng Việt phục vụ cho việc thực đề tài, tác giải chọn hướng nghiên cứu tìm hiểu đối sánh ngôn ngữ tiếng Việt tiếng Anh Sau đó, dựa tương đồng ngữ nghĩa, cú pháp hai ngơn ngữ này, với treebank sẳn có cho tiếng Anh tác giả xây dựng công cụ chuyển đổi thành treebank tập luật sinh theo cú pháp tiếng Luận văn tôt nghiệp Việt đồng thời nhờ trợ giúp chuyên gia dịch thuật, chuyển tập từ vựng tiếng Anh treebank sang tiếng Việt theo từ loại Q trình triển khai phát triển đề tài mơ hình hóa theo sơ đồ sau: Penn Treebank Cơng cụ rút trích tạo tập luật Tập câu Chuyên gia dịch thuật Bảng từ loại Tập câu Test tiếng Việt Tập luật sinh Công cụ chuyển đổi cú pháp Tập luật sinh tiếng Việt Huấn luyện Tập luật sinh có xác suất Tập câu Test tiếng Việt Lexicon Bộ phân tích cú pháp xác suất Lexicon Cây cú pháp với xác suất cao Hình 1: Mơ hình hóa q trình phân tích cú pháp tiếng Việt Luận văn tơt nghiệp Từ Penn treebank sẵn có, thơng qua cơng cụ rút trích tạo tập luật cho tập câu, bảng từ loại tập luật sinh - Tập luật sinh: Thông qua công cụ chuyển đổi cú pháp chuyển tập luật sinh sang tập luật sinh tiếng Việt Từ tập luật sinh tiếng Việt, thông qua công cụ huấn luyện cho tập luật sinh có xác suất tiếng Việt - Tập câu: Tập câu sinh từ Penn treebank chuyên gia dịch thuật dịch chúng sang tập câu tiếng Việt lấy tập câu tự để làm tập câu thử nghiệm cho việc phân tích cú pháp - Bảng từ loại: Bảng từ loại tạo từ Penn treebank nhằm góp phần vào việc gán từ loại cho từ câu tiếng Việt để đưa cú pháp với xác suất cao Sau có tập luật sinh xác suất tiếng Việt, tập từ loại tập câu thử nghiệm tiếng Việt, tiến hành xây dựng phân tích cú pháp để phân tích câu tiếng Việt nhập vào cho với xác suất cao 1.4 Cấu trúc luận văn Luận văn gồm chương, bao gồm nội dung sau: Chương 1: “PHÁT BIỂU VẤN ĐỀ” trình bày cách đặt vấn đề, định hướng nghiên cứu chọn phương pháp giải vấn đề Đưa mơ hình tổng qt, mục tiêu cần đạt được, kết đóng góp đề tài Chương 2: “TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN” tóm tắt số cơng trình khoa học cơng bố ngồi nước liên quan đến đề tài Chương 3: “VĂN PHẠM TIẾNG VIỆT VÀ QUÁ TRÌNH CHUYỂN ĐỔI CÚ PHÁP TỪ NGƠN NGỮ TIẾNG ANH SANG TIẾNG VIỆT” trình bày sơ lược văn phạm tiếng Việt, tìm hiểu số điểm cú pháp khác hai ngôn ngữ Anh - Việt.Trên sở đó, tìm hiểu q trình ánh xạ cú pháp, tập luật Luận văn tôt nghiệp sinh từ ngôn ngữ tiếng Anh sang tiếng Việt, đồng thời đưa số vấn đề gặp phải qua trình phân tích cú pháp tiếng Việt xuất phát từ Penn treebank tiếng Anh Chương 4: “CƠ SỞ LÝ THUYẾT PHÂN TÍCH CÚ PHÁP THEO PHƯƠNG PHÁP THỐNG KÊ” trình bày sở lý thuyết xác suất ngôn ngữ, corpus, Penn treebank đồng thời giới thiệu số giải thuật phân tích cú pháp liên quan Chương 5: “THIẾT KẾ VÀ THỰC HIỆN ĐỀ TÀI” trình bày mơ hình thiết kế đề tài, xây dựng cơng cụ rút trích câu, từ loại, chuyển đổi cú pháp, chuẩn hóa tạo tập luật sinh tiếng Việt, xây dựng tập huấn luyện PCFG, … từ corpus có sẵn - Penn treebank đồng thời thực Demo chương trình đánh giá kết thực Chương 6: “KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI” kết luận, vấn đề đạt chưa đạt đồng thời đưa hướng phát triển đề tài 1.5 Qui ước thuật ngữ ký hiệu Văn phạm phi ngữ cảnh CFG PCFG Văn phạm phi ngữ cảnh có xác suất P Xác suất S Tập ký hiệu mục tiêu s Câu (sentence) t Cây (Tree) tbest Cây phân tích cú pháp phù hợp với câu nhập arg max t T Chọn t có giá trị lớn thông qua hàm xác định giá trị POS tags (Part-Of-Speech tags), gắn từ loại vào từ Treebank Kho liệu chứa mẩu phân tích cú pháp Luận văn tôt nghiệp 10 Tổng Tích Giao tập hợp ĉ Ước lượng c wij , wi j chuỗi từ từ loại w1,w2,… wj G Tập văn phạm V Tập ký hiệu không kết thúc N Tập ký hiệu kết thúc P Tập luật sinh Luận văn tôt nghiệp PP_NP_VP DT_NNP_NN_NN_, S_SBAR PP_NP_NP_VP ADJP_PP_S VBP_SBAR NN_NN_JJ NNP_NNP_, NN_NNS_ PRT_PP CD_RB_NNP_, NNS_CC_NN_NNS NNS_NN_ PP_ADVP S_CC_NP CD_, DT_NN_, IN_, JJ_IN_CD NNPS_NNP_, VBN_NNS NNP_NNP_NNP ``_JJ_._'' NP_S NNP_CC_NNP_, NN_POS NN_NN_JJS_, RB_PP CD_JJ_PRP$ PP_NP NN_JJ_PRP$_ NN_NNP_NNP_NNP CD_CD NNS_NNS WHPP NN_CC_NNS_NNS VBN_PP NNP_NNP_POS ,_``_S ``_VP NN_:_`` JJ_''_: NNP_CD_,_CD VP_-RRBCD_'' NN_QP 92 Luận văn tôt nghiệp CC_VBG_NP NNP_PRP$_NN_JJ CD_JJ VBG_CD_NNS NN_IN_CD DT_NN NN_PRP$ ADJP_NN_NNS_ NNP_NADJP NN_CC_NN_NNS_ ADJP_NN VBN_QP DT_NNS JJR_CC_NN_'' NN_._`` VP_NP_PP CC_VB_ CC_VB_._'' NNP_NNP_NNP_ NN_PRP$_, NN_JJ_JJ_ RB_ADVP_VP CC_SBAR NP_PP_SBAR NNP_NN_NNS CD_JJ_NNP_NNP_NNP_JJ NNP_NVP NNP_NNP_NN VB_: NP_PP_PP NN_NN_NN_JJ NN_JJ_JJ NNP_NN_JJ_, RRC NNP_NNP_CC_NNP_NN_ NNP_NN_, PRT_NP NNS_NNP_JJ VBN_ADNP VBG_NN_POS RBR_ $_CD_CD RB_NNP NNP_NNS_CC_NNS_ CC_PP PP_NP_PP 93 Luận văn tôt nghiệp ADVP_PP_S PRT_PP_SBAR NNP_NNP_CC_NNP_NNP_POS CC_NP_ADVP_NP CD_CD_ JJ_JJ_, ,_S NNS_JJS NP_PP_PP_S RBR_JJ NN_RB_, ADJP_NP PRT_NP_PP RB_JJ NAC ,_NNP_, NN_NN_NAC_NNP_JJ_ ADJP_NNP_NNP_, NNP_,_NNP CC_NNP NNP_NNPS PRT_NP_NP_SBAR IN_S DT_NN_NN_JJ NNS_CC_NN_JJ_ ADVP_ADJP VBN_NN_NNS VBP_NP CD_JJ_ NNP_NNP_NNPS_NNP NN_NN_,_'' IN_VP ``_PP_PP NN_JJR NP_NP_S PRN NP_-RRBJJ_,_'' CC_NNP_NNS NNS_JJ_ NNP_NNPS_NNP_ NNP_NNP_NNP_POS NNP_NNP_NNP_, CD_JJS NN_VBG_._'' NN_JJ_,_'' 94 Luận văn tôt nghiệp PP_PP_PP NNP_CD_NN_, JJ_PP VBD_, S_NP_VP NNS_POS ADJP_NNP_NNP_NNP_NNP_CC_NNP_NNP_ CD_NN_NN CONJP RB_IN CONJP_NP JJ_S NNS_NNP_NNP_JJ_: NP_CC_NP RB_._'' CC_ADVP_VP_VP DT_NN_JJ DT_,_'' NNP_CD DT_NN_ NNP_NNP_NNP_NNP_ NN_JJ_JJ_JJS NNP_JJ_NN_JJ ADJP_NN_NN CC_NP_ADJP JJ_:_: VBN_NN_, VP_ADVP PRT_ADVP NN_CD_NN_NNS $_CD_CD_ CC_NP_VP CC_NNP_NNP_NNS_ CC_RB_PP IN_,_'' NNPS_POS CC_S_NP_VP PP_-RRBVBN_NN NN_NN_JJ_JJ_, CD_CD_, NN_JJ_JJS_ VBN_S JJ_PRP$_CC_NNS_NN_JJ PRN_CC_S NN_PRP$_,_'' 95 Luận văn tôt nghiệp ADVP_VP_SBAR RB_ADJP NNS_TO_CD NN_CC_NN CC_NN_NN_NN_NNS NNP_NNP_NNPS CD_NN_JJ CC_CD PP_NP_PP_PP_PP NNP_NNP_NNP_NN_JJ_ CC_NNP_NNP_NNP NN_NN_NN_, CC_NNS_JJ NN_JJ_._'' NN_JJ_PRP$_, ,_NN_CC_NN_NNS NNP_NNP_NNP_NN_JJ PP_ADVP_PP ADJP_NNS VBP_NP_VP ADJP_PP_SBAR NNPS_CC_NNP_NNP_, NN_CC_NNS_NN NN_JJ_POS CC_ADVP_VP PP_ADJP RB_RB_ IN_PDT NN_PRP$_ NP_ADVP_SBAR VBD_NP CONJP_VP VP_CC_ADVP_NP NNS_JJ_JJ_ JJ_VBN_NNS ,_ADVP_SBAR $_CD_CD_, ADJP_NN_JJ PRT_S IN_IN_NP VB_PP_PP NNS_NN_JJ_ NP_ADVP_PP JJ_JJ_PRP$_ VBN_NN_NN ADVP_S 96 Luận văn tôt nghiệp S_VP CC_NN_: CC_ADVP_NP_ADVP_VP NN_TO_CD_NN VBZ_PP ,_NN_NN_ VBG_NP_PP ADJP_ADVP VBG_NN IN_NP_CD PRP$_NNS_NN_JJ_, NP_PP_NP_ADVP NN_,_NN_CC_NNS_NN_JJ_ NP_ADVP_PP_SBAR NNS_CD_JJ_, NP_PP_S NP_PP_NP_SBAR RB_PP_NP_S CC_ADJP_NNS NNS_NN_JJ_JJ_, RB_CD_NNS QP_NNS NN_CD_JJ PP_PP_ADVP_VP PP_VP NN_NN_JJ_, VBN_, SBAR_VP ``_NN_NN_NN_,_'' NP_NP_PP VBD_NP_PP_PP_PP JJR_IN_CD NN_NN_NNP_JJ NNS_NN_JJS_: CC_NP_NP JJR_, DT_NN_CD_JJ VBN_PRT_PP NNP_NNP_NN_NN ``_RB_JJR_''_NN NNS_NN_, IN_$_CD_CD_ NNS_JJR_, NN_NNS_, S_PP NNP_NNNP_NNP 97 Luận văn tôt nghiệp NN_JJ_CC_NNS CC_NNP_NNP NNP_NQP DT_JJ NNP_NNS_NN NN_JJ_JJ_: NNP_JJ_, RB_SBAR NN_JJR_ JJ_-RRBPRN_NNS NP_PRT_ADVP NNP_NN_NN_ NNPS_ NP_ADVP_S ``_ADJP_PP_PP CC_JJ NP_PP_VP PRT_PP_PP VBD_ADJP RB_JJ_, ADJP_ADJP_SBAR JJ_CC_JJ_ JJ_JJ_CC_NN_JJ_ NN_JJ_JJ_,_'' NNS_JJ_JJ CC_JJ_CC_JJ UCP VBN_NP CD_,_CD_, NNS_CD_JJS NNPS_CC_NNP_NNP_`` NNS_._'' NNS_NNS_JJ_, NNP_PRP$_CC_NNP_NN_, POS_`` CC_ADVP NN_NN_POS NN_NNS_CC_NN_NN_ PP_ADVP_S PP_CC_VP CC_JJ_NN_NNS_'' SQ SBARQ IN_NN ,_NNS 98 Luận văn tôt nghiệp VBG_NNP_NN ADJP_PP_ADJP_NP NN_JJ_VBG_NN RBR_, DT_PP SBAR_SBAR CD_NN_JJ_, $_CD JJR_PP RBR_: JJS_POS VBD_PP_PP IN_CD_NN_TO_CD NNS_,_NNS NN_JJ_CC_NNP_, NP_PP_NP NN_NNP_JJ_,_'' PP_SBAR_PP VBG_NNS_ NNP_NWHPP VBD_PP ADVP_-RRBVB_NP NNP_NNP_NN_ NNPS_NNP_NNP_, CC_NNP_NNP_NNP_ PP_PP_PP_S NNP_NNP_NNP_NNS ,_SBAR ``_NN_JJ_'' NNP_NSINV VP_VP_NP VBN_NN_ NN_JJ_CC_NN VBG_VP NN_JJS IN_CD_CD JJ_QP CD_CD_JJ ADJP_NN_, NN_NNS_NN NNP_NNP_._NNP NN_NN_PRP$_, NNS_JJ_JJ_, FRAG SBAR_FRAG 99 Luận văn tôt nghiệp NNP_PP NN_NAC_JJ CD_NNP_NN_NN_ $_CD_ CC_VP_VP SBAR_NP_VP CD_CC_CD NAC_NN_: ADJP_NNP_NN_NN_, RB_ADVP_ADJP CD_NN_NN_ ,_JJ_,_JJ_NN_NNS NN_NNS_NN_ NNS_NN_CC_NN NN_JJ_CC_NN_NNS NNP_NN_JJ_: WHADVP_S NP_PRT_S SBAR_NP_ADVP_VP NNP_NNP_NNP_:_`` NP_CC_:_INTJ_NP CC_NNP_NNP_NNP_NNP_NNP_NNP_, NN_NN_JJ_,_NN_CC_NN_NN NP_CC_ADVP_ADVP_NP_VP VBG_''_PP PRT_NP_S S_NNP_NNP_NNP_NNNP_NNP ``_NN_JJ_JJ_'' CC_NP_NP_CC_NP NP_NP_CC_NP_CC_NNP_NNP NNP_NN_._'' JJ_JJ_VBG_NN NNP_NNP_NNP_NN_JJ_, NNP_NNNP_NUCP NNS_,_NNS_CC_NNS CD_NNP_JJ_POS NNP_NNP_NNP_NVP NNP_NNP_NNP_JJ_ IN_PDT_CD ADVP_S_PP NNP_NNP_NNP_NNP_NN ''_NP_PP NNP_NNPS_POS JJ_,_JJ_NNP_NNP_NN_ PRP$_NN_JJ_ 100 Luận văn tôt nghiệp 101 PHỤ LỤC C MỘT SỐ KẾT QUẢ MINH HỌA CHƯƠNG TRÌNH DEMO Sentence 1: (NNS) Loi nhuan (VBP) thi (JJR) mem deo hon (.) Parse tree: S (NP (NNS VBP) ADJP (JJR ) ) Prob = 0.000198106918335907 Sentence 2: (NN) nguoi dan ba (VBD) da chien thang (NN) cuoc ca cuoc (.) Tree parse: NP (NN VP (VBD NP (NN ) ) ) Prob = 0.000246926022979236 Sentence 3: (NN) thiet bi (VBD) da (VBN) duoc thay the (.) Tree parse: S (NP (NN VBD) VP (VBN ) ) Prob = 0.00231124807076551 Sentence 4: (NNS) nhung dieu khoan (VBD) da (RB) khong (VBN) duoc dua (.) Tree parse: S (NP (NNS VBD) ADJP (RB VBN_ (VBN ) ) ) Prob = 6.60356425269657E-05 Sentence 5: (PRP) Ho (VBP) thi (JJ) lo lang (.) Tree parse: Luận văn tôt nghiệp 102 S (NP (PRP VBP) ADJP (JJ ) ) Prob = 0.000440237698657267 Sentence 6: (NN) nguyen nhan (JJ) chinh (VBZ) van la (NN) thoi tiet (.) Tree parse: S (NP (NN JJ) VP (VBZ NP (NN ) ) ) Prob = 2.4513232363281E-05 Sentence 7: (NNS) Cac cong ty (VBD) da tang (NN) nang suat (RB) mot cach du doi (.) Tree parse: NP (NNS VP (VBD NP (NN RB_ (RB ) ) ) ) Prob = 0.000211650871296108 Sentence 8: (PRP) Toi (VBP) thi (RB) khong (VB) cam thay (RB) rat (JJ) du (.) Tree parse: NP_ADVP (NP (PRP VBP) ADVP (RB VP (VB ADJP (RB JJ_ (JJ ) ) ) )) Prob = 0.000190053779379166 Sentence 9: (NN) tai khoan (VBD) da het han (NN) hom qua (.) Tree parse: NP (NN VP (VBD NP (NN ) ) ) Prob = 0.000246926022979236 Sentence 10: (PRP) No (MD) muon (VB) mo (DT) mot (NN) trai (IN) ve (NNS) chan nuoi (.) Tree parse: Luận văn tôt nghiệp 103 S (NP (PRP MD) VP (VB NP (NP (DT NN) PP (IN NP (NNS ) ) ) ) ) Prob = 1.47399221322783E-07 Sentence 11: (NNS) Sinh vien (VBD) la (DT) mot (NN) nguoi (JJ) de tiep thu (.) Tree parse: S (NP (NNS VP (VBD NP (DT NN) ) ) ADJP (JJ ) ) Prob = 1.53741520201397E-06 Sentence 12: (NNS) cac phien chung khoan (DT) (RB) cuoi cung (VBN) da mo lai (.) Tree parse: S (NP (NNS NP (DT RB) ) VP (VBN ) ) Prob = 0.000100854452865229 Sentence 13: (PRP) Ho (VBP) thi (JJ) tinh vi (RBR) hon (NN) thoi gian (DT) (.) Tree parse: NP (PRP VP (VBP ADJP_NP (ADJP (JJ RBR) NP (NN DT_ (DT ) ) ) ) ) Prob = 2.87960342816825E-06 Sentence 14: (NN) Kieu (VBZ) yeu (NN) kim (.) Tree parse: NP (NN VBZ_NP (VBZ NP (NN ) ) ) Prob = 0.002892562107438 Sentence 15: (JJ) dep (.) (NN) Anh hoa si (VBZ) ve (NN) co gai (JJ) khoa than (RB) rat Luận văn tôt nghiệp 104 Tree parse: S (NP (NN VBZ_NP (VBZ NP (NN JJ) ) ) ADJP (RB JJ_ (JJ ) ) ) Prob = 7.50405206311391E-06 Sentence 16: (NN) Tieng Viet (VBZ) la (DT) mot (NN) ngon ngu (JJ) tinh tien (JJ) tieu bieu (.) Tree parse: S (NP (NN VBZ_NP (VBZ NP (DT NN_JJ (NN JJ) ) ) ) ADJP (JJ ) ) Prob = 1.00054046184938E-05 Sentence 17: (NN) Ngon ngu (JJ) tu nhien (VBZ) thi (JJ) phuc tap (.) Tree parse: S (NP (NN JJ) VP (VBZ ADJP (JJ ) ) ) Prob = 0.000275148575267222 Sentence 18: (DT) Mot (NN) vi (JJ) sang (IN) (NN) dem (JJ) lanh (JJ) vang (.) Tree parse: S (NP (DT NN) ADJP (JJ IN_NP (IN NP (NN ADJP (JJ JJ_ (JJ ) ) ) ) ) ) Prob = 2.14401453927977E-07 Sentence 19: (NN) Ba nam (RB) moi (VBZ) mua (DT) cai (NN) nha (IN) ma ((VBD) da chay (.) Tree parse: S (NP (NN ADVP (RB VBZ_NP (VBZ NP (DT NP (NN IN) ) ) ) ) VP (VBD ) ) Luận văn tôt nghiệp 105 Prob = 4.24471622776802E-07 Sentence 20: (NN) Dong chi (NN) cong an (VBZ) dang (VBG) duoi theo (NN) ten trom (VBG) dang chay (IN) tren (NN) duong (.) Tree parse: S (NP (NN NP (NN VBZ) ) VP (VBG NP (NP (NN VBG) PP (IN NP (NN ) ) ) ) ) Prob = 4.07116086843553E-09 Sentence 21: (PRP) Toi (RB) rat (VB) muon (VB) hop tac (TO) de (VB) xay dung (NNS) cac ung dung (NN) xu ly (NN) tieng Viet (IN) bang (NN) may tinh (.) Tree parse: S (NP (PRP ADVP (RB VB) ) VP (VB VP (TO VP (VB NP (NNS NP_PP (NP (NN NN) PP (IN NP (NN ) ) ) ) ) ) ) ) Prob = 2.13124283679375E-11 Sentence 22: (RB) Hien tai (NN) pho`ng (VBZ) dang (VBG) day manh (NN) viec trien khai (NNS) cac ung dung (NN) xu ly (NN) tieng noi (IN) cho (NN) smartphone (CC) va (NN) PDA (.) Tree parse: S (NP (RB NN) VP (VBZ VP (VBG NP (NN NP (NNS NP (NN NP (NP (NN IN_NP (IN NP (NN CC) ) ) NP (NN ) ) ) ) ) ) ) ) Prob = 1.51870419217984E-15 Sentence 23: (PRP) Toi (VB) dam duong (NN) viec phat trien (NN) engine (NN) nhan dang (VB) su dung (NN) HMM (IN) cho (NN) ung dung (NN) voice (NN) command (.) Tree parse: Luận văn tôt nghiệp 106 NP_PP (NP (PRP SBAR (S (VP (VB NP (NN NN_NN (NN NN) ) ) VB) NN) ) PP (IN NP (NN NN_NN_ (NN NN_ (NN ) ) ) ) ) Prob = 1.06799043781454E-07 Sentence 24: (NN) Hom (VB) tim duoc (NN) dien dan (DT) (,) , (VB) doc (NN) bai viet (POS) cua (DT) moi (NN) nguoi (,) , (RB) dac biet la (NN) de cuong (NN) khoa luan (NN) tot nghiep (POS) cua (NN) longuyet (,) (PRP) toi (VB) biet (PRP) minh (VBZ) da (VBN) tim duoc (NNS) nhung nguoi (VB) co (RB) chung (NN) so thich (.) Tree parse: S (NP (NP (NP (NN S (VP (VB NP (NN NP_S (NP (DT ,) S (VP (VB NP (NN POS) ) NP (DT NP (NN ,) ) ) ) ) ) RB) ) NN) NP (NP (NP (NN NN_POS (NN POS) ) NP (NN ,) ) NP (PRP SBAR (S (VP (VB NP (PRP VBZ) ) VBN) NNS) ) ) ) VP (VB ADVP (RB NN_ (NN ) ) ) ) Prob = 2.59566444678576E-31 ... tiếng Việt lựa chọn giải thuật phân tích cú pháp xác suất để thực phân tích cú pháp cho câu tiếng Việt Xây dựng chương trình để phân tích cú pháp số câu tiếng Việt đơn giản đánh giá kết 1.3 Hướng. .. phương pháp phân tích cú pháp khác tác giả chọn phương pháp phân tích cú pháp theo phương pháp xác suất phương pháp cho biết xác suất phân tích tương ứng với câu nhập vào Vì dễ dàng chọn phân tích. .. Tập luật sinh có xác suất Tập câu Test tiếng Việt Lexicon Bộ phân tích cú pháp xác suất Lexicon Cây cú pháp với xác suất cao Hình 1: Mơ hình hóa q trình phân tích cú pháp tiếng Việt Luận văn tơt