Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 186 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
186
Dung lượng
1,97 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THU HƯƠNG MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: GS TS NGUYỄN THÚC HẢI GS.TS NGUYỄN THANH THỦY Hà Nội - Năm 2013 LỜI CẢM ƠN Trước trình bày nội dung nghiên cứu luận án, xin bày tỏ biết ơn chân thành đến hai thầy hướng dẫn, GS.TS Nguyễn Thúc Hải, GS.TS Nguyễn Thanh Thủy, người thầy kính mến khơng tận tình hướng dẫn giúp đỡ mà cịn động viên tơi nhiều để tơi hồn thành luận án Xin chân thành cảm ơn đồng nghiệp Bộ môn Khoa học Máy tính Viện Cơng nghệ thơng tin Truyền thông, Đại học Bách khoa Hà Nội, hỗ trợ chia sẻ công việc, giúp đỡ tơi nhiều lúc khó khăn Tơi xin chân thành cảm ơn PGS.TS Lương Chi Mai, PGS.TS Lê Thanh Hương, PGS TS Nguyễn Thị Kim Anh, PGS TS Đặng Văn Chuyết, TS Nguyễn Văn Vinh, TS Nguyễn Thị Minh Huyền giúp đỡ đóng góp rât nhiều ý kiến quý báu cho luận án Tôi xin chân thành cảm ơn nhà ngôn ngữ học: PGS.TS Phạm Văn Tình, PGS.TS Nguyễn Chí Hịa, Vũ Xn Lương, Đào Văn Hùng hỗ trợ tơi nhiệt tình tìm hiểu đặc trưng tiếng Việt Xin chân thành cảm ơn cựu sinh viên Lê Văn Chương, Phạm Nguyễn Quang Anh, Luyện Thanh Đạt, Lê Ngọc Minh giúp đỡ tơi q trình thử nghiệm mơ hình liên kết Xin chân thành cảm ơn nhóm nghiên cứu VLSP, đặc biệt GS.TS Hồ Tú Bảo TS Nguyễn Phương Thái cung cấp ngữ liệu tiếng Việt để thực thử nghiệm Xin bày tỏ lòng biết ơn sâu sắc đến chồng yêu dấu người gia đình nguồn động viên tinh thần quan trọng để tơi hồn thành cơng trình Hà Nội ngày 20 tháng năm 2012 Tác giả luận án Nguyễn Thị Thu Hương LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết luận án trung thực chưa công bố cơng trình khác Tác giả luận án Nguyễn Thị Thu Hương MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .4 DANH MỤC CÁC HÌNH VẼ DANH MỤC BẢNG BIỂU DANH MỤC CÁC KẾT NỐI QUAN TRỌNG .9 MỞ ĐẦU 11 CHƯƠNG TỔNG QUAN VỀ CÁC MƠ HÌNH VĂN PHẠM CHO NGƠN NGỮ TỰ NHIÊN 20 1.1 Cách tiếp cận cấu trúc văn phạm phi ngữ cảnh 20 1.1.1 Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên 20 1.1.2 Văn phạm phi ngữ cảnh xác suất 23 1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa 26 1.1.4 Văn phạm kết nối 27 1.2 Tiếp cận qua cấu trúc nét văn phạm hợp 28 1.3 Cách tiếp cận phụ thuộc 29 1.3.1 Một số khái niệm 29 1.3.2.Tính chất phụ thuộc 32 1.4 Văn phạm liên kết 34 1.4.1 Khái niệm văn phạm liên kết 34 1.4.2 Các định nghĩa hình thức văn phạm liên kết 38 1.5 Kết luận 40 CHƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 43 2.1.Văn phạm liên kết cho tiếng Việt 43 2.1.1 Cấu trúc từ điển liên kết 43 2.1.2 Xây dựng liên kết cho danh từ 47 2.1.3 Các liên kết cho động từ 55 2.1.4 Các liên kết cho tính từ 60 2.1.5 Liên kết mệnh đề câu ghép đơn giản 61 2.2 Mở rộng từ điển văn phạm liên kết 64 2.2.1 Giải thuật mở rộng từ điển 66 2.2.2 Ứng dụng giải thuật mở rộng từ điển tiếng Việt 67 2.2 Kết luận 68 CHƯƠNG PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT 70 3.1 Bộ phân tích cú pháp liên kết 70 3.1.1 Giải thuật phân tích cú pháp 70 3.1.2 Lược tỉa 72 3.1.3 Kết thử nghiệm phân tích câu đơn câu ghép đơn giản 74 3.2 Phân tích cú pháp cho câu ghép 77 3.2.1 Xây dựng diễn ngôn 81 3.2.2 Giải thuật phân tích cú pháp câu ghép 90 3.2.3 Tìm từ để kết nối mệnh đề 91 3.2.4 Kết thử nghiệm phân tích câu ghép 93 3.2.5 Độ phức tạp tính tốn 96 3.3.Khử nhập nhằng 96 3.3.1 Khử nhập nhằng thành phần 97 3.3.2 Khử nhập nhằng liên hợp 103 3.4 Kết luận 107 CHƯƠNG HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI 109 4.1 Tổng quan dịch máy 109 4.1.1.Tình hình phát triển dịch máy Việt Nam 109 4.1.2 Phương pháp đánh giá chất lượng dịch máy 111 4.2 Khác biệt ngôn ngữ Việt - Anh 112 4.2.1 Khác biệt hình thái 112 4.2.2 Khác biệt trật tự từ 115 4.3 Hệ thống dịch máy sử dụng dạng tuyển có giải 116 4.3.1.Tìm nghĩa từ từ điển ADJ 118 4.3.2.Xây dựng luật dịch 119 4.3.3.Hoàn thiện câu dịch 125 4.3.4.Kết thử nghiệm với dịch dựa dạng tuyển có giải 126 4.4 Kết luận 130 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133 Tóm tắt 133 Các đóng góp luận án 133 Về mặt khoa học 133 Về mặt thực tiễn 134 Hạn chế hướng phát triển 135 CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ 136 TÀI LIỆU THAM KHẢO 137 TIẾNG VIỆT 137 TIẾNG ANH 139 TIẾNG NGA 147 CÁC WEBSITE 147 PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG VIỆT 148 PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ CÂU GHÉP HAI MỆNH ĐỀ 166 PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH 174 Luật xác định thuộc tính 174 Luật dịch cụm từ 175 Luật chuyển đổi cấu trúc 178 PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU 179 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT HMM Hidden Markov Model: Mơ hình Markov ẩn BNF Backus Naur Form: Công thức siêu ngữ Backus ADJ Annotated Disjunct: Dạng tuyển có giải RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn CCR Chunks/Constituents/Relation SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ SVM Support Vector Machine: Máy vectơ hỗ trợ CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện EDU Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng DANH MỤC CÁC HÌNH VẼ Hình 1.1 Cây ngữ cấu câu “Tơi thích chân gà” 21 Hình 1.2 Hai ngữ cấu câu “Họ không chuyển hàng xuống thuyền vào ngày mai” 22 Hình 1.3 Văn phạm phi ngữ cảnh xác suất ngữ cấu câu “Last week IBM bought Lotus” 27 Hình 1.4 Phân tích câu “John loves a woman” mơ hình văn phạm phụ thuộc 31 Hình 1.5 Đồ thị phụ thuộc câu “Economic news had little effect on financial market” 32 Hình 1.6 Câu ngữ pháp “Tại cậu không tới” 35 Hình 1.7 Kết nối lớn từ “và” 37 Hình1.8 Chu trình phân tích câu 38 Hình 1.9 Nút liên kết 39 Hình 2.1 Cấu trúc danh ngữ với đầy đủ thành tố 48 Hình 2.2 Liên kết cụm từ “những bàn” 51 Hình 2.4 Liên kết cụm từ “cái bàn gỗ” 53 Hình 2.3 Liên kết cụm từ “cái giường lò xo” 53 Hình 2.5 Liên kết cụm từ “cái bàn tôi” 54 Hình 2.6 Hai cách liên kết cho cụm từ “cái bàn gỗ tôi” 54 Hình 2.7 Các liên kết xoay quanh danh từ trung tâm “ghế” 55 Hình 2.8 Thành tố phụ trước động từ 56 Hình 2.9 Liên kết cụm từ “vẫn làm” 57 Hình 2.10 Liên kết cụm từ “không hay đọc sách này” 57 Hình 2.11 Liên kết cụm từ “đang sợ” 59 Hình 2.12 Liên kết cụm từ “ sâu hai ngàn mét” 61 Hình 2.13 Liên kết câu ghép hai mệnh đề với liên từ 62 Hình 2.14 Liên kết câu ghép hai mệnh đề với liên từ đầu dấu phảy 63 Hình 2.15 Liên kết câu ghép với liên từ có mặt hai mệnh đề 63 Hình 2.16 Một đoạn từ điển văn phạm liên kết 64 Hình 2.17 Ánh xạ trực cảm 67 Hình 2.18 Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt 69 Hình 3.1 Giải thuật phân tích 70 Hình 3.2 Lời giải cục 70 Hình 3.3 Giải thuật phân tích cú pháp liên kết 71 Hình 3.4.Hàm COUNT cho số phân tích câu 71 Hình 3.5 Cây cho cơng thức (NN- &{NN+}) or ({PqNt-} & {NN+}) 73 Hình 3.6 Số lượng dạng tuyển sau lược tỉa lược tỉa mạnh 74 Hình 3.7 Kêt phân tích liên kết câu “Chúng muốn giành danh hiệu” 75 Hình 3.8 Kêt phân tích liên kết câu “Mỗi mùa trắng tay khó nuốt trơi” 75 Hình 3.9 Kết phân tích liên kết câu “Phần lớn bọ ngựa ăn côn trùng” 76 Hình 3.10 Cây phân tích diễn ngơn câu “[trời mưa to vàA1] [gió mạnh nênB1] [tơi phải nghỉ học,C1] [mẹ phải nghỉ làm.D1]” 80 Hình 3.11 Giải thuật phân đoạn diễn ngơn (có khử nhập nhằng) 85 Hình 3.12 Hàm isClause 87 Hình 3.13 Các dạng cấu trúc diễn ngôn 89 Hình 3.14 Giải thuật phân tích cú pháp cho câu ghép 90 Hình 3.15 Hàm Insert_Link_From_RST_Tree 91 Hình 3.16 Minh họa cách lưu trữ phân tích liên kết câu “Tơi mua hoa” 92 Hình 3.17 Phân tích câu “Tơi mua bơng hoa” 92 Hình 3.18 Phân tích cụm từ “một bút tốt” 93 Hình 3.19 Kết phân tích câu “Trời mưa to gió mạnh nên phải nghỉ học, mẹ phải nghỉ làm” 94 Hình 3.20 Hai phân tích câu “Tơi mua bơng hoa” 98 Hình 3.21 Giải thuật kiểu Viterbi để dự đốn phân tích có xác suất cao 99 Hình 3.22 Mơ tả cách tính xác suất PrO ⊲ left(L, W, l ⊳, ⊲ leftd) 101 O Hình 3.23 Minh họa mối liên kết để tính 102 Hình 3.24 Phân tích câu “Tơi thích bánh kẹo, anh thích rượu bia” 105 Hình 3.25 Một phân tích với kết nối F cho từ “và” 106 Hình 3.26 Kết nối G nối nhiều dấu phảy từ “và” 107 Hình 4.1.Sắp xếp lại trật tự từ 115 Hình 4.2 Kiến trúc hệ dịch dựa dạng tuyển có giải 118 Hình 4.3 Thay đổi trật tự từ cho dịch câu “Cô gái nhỏ xinh” 122 Hình 4.4 Quá trình dịch câu “Báo săn loại động vật nhanh giới” 128 Hình 4.5 So sánh điểm BLEU hệ thống 129 # + -SV + ĐT_TT + # +-NtPd-+ + -F + -F + + TTT2_2-+ # | | | | | | | # anh.p đá_bóng.v bơi.v rất.a giỏi.a # + -SA + # +-SA-+ +-CC0-+-CCTt-+ CCPt-+ # | | | | | | # cô.p bé.a lớn.a xinh.a # + -SV -+ O -+ # + SHA + +-ĐT_GT+ GT_DT-+ + ĐV + # | | | | | | | # bố.n tôi.p đưa.v cho tôi.p sách.n # + -SV + O + # +-NtPd-+ | + CC0d -+ CCTd-+ CCPd -+ # | | | | | | | # anh.p biết.v tiếng_Việt.n lẫn tiếng_Pháp.n # + SV -+ O + # +-NtPd-+ | + CC0d -+ CCTd-+ CCPd -+ # | | | | | | | # anh.p biết.v tiếng_Việt.n tiếng_Pháp.n # + O -+ # + -SV + O + SDT1-+-F-+ -F -+ | # | | | | | | | # anh.p có.v từ_điển.n Việt Anh.p khơng.n # +-CHỨ+ # | | # Có.v 169 # + -CL -+ # | + -SV + -O + # + TĐT2_1-+ +-NtPd-+ + -O -+ | # | | | | | | | # Không biết.v máy_tính.n có.v tốt.n khơng.n # + TT_ĐT-+-LA_ĐT-+-CHỨ+ # | | | | # Tất_nhiên.a là.v nhớ.v # + XH + # + -SV -+ CHỨ + | # | + TĐT4-+ -O +-NtPd+ | | # | | | | | | | # Bác quen.v cô.n # + -DT_LA + + -VTd -+ # +-NtPd-+ + LA_DT-+ NNp-+ + -CHỨ2 -+ -VPd + -NNp + # | | | | | | | | | # anh.p là.v người.n Nhật không_phải người.n Hàn_Quốc # + -DT_LA + VTl + # +-NtPd-+ + -LA_DT + + -CHỨ2 + VPl-+ LA_TT -+ # | | | | | | | | # Máy.n là.v máy_giặt.n đâu_phải là.v máy_điều_hòa.a # + XH + # + -XH + | # + -ĐT_TT -+ | | # + SV -+ ĐT_GTt -+ | | | # + CC0d +-CCTd+ CCPd-+ -NN + + TT_ĐT +ĐT_GT+ -GT_DT -+ + -McN +-TT_TTt-+ | | | # | | | | | | | | | | | | | | | # Cả cháu.n nhà.n cháu.n đều.a chuyển.v vào Vũng_Tàu.n năm.n nay.a bác 170 # + -XH -+ # + XH -+ | # + SV + ĐT_TT-+ | | # | | | | | # Bộ_Kế_hoạch_và_Đầu_tư ở.v đâu.a hở em # + XH -+ # + SV + ĐT_TT + | # + ĐV-+-SDT4-+ GT_DT-+ + ĐT_TT-+ | | # | | | | | | | | # Cái túi.n tao.p ở.v đâu.a hở # + -SA + # | + CC0 + CCTt + -CCPt + # +-NtPd-+ +-KHÔNG_NHỮNG-+ + -F + -F + +-MÀ_CÒN-+ + -TTT2_2 + TT_TT-+ # | | | | | | | | | | | | # Anh.p khơng thơng_minh.a , học_giỏi.a mà cịn rất.a khiêm_tốn.a nữa.a # + EV + -CL + # + -ĐT_TT + | + -GT_ĐTt + # + ĐT_GTt -+ | | | + -TT_ĐT -+ # +-ĐT_GT+ GT_DT-+ | | | | | +-TT_ĐT+ # | | | | | | | | | | # Nghe_nói.v anh.p lâu.n mà hơm_nay.n mới.a được.a gặp.v # + -SV -+ -XH -+ # | + TĐT2_1-+ O -+-NtPd+ | # | | | | | | # Anh không biết.v chuyện.n # + -GT_ĐTt -+ -CL -+ # | + SV + + -SV -+ # | | + TT_ĐT-+ +-NtPd-+ + -O + # | | | | | | | | # Hôm_nay.n tôi.p mới.a biết.v anh.p là.v thầy_giáo.n 171 # + ĐT_LA + # + SV +-ĐT_GT+ GT_DT-+-NtPd+ +-LA_TT-+-XH-+ # | | | | | | | | # Anh mua.v với giá.n là.v đắt.a # + -SV -+ -CL -+ ĐT_GTv -+ # +-NtPd-+ | + -SV + ĐI + + SAv-+ NNp + # | | | | | | | | | # Anh.p rủ.v tôi.p đi.v du_lịch.v đồng_bằng.n sông.n Cửu_Long # + CL -+ EV + CL + -ĐT_TT -+ # +-GT_DT-+ + -O -+ | + -SV +-ĐT_XONG-+ +-TT_TT-+ # | | | | | | | | | | # Trong lúc.n học.v tiếng_Việt.n , tôi.p học.v nhiều.a điều.a # + CL -+ # + EV + + -SV + # + TĐT2_1-+ -O + | + -SHA + +-SAt-+-SA-+-TT_ĐT+ # | | | | | | | | | | # Khơng hiểu.v sao.n , sức_khỏe.n mình.p càng.n ngày.n càng.a xuống # + QHT + CL + # + CL + | + -SV -+ # | + SA-+ | | + TĐT2_1 + ĐT_TT-+ # | | | | | | | | # Vì thời_tiết.n xấu.a nên máy_bay.n không hạ_cánh.v được.a # + -CL -+ # + -QHT -+ + -SA + # + CL + O -+ | | + TTT4 -+ # | + -SV + + DpNtm-+ | | | + -TTT2_1 + # | | | | | | | | | | # Dù nó.p có.v nhiều tiền.n nó.p khơng hạnh_phúc.a 172 # + DT_LA -+ # + -SDT5 -+ | # | + -SV + | # + ĐV-+ | +-TT_ĐT+ +-LA_DT-+-SH +-NtPd+ # | | | | | | | | | # Cuốn sách.n anh.p đang.a đọc.v là.v của.n cô.p # + SDT5 + # + SV + O -+ + -SV + # | + RpV-+ + -ĐV -+ -MA -+ +-NtPd-+ | # | | | | | | | | | # Tôi đọc.v tiểu_thuyết.n mà anh.p viết.v # + QHT + # + -CL -+ + CL -+ # | + SV + | + SV + # | +-SDT4-+ GT_DT-+ + O -+ | + -F + F + + RpV-+ # | | | | | | | | | | | | # Sở_dĩ nhà_máy.n Loan hết.v việc.n là_do thiết_bị.n phụ_tùng.n hết.v # # # # # + -CL -+ + -CL -+ + PH -+ + -EV -+ + SV -+ + -ĐT_TT -+ + GT_DT + | + SA-+-STT-+ | | + TĐT2_1-+ CL + -O -+ NN-+ | | | | | | | | | | | | | | | Ở chợ.n , quần_bò.n nhiều.a , tôi.p không biết.v chọn.v loại.n nào.n cả.a # + GT_ĐTt + -ĐT_TT + # | + SV -+ -O -+ SDT4 -+ | # +-TT_TTt+ | + TĐT2_1-+-ĐT_XONG+ + -NN + + GT_DT-+-NtPd+ | # | | | | | | | | | | | | # Lâu.n tơi.p khơng nhận.v tin_tức.n gì.n cơ.n cả.a # + -SV -+ -ĐT_TT -+ # | + TĐT2_1-+ -O +-SDT4+ GT_DT-+-NtPd+ | # | | | | | | | | # Tơi chưa hiểu.v gì.n cơ.n cả.a 173 PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH Phụ lục trình bày dạng lưu trữ thực tệp văn luật nêu chương Do hình thức trình bày có khác biệt Trong luật này, Ký hiệu * từ () dãy kết nối Ký hiệu $1 vị trí từ cụm từ áp dụng luật Ví dụ: *()(DT_THI)*(DT_THI)(THI_ĐT)*(THI_ĐT)() >$1$2:copy-feature($3,number,$1) Có nghĩa từ thứ cụm từ có kết nối DT_THI với từ thứ hai, từ thứ hai có kết nối THI_ĐT với từ thứ ba chép thuộc tính number từ thứ sang từ thứ ba Chẳng hạn cụm từ “tơi học” thỏa kết nối trên, thơng tin số từ đại từ “tôi” sang động từ “học” Luật xác định thuộc tính *()(DpNt) *(DpNt)() > $1 :set-feature($2, number, PLURAL) *()(VT DT_THI) *(VT)() *(DT_THI)(THI_ĐT) *(THI_ĐT)() > $1 $2 $3 :set- feature($4, number, PLURAL) *()(CC0) *(CC0)(DT_THI) *(DT_THI)(THI_ĐT) *(THI_ĐT)() > $1 $2 $3 :set- feature($4, number, PLURAL) *()(DT_THI) *(DT_THI)(THI_ĐT) *(THI_ĐT)() > $1 $2 :copy-feature($3, number, $1) *()(VT SV) *(VT)() *(SV)() > $1 $2 :set-feature($3, number, PLURAL) *()(CC0) *(CC0)(SV) *(SV)() > $1 $2 :set-feature($3, number, PLURAL) *()(SV) *(SV)() > $1 :copy-feature($2, number, $1) *()(VT DT_LA) *(VT)() *(DT_LA)() > $1 $2 :set-feature($3, number, PLURAL) *()(CC0) *(CC0)(DT_LA) *(DT_LA)() > $1 $2 :set-feature($3, number, PLURAL) *()(DT_LA) *(DT_LA)() > $1 :copy-feature($2, number, $1) *()(TĐT2_1) *(TĐT2_1)() > $1 :set-feature($2, negated, TRUE) *()(RpV) *(RpV)() > $1 :set-feature($2, tense, PAST) *()(RfV) *(RfV)() > $1 :set-feature($2, tense, FUTURE) *()(RhV) *(RhV)() > $1 :set-feature($2, form, PRESENT_PARTICIPLE) chưa()(TĐT2_1) *(TĐT2_1)() > $1 :set-feature($2, form, PAST_PARTICIPLE) *()(TĐT3h) *(TĐT3h)() > $1 :set-feature($2, form, PAST_PARTICIPLE) *()(ĐT_XONG) *(ĐT_XONG)() > :set-feature($1, form, PAST_PARTICIPLE) $2 174 *()(VT SA) *(VT)() *(SA)() > $1 $2 :set-feature($3, number, PLURAL) *()(CC0) *(CC0)(SA) *(SA)() > $1 $2 :set-feature($3, number, PLURAL) *()(SA) *(SA)() > $1 :copy-feature($2, number, $1) *()(TTT2_1) *(TTT2_1)() > $1 :set-feature($2, negated, TRUE) *()(RpA) *(RpA)() > $1 :set-feature($2, tense, PAST) *()(RfA) *(RfA)() > $1 :set-feature($2, tense, FUTURE) *()(RhA) *(RhA)() > $1 :set-feature($2, form, PRESENT_PARTICIPLE) *()(TTT3h) *(TTT3h)() > $1 :set-feature($2, form, PAST_PARTICIPLE) tôi[p]()() > :set-feature($1, person, FIRST) mình[p]()() > :set-feature($1, person, FIRST) bọ[p]()() > :set-feature($1, person, FIRST) tớ[p]()() > :set-feature($1, person, FIRST) bạn[p]()() > :set-feature($1, person, SECOND) cô[p]()() > :set-feature($1, person, THIRD) *()(SV) *(SV)() > $1 :copy-feature($2, person, $1) *()(DT_LA) *(DT_LA)() > $1 :copy-feature($2, person, $1) *()(TT_SS) hơn(TT_SS)() > :set-feature($1, is_comparative, TRUE) $2 *()(TT_SS) nhất(TT_SS)() > :set-feature($1, is_superlative, TRUE) $2 *()(VTg) *(VTg)(VPg) *(VPg)() -> $1 $2 :copy-feature(:copy-feature(:copy-feature (:copy-feature(:copy-feature( $3, number, $1), person, $1), tense, $1), negated, $1), form, $1) *()(VTt) *(VTt)(VPt) *(VPt)() -> $1 $2 :copy-feature(:copy-feature( $3, is_comparative, $1), is_superlative, $1) Luật dịch cụm từ tháng()(SDT1) giêng(SDT1)() -> :set-string($1, January) tháng()(SDT1) một(SDT1)() -> :set-string($1, January) tháng()(SDT1) mười(SDT1)(ST_ST) hai(ST_ST)() -> :set-string($1, December) tháng()(SDT1) chạp(SDT1)() -> :set-string($1, December) kết_cấu()(ĐT_GT) từ(ĐT_GT)() > :set-string($1, compose) :set-string($2, of) nhìn()(ĐT_GT) *(ĐT_GT)() > :set-string($1, look) :set-string($2, at) chạy()(ĐT_GT) khỏi(ĐT_GT)() > :set-string($1, run) :set-string($2, away) from mua()(ĐT_GT O) cho(ĐT_GT)(GT_DT) *(GT_DT)() *(O)() > $1 $3 $4 đưa()(ĐT_GT O) cho(ĐT_GT)(GT_DT) *(GT_DT)() *(O)() > $1 $3 $4 ở()(GT_DT) đây(GT_DT)() > here ở()(GT_DT) đó(GT_DT)() > there làm[v]()(O ĐT_TT) *(O)() *(ĐT_TT)() -> :set-string($1, make) $2 $3 *()(TDT2m) *(TDT2m)(SA) *(SA)() -> $1 of $2 $3 *()(TDT2m) *(TDT2m)(SDT4) *(SDT4)() -> $1 of $2 $3 của()(GT_DT) *()(TDT2p) tôi(TDT2p GT_DT)() > :set-string($1, our) của()(GT_DT) tôi(GT_DT)() > :set-string($1, my) 175 của()(GT_DT) cô(GT_DT)() > :set-string($1, her) *()(SDT4) của(SDT4)(GT_DT) *(GT_DT)() > $3 's $1 *()(SHA) *()(TDT2p) tôi(TDT2p SHA)() > $1 :set-string($2, our) *()(SHA) *()(TDT2p) minh(TDT2p SHA)() > $1 :set-string($2, our) *()(SHA) *()(TDT2p) cô(TDT2p SHA)() > $1 :set-string($2, their) *()(GT_DT) *()(TDT2p) cô(TDT2p GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(GT_DT) *()(TDT2p) bạn(TDT2p GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, you) *()(GT_DT) *()(TDT2p) nó(TDT2p GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, *()(TDT2p) họ(TDT2p GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(GT_DT) them) *()(GT_DT) cô(GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, her) *()(GT_DT) nàng(GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, her) *()(GT_DT) chàng(GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, him) *()(GT_DT) bạn(GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, you) *()(GT_DT) họ(GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) cô(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) nàng(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) anh(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) ông(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) thằng(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) chàng(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) bạn(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, you) *()(O) *()(TDT2p) nó(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) họ(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) cô(O)(NtPd) *(NtPd)() > $1 :set-string($2, her) *()(O) nàng(O)(NtPd) *(NtPd)() > $1 :set-string($2, her) *()(O) anh(O)(NtPd) *(NtPd)() > $1 :set-string($2, him) *()(O) ông(O)(NtPd) *(NtPd)() > $1 :set-string($2, him) *()(O) thằng(O)(NtPd) *(NtPd)() > $1 :set-string($2, him) *()(O) chàng(O)(NtPd) *(NtPd)() > $1 :set-string($2, him) *()(O) bạn(O)(NtPd) *(NtPd)() > $1 :set-string($2, you) *()(O) nó(O)(NtPd) *(NtPd)() > $1 :set-string($2, it) *()(O) họ(O)(NtPd) *(NtPd)() > $1 :set-string($2, them) cô()(NtPd) *(NtPd)() > :set-string($1, she) chị()(NtPd) *(NtPd)() > :set-string($1, she) nàng()(SDT6) *(SDT6)() > :set-string($1, she) bà()(SDT6) *(SDT6)() > :set-string($1, she) anh()(SDT6) *(SDT6)() > :set-string($1, he) thằng()(NtPd) *(NtPd)() > :set-string($1, he) 176 chàng()(NtPd) *(NtPd)() > :set-string($1, he) ông()(NtPd) *(NtPd)() > :set-string($1, he) lão()(NtPd) *(NtPd)() > :set-string($1, he) bạn()(NtPd) *(NtPd)() > :set-string($1, you) nó()(NtPd) *(NtPd)() > :set-string($1, it) họ()(NtPd) *(NtPd)() > :set-string($1, they) *()(TDT2p) tôi(TDT2p)() > :set-string($1, we) *()(TDT2p) ta(TDT2p)() > :set-string($1, we) *()(TDT2p) minh(TDT2p)() > :set-string($1, we) *()(TDT2p) cô(TDT2p)() > :set-string($1, they) *()(TDT2p) bà(TDT2p)() > :set-string($1, they) *()(TDT2p) anh(TDT2p)() > :set-string($1, they) *()(TDT2p) ông(TDT2p)() > :set-string($1, they) *()(TDT2p) hắn(TDT2p)() > :set-string($1, they) *()(TDT2p) chàng(TDT2p)() > :set-string($1, they) *()(TDT2p) bạn(TDT2p)() > :set-string($1, you) *()(TDT2p) cậu(TDT2p)() > :set-string($1, you) *()(TDT2p) nó(TDT2p)() > :set-string($1, they) *()(TDT2p) họ(TDT2p)() > :set-string($1, they) thịt()(SDT1) bò(SDT1)() > :set-string($1, beef) thịt()(SDT1) lợn(SDT1)() > :set-string($1, pork) thịt()(SDT1) gà(SDT1)() > :set-string($1, chicken) đi()(ĐI) học(ĐI)() > :set-string($1, go)()(_TO_) to(_TO_)(_I_) school[n](_I_)() đi()(ĐI) làm(ĐI)() > :set-string($1, go)()(_TO_) to(_TO_)(_I_) workl[n](_I_)() đi()(ĐI) chơi(ĐI)() > :set-string($1, go) out đi()(ĐI) *(ĐI)() > :set-string($1, go) :set-feature($2,form,PRESENT_PARTICIPLE) cả()(CC0) *(CC0)(CCT) lẫn(CCT)(CCP) *(CCP)() > both $2 and $4 cả()(CC0) *(CC0)(CCT) cả(CCT)(CCP) *(CCP)() > both $2 and $4 cả()(CC0) *(CC0)(CCT) và(CCT)(CCP) *(CCP)() > both $2 and $4 vừa()(CC0) *(CC0)(CCTt) vừa(CCTt)(CCPt) *(CCPt)() > both $2 and $4 vừa()(CC0) *(CC0)(CCTg) vừa(CCTg)(CCPg) *(CCPg)() > $2 while :set-feature($4, form, PRESENT_PARTICIPLE) *()(ĐT_ĐTp) *(ĐT_ĐTp)() > $1 :set-feature($2, form, PRESENT_PARTICIPLE) *()(ĐT_ĐTi) *(ĐT_ĐTi)() -> $1 :set-feature($2, form, BARE_INFINITIVE) *()(ĐT_ĐT) *(ĐT_ĐT)() >$1 to()(_TO_):set-eature($2,form,BARE_INFINITIVE)(_TO_)() *()(TT_SS) hơn(TT_SS)() > $1()(_MVt_) than(_MVt_)() sắp()() > :set-string($1, be)()(_P_) about(_P_)(_TO_) to(_TO_)() sắp_sửa()() > :set-string($1, be)()(_P_) about(_P_)(_TO_) to(_TO_)() đầu_hàng()() > :set-string($1, give)()(_IDL_) up(_IDL_)() *()(LA_DT) người(LA_DT)(DT\_TTv) *(DT\_TTv)() -> $1 from $3 177 *()(THT)*()(SV)*()(TĐT2_1) *(TĐT2_1 SV THT)() >$1 :set-feature(:copyfeature(:copy-feature(:copy-feature(do, number, $4), person, $4), tense, $4), contracted-negation,TRUE)[v]()(_I_)$2:set-feature($4,form,BARE_INFINITIVE)(_I_)() *()(THT) *()(SV) *(SV THT)() > $1 :copy-feature(:copy-feature(:copy-feature( do, number, $3), person, $3), tense, $3)[v]()(_I_)$2 :set-feature($3,form, INFINITIVE)(_I_)() *()(SV) có(SV)(ĐT_TT O) *(ĐT_TT)() khơng(O)() ->:copy-feature(:copyfeature(:copy-feature(be, number, $2), person, $2), tense, $2)[v]()(_SI_ _Pa_) $1(_SI_)() $3(_Pa_)() *()(SV) có(SV)(CĨ CK) *[v](CĨ)() khơng(CK)() ->:copy-feature(:copy-feature(:copyfeature(do, number, $2), person, $2), tense, $2)[v]()(_SI_ _I_) $1(_SI_)() :set-feature($3, form, BARE_INFINITIVE)(_I_)() *()(SV) có(SV)(OO) *(O)() khơng(O)() ->:copy-feature(:copy-feature(:copy-feature( do, number, $2), person, $2), tense, $2)[v]()(_SIp_)$1(_SIp_)(_Ifd_)have(_Ifd_) (_Os_) $3(_Os_)() *()(SV) chưa()(TĐT2_1) *(TĐT2_1 SV)() ->$1()() :copy-feature(:copy-feature(have, number, $3), person, $3)[v]()(N _PP_)not(N)() :remove-feature($3,negated)(_PP_)() *()(SV) *()(RfV) *()(TĐT2_1) *(TĐT2_1 RfV SV)() -> *()(SV) *()(RpV) *()(TĐT2_1) *(TĐT2_1 RpV SV)() > $1 $2 $3 $4 $1 $2 $3 $4 *()(SV) *()(TĐT2_1) *(TĐT2_1 SV)() > $1()() :copy-feature(:copy-feature(do, number, $3), person, $3)[v]()(_PP_)$2 $3(_PP_)() Luật chuyển đổi cấu trúc *()(DT_LA) *()(TĐT2_1) *(TĐT2_1 DT_LA)() > $1 $3 $2 *()(TT_TT) *(TT_TT)() > $2 $1 *()(SA SA) *(SA)() *(SA)() > $3 $2 $1 *()(SA) *(SA)() > $2 $1 *()(ĐT_TT) *(ĐT_TT)() > $2 $1 *()(SHA) *(SHA)() > $2 $1 *()(SDT1)*(SDT1)(VT)*(VT)(VP)*(VP)(VT)*(VT)(VP)*(VP)() >$2 $3 $4 $5 $6 $1 *()(SDT1) *(SDT1)(VT) *(VT)(VP) *(VP)() *()(SDT1) *(SDT1)() > $2 $1 *()(NtPd) *(NtPd)() > $2 $1 *()(STT) *(STT)() > $2 $1 *()(SỰ) *(SỰ)() > $2 *()(RpV) *(RpV)() > $2 $1 178 > $2 $3 $4 $1 PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU Sentence (1): Tên Hoa > My name is bloom VEtran: My Name is Flower Google: My name is United Sentence (2): Mẹ bác_sĩ giỏi > My mother is a good doctor VEtran: My mother is a jurisprudent physician Google: My mother is a good doctor Sentence (3): cần sách để đọc nhà > Need me a book sets reading at home VEtran: I need a tomes to read keep indoors Google: I need a book to read at home Sentence (4): Tất_cả thành_viên phải họp > All every members must go convening VEtran: All All members must go to meet Google: All members have to go to meetings Sentence (5): tơi có_thể cho mượn áo len > I could give borrow my wool shirt VEtran: I can lend miss my sweater Google: I can let her borrow my sweater Sentence (6): Cô > She feels wanting VEtran: She feel like Google: She felt like Sentence (7): > when not me VEtran: I never Google: I never cảm_thấy muốn khóc to cry cry crying tơi khơng bao_giờ nên nghe lời ought to hear word ought to obey him heard him Sentence (8): thách anh nhảy qua tường > I defy him dances last that wall VEtran: I am challenged you overleaps that mural one Google: I challenge him to jump over the wall there Sentence (9): Anh ta muốn với cô > He wants me departs for her VEtran: He is wished I go with her Google: He wanted me to go with her Sentence 10 (10): tơi u trái_tim > I love her by all my heart VEtran: I love her by a whole body heart Google: I love her with all my heart 179 Sentence 11 (11): biết tất_cả cô ta > I know all about her VEtran: I know all about who boil down me Google: I know all about her Sentence 12 (12): Ông ta chịu_đau can_đảm > he very courageous suffers VEtran: ông we bears aching is very manly Google: Pain he was very courageous Sentence 13 (13): Anh muốn chị tới > he wants she comes VEtran: He is wished she is next Google: He wanted her to Sentence 14 (14): tơi tặng món_q > I am presented a gift VEtran: I am giftted a gift Google: I was given a gift Sentence 15 (15): Những lỗi_lầm lớn thường kết_cấu từ lỗi_lầm nhỏ > big mistakes usually compose of young mistakes VEtran: Big lapses often frame from little lapses Google: The big mistake is often small structures from mistakes Sentence 16 (16): Con ngựa đá ngựa đá > horse kicks rocky horse VEtran: The horse stone horse kick Google: Horse stone horse Sentence 17 (17): > ant creeps up VEtran: Beef disc Google: Ants onto Kiến bò lên đĩa thịt bò beef dish rise the ox the Emmet beef Sentence 18 (18): Sự khơn_ngoan có_giá châu_ngọc > wise is valuabler than jewel VEtran: Something precious more priced advisability Google: Valuable than wisdom pearls Sentence 19 (19): Báo_săn loài động_vật nhanh thế_giới > cheetah is the quickest animal world VEtran: Cheetah is world' s fast animal the kind Google: Alert hunt is the world's fastest animal Sentence 20 (20): Sao anh dám đánh > why does you dare beat me VEtran: My britannic Asteroid dare whipped Google: How dare you hit me Sentence 21 (21): bố mẹ tơi thích xem phim > my father and mother very likes to watch film VEtran: I and my mother like to look up film very much Google: My parents love to watch movies 180 Sentence 22 (22): anh đá_bóng bơi giỏi > he very well plays football and swims VEtran: he kicked is shaded and very jurisprudent swimming Google:he's very good football and pool Sentence 23 (23): cô bé lớn xinh > the more big is little nipper pretty VEtran: more more nice-looking big little miss Google:the bigger the beautiful girl Sentence 24 (24): bố đưa cho sách > my father takes give me book VEtran: tome my father give to med Google:My father gave me a book Sentence 25 (25): anh biết tiếng_Việt tiếng_Pháp > he knows both Vietnamese and French VEtran: he know a whole french Vietnamese too Google:he knows both English French Sentence 26 (26): anh có từ_điển Việt - Anh khơng > you have Vietnamese - English dictionary You has Vietnamese dictionary- You neither you have dictionary English - I not Sentence 27 (27): Có chứ! > has! VEtran: There is final particle! Google: Yeah! Sentence 28 (28): Không biết máy_tính có tốt khơng > not know this computer well has not VEtran: Know this computer had well Neither Google: Do not know this computer is good Sentence 29 (29): Tất_nhiên nhớ chứ! > naturally is! VEtran: Of course it be final particle remembrance! Google: Of course, remember! Sentence 30 (30): Bác quen cô ạ? > also knows her? VEtran: Do You who also get used to her ạ? Google: Physicians also go after the letter A? Sentence 31(31): anh người Nhật không_phải người Hàn_Quốc > he is Japanese person not Korean individual VEtran: he is Japanese isn' t Korea person Google: He is Japanese, not Korean Sentence 32 (32): Máy máy_giặt đâu_phải máy_điều_hòa > that machine is washing-machine not conditioner is VEtran: That Machine is washer final particle definitely not conditioner Google: Where was the washing machine rather than air conditioning 181 is Sentence 33 (33): Cả cháu nhà cháu chuyển vào Vũng_Tàu năm bác > both niece and nephew house after transfer into Vung Tau one year VEtran: A whole grandchild everybody in the house grandchild these a years roadstead roll-in then refuse Google: Both her whole family she moved to Vung Tau for a year then North Asia Sentence 34 (34): Bộ_Kế_hoạch_và_Đầu_tư đâu hở em > Ministry of Planning and Investment where is VEtran: Younger sister where uncovered Ministry of Planning Investment Google: Ministry of Planning and Investment in the open where you and Sentence 35 (35): Anh khơng thơng_minh , học_giỏi mà cịn khiêm_tốn > He is not only intelligent , good but also still very much more modest VEtran: He not only wit, well in school but also plenty humility as well Google: He's not only smart, good student but also very modest Sentence 36 (36): Nghe_nói > Then hears about him long VEtran: Hear tell of you then Google: Heard about him for a anh lâu mà hôm_nay gặp that today new finding long-term that new today is met long time today to meet new Sentence 37 (37): Anh chuyện > Does not know that story VEtran: You is unaware That tale Google: Do not you know that Sentence 38 (38): Hôm_nay biết anh thầy_giáo > Today I fresh realized he is teacher VEtran: Today I newly know he is instructor Google: Today I know that he is a teacher Sentence 39 (39): Anh mua với giá đắt > You gets for that cost is costly there VEtran: You bought with That cost be dearly there Google: You're purchase price was expensive Sentence 40 (40): Anh rủ > He asks me go touring Cuu Long VEtran: He hangs I tour the Mekong Google: He invites me to travel to du_lịch đồng_bằng sông Cửu_Long river delta river champaign the Mekong Delta Sentence 41 (41): Trong lúc học tiếng_Việt , học nhiều điều > For while studying Vietnamese , I thing studied many VEtran: During who learn Vietnamese, I learn talkativeness Google: While learning English, I learned a lot Sentence 42 (42): Không hiểu , sức_khỏe ngày xuống > Not comprehend star , my strength the more day nipper go down VEtran: Non- comprehension is stellar, health i more and more go down to Google: Somehow, his health is increasingly down 182 Sentence 43 (43): Vì thời_tiết xấu nên máy_bay khơng hạ_cánh > As bad weather so plane does not land VEtran: For dirty weather ought to plane landed Google: Because of bad weather, the plane not landing Sentence 44 (44): Dù có nhiều tiền không hạnh_phúc > Whether it has some moneys but still not happy it VEtran: Even if it is moneyed but it still whoes isn't blisstul Google: Although it has a lot of money but it is still not happy Sentence 45 (45): Cuốn sách anh đọc cô > Book you are reading is property that VEtran: Wind you is reading book is hers Google: The book he was reading her Sentence 46 (46): Tôi đọc tiểu_thuyết mà anh viết > I read fiction that he writes VEtran: I readed novel that he writes Google: I have read the novel that he wrote Sentence 47 (47): Sở_dĩ nhà_máy Loan hết việc là_do thiết_bị phụ_tùng hết > Loan's factory expires job because equipment and accessories finished VEtran: That's why be owing to plant and accessary finis Phoenix's factory ended Google: The reason Taiwan factory all is due to equipment and spare parts of all Sentence 48 (48): Ở chợ , quần_bị nhiều q , tơi khơng biết chọn loại > At market, too much jeans , I not know all choosing which sort VEtran: my bazaar, trousers who crept much whopping, is unaware which kind to choose is all together Google: At the market, many jeans too, I not know how to select all Sentence 49 (49): Lâu không nhận tin_tức > After long I not all accept her anything news VEtran: Long then I don' t receive news hers is all together Google: Long time since I received news of her whole Sentence 50 (50): Tơi chưa hiểu > I have not all understood anything about her VEtran: Not already My That what comprehension about her is all together Google: I not know anything about her 183 ... văn phạm liên kết 34 1.4.2 Các định nghĩa hình thức văn phạm liên kết 38 1.5 Kết luận 40 CHƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 43 2.1 .Văn phạm liên kết cho tiếng. .. dịch Việt - Anh nhằm tận dụng khả biểu diễn mối liên hệ trực tiếp từ mơ hình văn phạm liên kết 42 CHƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 2.1 .Văn phạm liên kết cho tiếng Việt Từ định nghĩa hình. .. điểm khác văn phạm phụ thuộc văn phạm liên kết Liên kết có nhãn: Nếu văn phạm phụ thuộc, quan hệ phụ thuộc không thiết có nhãn liên kết văn phạm liên kết bắt buộc phải có nhãn Trong văn phạm phụ