BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THU HƯƠNG MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT Chuyên ngành Khoa học máy tính Mã số 62 48 01 01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Ng[.]
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THU HƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: GS TS NGUYỄN THÚC HẢI GS.TS NGUYỄN THANH THỦY Hà Nội - Năm 2013 LỜI CẢM ƠN Trước trình bày nội dung nghiên cứu luận án, xin bày tỏ biết ơn chân thành đến hai thầy hướng dẫn, GS.TS Nguyễn Thúc Hải, GS.TS Nguyễn Thanh Thủy, người thầy kính mến khơng tận tình hướng dẫn giúp đỡ mà cịn động viên tơi nhiều để tơi hoàn thành luận án Xin chân thành cảm ơn đồng nghiệp Bộ mơn Khoa học Máy tính Viện Công nghệ thông tin Truyền thông, Đại học Bách khoa Hà Nội, hỗ trợ chia sẻ công việc, giúp đỡ nhiều lúc khó khăn Tơi xin chân thành cảm ơn PGS.TS Lương Chi Mai, PGS.TS Lê Thanh Hương, PGS TS Nguyễn Thị Kim Anh, PGS TS Đặng Văn Chuyết, TS Nguyễn Văn Vinh, TS Nguyễn Thị Minh Huyền giúp đỡ đóng góp rât nhiều ý kiến quý báu cho luận án Tôi xin chân thành cảm ơn nhà ngơn ngữ học: PGS.TS Phạm Văn Tình, PGS.TS Nguyễn Chí Hịa, Vũ Xn Lương, Đào Văn Hùng hỗ trợ tơi nhiệt tình tìm hiểu đặc trưng tiếng Việt Xin chân thành cảm ơn cựu sinh viên Lê Văn Chương, Phạm Nguyễn Quang Anh, Luyện Thanh Đạt, Lê Ngọc Minh giúp đỡ tơi q trình thử nghiệm mơ hình liên kết Xin chân thành cảm ơn nhóm nghiên cứu VLSP, đặc biệt GS.TS Hồ Tú Bảo TS Nguyễn Phương Thái cung cấp ngữ liệu tiếng Việt để thực thử nghiệm Xin bày tỏ lòng biết ơn sâu sắc đến chồng yêu dấu người gia đình nguồn động viên tinh thần quan trọng để tơi hồn thành cơng trình Hà Nội ngày 20 tháng năm 2012 Tác giả luận án Nguyễn Thị Thu Hương LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết luận án trung thực chưa công bố công trình khác Tác giả luận án Nguyễn Thị Thu Hương MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .4 DANH MỤC CÁC HÌNH VẼ DANH MỤC BẢNG BIỂU DANH MỤC CÁC KẾT NỐI QUAN TRỌNG .9 MỞ ĐẦU 11 CHƯƠNG TỔNG QUAN VỀ CÁC MƠ HÌNH VĂN PHẠM CHO NGƠN NGỮ TỰ NHIÊN 20 1.1 Cách tiếp cận cấu trúc văn phạm phi ngữ cảnh .20 1.1.1 Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên .20 1.1.2 Văn phạm phi ngữ cảnh xác suất .23 1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa 26 1.1.4 Văn phạm kết nối 27 1.2 Tiếp cận qua cấu trúc nét văn phạm hợp 28 1.3 Cách tiếp cận phụ thuộc 29 1.3.1 Một số khái niệm .29 1.3.2.Tính chất phụ thuộc .32 1.4 Văn phạm liên kết .34 1.4.1 Khái niệm văn phạm liên kết 34 1.4.2 Các định nghĩa hình thức văn phạm liên kết 38 1.5 Kết luận 40 CHƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 43 2.1.Văn phạm liên kết cho tiếng Việt .43 2.1.1 Cấu trúc từ điển liên kết 43 2.1.2 Xây dựng liên kết cho danh từ 47 2.1.3 Các liên kết cho động từ 55 2.1.4 Các liên kết cho tính từ 60 2.1.5 Liên kết mệnh đề câu ghép đơn giản 61 2.2 Mở rộng từ điển văn phạm liên kết .64 2.2.1 Giải thuật mở rộng từ điển .66 2.2.2 Ứng dụng giải thuật mở rộng từ điển tiếng Việt .67 2.2 Kết luận 68 CHƯƠNG PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT 70 3.1 Bộ phân tích cú pháp liên kết .70 3.1.1 Giải thuật phân tích cú pháp 70 3.1.2 Lược tỉa 72 3.1.3 Kết thử nghiệm phân tích câu đơn câu ghép đơn giản 74 3.2 Phân tích cú pháp cho câu ghép 77 3.2.1 Xây dựng diễn ngôn 81 3.2.2 Giải thuật phân tích cú pháp câu ghép .90 3.2.3 Tìm từ để kết nối mệnh đề .91 3.2.4 Kết thử nghiệm phân tích câu ghép 93 3.2.5 Độ phức tạp tính tốn 96 3.3.Khử nhập nhằng 96 3.3.1 Khử nhập nhằng thành phần 97 3.3.2 Khử nhập nhằng liên hợp 103 3.4 Kết luận 107 CHƯƠNG HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI 109 4.1 Tổng quan dịch máy 109 4.1.1.Tình hình phát triển dịch máy Việt Nam 109 4.1.2 Phương pháp đánh giá chất lượng dịch máy 111 4.2 Khác biệt ngôn ngữ Việt - Anh 112 4.2.1 Khác biệt hình thái 112 4.2.2 Khác biệt trật tự từ 115 4.3 Hệ thống dịch máy sử dụng dạng tuyển có giải .116 4.3.1.Tìm nghĩa từ từ điển ADJ 118 4.3.2.Xây dựng luật dịch 119 4.3.3.Hoàn thiện câu dịch 125 4.3.4.Kết thử nghiệm với dịch dựa dạng tuyển có giải 126 4.4 Kết luận 130 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133 Tóm tắt 133 Các đóng góp luận án .133 Về mặt khoa học .133 Về mặt thực tiễn 134 Hạn chế hướng phát triển 135 CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ 136 TÀI LIỆU THAM KHẢO 137 TIẾNG VIỆT 137 TIẾNG ANH 139 TIẾNG NGA 147 CÁC WEBSITE 147 PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG VIỆT 148 PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ CÂU GHÉP HAI MỆNH ĐỀ .166 PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH 174 Luật xác định thuộc tính 174 Luật dịch cụm từ 175 Luật chuyển đổi cấu trúc 178 PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU 179 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT HMM Hidden Markov Model: Mơ hình Markov ẩn BNF Backus Naur Form: Công thức siêu ngữ Backus ADJ Annotated Disjunct: Dạng tuyển có giải RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn CCR Chunks/Constituents/Relation SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ SVM Support Vector Machine: Máy vectơ hỗ trợ CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện EDU Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng DANH MỤC CÁC HÌNH VẼ Hình 1.1 Cây ngữ cấu câu “Tơi thích chân gà” 21 Hình 1.2 Hai ngữ cấu câu “Họ không chuyển hàng xuống thuyền vào ngày mai” 22 Hình 1.3 Văn phạm phi ngữ cảnh xác suất ngữ cấu câu “Last week IBM bought Lotus” 27 Hình 1.4 Phân tích câu “John loves a woman” mơ hình văn phạm phụ thuộc 31 Hình 1.5 Đồ thị phụ thuộc câu “Economic news had little effect on financial market” 32 Hình 1.6 Câu ngữ pháp “Tại cậu không tới” 35 Hình 1.7 Kết nối lớn từ “và” 37 Hình1.8 Chu trình phân tích câu 38 Hình 1.9 Nút liên kết 39 Hình 2.1 Cấu trúc danh ngữ với đầy đủ thành tố 48 Hình 2.2 Liên kết cụm từ “những bàn” 51 Hình 2.4 Liên kết cụm từ “cái bàn gỗ” .53 Hình 2.3 Liên kết cụm từ “cái giường lò xo” 53 Hình 2.5 Liên kết cụm từ “cái bàn tôi” .54 Hình 2.6 Hai cách liên kết cho cụm từ “cái bàn gỗ tơi” .54 Hình 2.7 Các liên kết xoay quanh danh từ trung tâm “ghế” 55 Hình 2.8 Thành tố phụ trước động từ 56 Hình 2.9 Liên kết cụm từ “vẫn làm” 57 Hình 2.10 Liên kết cụm từ “khơng hay đọc sách này” 57 Hình 2.11 Liên kết cụm từ “đang sợ” 59 Hình 2.12 Liên kết cụm từ “ sâu hai ngàn mét” 61 Hình 2.13 Liên kết câu ghép hai mệnh đề với liên từ .62 Hình 2.14 Liên kết câu ghép hai mệnh đề với liên từ đầu dấu phảy 63 Hình 2.15 Liên kết câu ghép với liên từ có mặt hai mệnh đề 63 Hình 2.16 Một đoạn từ điển văn phạm liên kết 64 Hình 2.17 Ánh xạ trực cảm 67 Hình 2.18 Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt .69 Hình 3.1 Giải thuật phân tích .70 Hình 3.2 Lời giải cục .70 Hình 3.3 Giải thuật phân tích cú pháp liên kết 71 Hình 3.4.Hàm COUNT cho số phân tích câu 71 Hình 3.5 Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+}) 73 Hình 3.6 Số lượng dạng tuyển sau lược tỉa lược tỉa mạnh 74 Hình 3.7 Kêt phân tích liên kết câu “Chúng muốn giành danh hiệu” .75 Hình 3.8 Kêt phân tích liên kết câu “Mỗi mùa trắng tay khó nuốt trôi” .75 Hình 3.9 Kết phân tích liên kết câu “Phần lớn bọ ngựa ăn trùng” 76 Hình 3.10 Cây phân tích diễn ngơn câu “[trời mưa to vàA1] [gió mạnh nênB1] [tôi phải nghỉ học,C1 ] [mẹ phải nghỉ làm.D1 ]” 80 Hình 3.11 Giải thuật phân đoạn diễn ngơn (có khử nhập nhằng) 85 Hình 3.12 Hàm isClause .87 Hình 3.13 Các dạng cấu trúc diễn ngơn 89 Hình 3.14 Giải thuật phân tích cú pháp cho câu ghép 90 Hình 3.15 Hàm Insert_Link_From_RST_Tree 91 Hình 3.16 Minh họa cách lưu trữ phân tích liên kết câu “Tơi mua hoa” .92 Hình 3.17 Phân tích câu “Tơi mua bơng hoa” 92 Hình 3.18 Phân tích cụm từ “một bút tốt” 93 Hình 3.19 Kết phân tích câu “Trời mưa to gió mạnh nên tơi phải nghỉ học, mẹ phải nghỉ làm” 94 Hình 3.20 Hai phân tích câu “Tơi mua bơng hoa” 98 Hình 3.21 Giải thuật kiểu Viterbi để dự đốn phân tích có xác suất cao 99 Hình 3.22 Mơ tả cách tính xác suất PrO ⊲ left(L, W, l ⊳, ⊲ leftd) .101 Hình 3.23 Minh họa mối liên kết để tính ꢀꢁOꢂꢃꢄꢅ 102 Hình 3.24 Phân tích câu “Tơi thích bánh kẹo, anh thích rượu bia” 105 Hình 3.25 Một phân tích với kết nối F cho từ “và” 106 Hình 3.26 Kết nối G nối nhiều dấu phảy từ “và” 107 Hình 4.1.Sắp xếp lại trật tự từ .115 Hình 4.2 Kiến trúc hệ dịch dựa dạng tuyển có giải 118 Hình 4.3 Thay đổi trật tự từ cho dịch câu “Cô gái nhỏ xinh” 122 Hình 4.4 Quá trình dịch câu “Báo săn loại động vật nhanh giới” 128 Hình 4.5 So sánh điểm BLEU hệ thống 129