BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THU HƯƠNG MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT Chuyên ngành Khoa học máy tính Mã số 62 48 01 01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Ng[.]
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THU HƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: GS TS NGUYỄN THÚC HẢI GS.TS NGUYỄN THANH THỦY Hà Nội - Năm 2013 LỜI CẢM ƠN Trước trình bày nội dung nghiên cứu luận án, xin bày tỏ biết ơn chân thành đến hai thầy hướng dẫn, GS.TS Nguyễn Thúc Hải, GS.TS Nguyễn Thanh Thủy, người thầy kính mến khơng tận tình hướng dẫn giúp đỡ mà cịn động viên tơi nhiều để tơi hoàn thành luận án Xin chân thành cảm ơn đồng nghiệp Bộ mơn Khoa học Máy tính Viện Công nghệ thông tin Truyền thông, Đại học Bách khoa Hà Nội, hỗ trợ chia sẻ công việc, giúp đỡ nhiều lúc khó khăn Tơi xin chân thành cảm ơn PGS.TS Lương Chi Mai, PGS.TS Lê Thanh Hương, PGS TS Nguyễn Thị Kim Anh, PGS TS Đặng Văn Chuyết, TS Nguyễn Văn Vinh, TS Nguyễn Thị Minh Huyền giúp đỡ đóng góp rât nhiều ý kiến quý báu cho luận án Tôi xin chân thành cảm ơn nhà ngơn ngữ học: PGS.TS Phạm Văn Tình, PGS.TS Nguyễn Chí Hịa, Vũ Xn Lương, Đào Văn Hùng hỗ trợ tơi nhiệt tình tìm hiểu đặc trưng tiếng Việt Xin chân thành cảm ơn cựu sinh viên Lê Văn Chương, Phạm Nguyễn Quang Anh, Luyện Thanh Đạt, Lê Ngọc Minh giúp đỡ tơi q trình thử nghiệm mơ hình liên kết Xin chân thành cảm ơn nhóm nghiên cứu VLSP, đặc biệt GS.TS Hồ Tú Bảo TS Nguyễn Phương Thái cung cấp ngữ liệu tiếng Việt để thực thử nghiệm Xin bày tỏ lòng biết ơn sâu sắc đến chồng yêu dấu người gia đình nguồn động viên tinh thần quan trọng để tơi hồn thành cơng trình Hà Nội ngày 20 tháng năm 2012 Tác giả luận án Nguyễn Thị Thu Hương LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết luận án trung thực chưa công bố công trình khác Tác giả luận án Nguyễn Thị Thu Hương MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .4 DANH MỤC CÁC HÌNH VẼ DANH MỤC BẢNG BIỂU DANH MỤC CÁC KẾT NỐI QUAN TRỌNG .9 MỞ ĐẦU 11 CHƯƠNG TỔNG QUAN VỀ CÁC MƠ HÌNH VĂN PHẠM CHO NGƠN NGỮ TỰ NHIÊN 20 1.1 Cách tiếp cận cấu trúc văn phạm phi ngữ cảnh 20 1.1.1 Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên 20 1.1.2 Văn phạm phi ngữ cảnh xác suất 23 1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa 26 1.1.4 Văn phạm kết nối 27 1.2 Tiếp cận qua cấu trúc nét văn phạm hợp 28 1.3 Cách tiếp cận phụ thuộc 29 1.3.1 Một số khái niệm 29 1.3.2.Tính chất phụ thuộc 32 1.4 Văn phạm liên kết 34 1.4.1 Khái niệm văn phạm liên kết 34 1.4.2 Các định nghĩa hình thức văn phạm liên kết 38 1.5 Kết luận 40 CHƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 43 2.1.Văn phạm liên kết cho tiếng Việt 43 2.1.1 Cấu trúc từ điển liên kết 43 2.1.2 Xây dựng liên kết cho danh từ 47 2.1.3 Các liên kết cho động từ 55 2.1.4 Các liên kết cho tính từ 60 2.1.5 Liên kết mệnh đề câu ghép đơn giản 61 2.2 Mở rộng từ điển văn phạm liên kết 64 2.2.1 Giải thuật mở rộng từ điển 66 2.2.2 Ứng dụng giải thuật mở rộng từ điển tiếng Việt 67 2.2 Kết luận 68 CHƯƠNG PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT 70 3.1 Bộ phân tích cú pháp liên kết 70 3.1.1 Giải thuật phân tích cú pháp 70 3.1.2 Lược tỉa 72 3.1.3 Kết thử nghiệm phân tích câu đơn câu ghép đơn giản 74 3.2 Phân tích cú pháp cho câu ghép 77 3.2.1 Xây dựng diễn ngôn 81 3.2.2 Giải thuật phân tích cú pháp câu ghép 90 3.2.3 Tìm từ để kết nối mệnh đề 91 3.2.4 Kết thử nghiệm phân tích câu ghép 93 3.2.5 Độ phức tạp tính tốn 96 3.3.Khử nhập nhằng 96 3.3.1 Khử nhập nhằng thành phần 97 3.3.2 Khử nhập nhằng liên hợp 103 3.4 Kết luận 107 CHƯƠNG HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI 109 4.1 Tổng quan dịch máy 109 4.1.1.Tình hình phát triển dịch máy Việt Nam 109 4.1.2 Phương pháp đánh giá chất lượng dịch máy 111 4.2 Khác biệt ngôn ngữ Việt - Anh 112 4.2.1 Khác biệt hình thái 112 4.2.2 Khác biệt trật tự từ 115 4.3 Hệ thống dịch máy sử dụng dạng tuyển có giải 116 4.3.1.Tìm nghĩa từ từ điển ADJ 118 4.3.2.Xây dựng luật dịch 119 4.3.3.Hoàn thiện câu dịch 125 4.3.4.Kết thử nghiệm với dịch dựa dạng tuyển có giải 126 4.4 Kết luận 130 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133 Tóm tắt 133 Các đóng góp luận án 133 Về mặt khoa học 133 Về mặt thực tiễn 134 Hạn chế hướng phát triển 135 CÁC CÔNG TRÌNH Đà CƠNG BỐ 136 TÀI LIỆU THAM KHẢO 137 TIẾNG VIỆT 137 TIẾNG ANH 139 TIẾNG NGA 147 CÁC WEBSITE 147 PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG VIỆT 148 PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ CÂU GHÉP HAI MỆNH ĐỀ 166 PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH 174 Luật xác định thuộc tính 174 Luật dịch cụm từ 175 Luật chuyển đổi cấu trúc 178 PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU 179 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT HMM Hidden Markov Model: Mơ hình Markov ẩn BNF Backus Naur Form: Công thức siêu ngữ Backus ADJ Annotated Disjunct: Dạng tuyển có giải RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn CCR Chunks/Constituents/Relation SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ SVM Support Vector Machine: Máy vectơ hỗ trợ CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện EDU Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng DANH MỤC CÁC HÌNH VẼ Hình 1.1 Cây ngữ cấu câu “Tơi thích chân gà” 21 Hình 1.2 Hai ngữ cấu câu “Họ không chuyển hàng xuống thuyền vào ngày mai” 22 Hình 1.3 Văn phạm phi ngữ cảnh xác suất ngữ cấu câu “Last week IBM bought Lotus” 27 Hình 1.4 Phân tích câu “John loves a woman” mơ hình văn phạm phụ thuộc 31 Hình 1.5 Đồ thị phụ thuộc câu “Economic news had little effect on financial market” 32 Hình 1.6 Câu ngữ pháp “Tại cậu không tới” 35 Hình 1.7 Kết nối lớn từ “và” 37 Hình1.8 Chu trình phân tích câu 38 Hình 1.9 Nút liên kết 39 Hình 2.1 Cấu trúc danh ngữ với đầy đủ thành tố 48 Hình 2.2 Liên kết cụm từ “những bàn” 51 Hình 2.4 Liên kết cụm từ “cái bàn gỗ” 53 Hình 2.3 Liên kết cụm từ “cái giường lò xo” 53 Hình 2.5 Liên kết cụm từ “cái bàn tôi” 54 Hình 2.6 Hai cách liên kết cho cụm từ “cái bàn gỗ tôi” 54 Hình 2.7 Các liên kết xoay quanh danh từ trung tâm “ghế” 55 Hình 2.8 Thành tố phụ trước động từ 56 Hình 2.9 Liên kết cụm từ “vẫn làm” 57 Hình 2.10 Liên kết cụm từ “không hay đọc sách này” 57 Hình 2.11 Liên kết cụm từ “đang sợ” 59 Hình 2.12 Liên kết cụm từ “ sâu hai ngàn mét” 61 Hình 2.13 Liên kết câu ghép hai mệnh đề với liên từ 62 Hình 2.14 Liên kết câu ghép hai mệnh đề với liên từ đầu dấu phảy 63 Hình 2.15 Liên kết câu ghép với liên từ có mặt hai mệnh đề 63 Hình 2.16 Một đoạn từ điển văn phạm liên kết 64 Hình 2.17 Ánh xạ trực cảm 67 Hình 2.18 Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt 69 Hình 3.1 Giải thuật phân tích 70 Hình 3.2 Lời giải cục 70 Hình 3.3 Giải thuật phân tích cú pháp liên kết 71 Hình 3.4.Hàm COUNT cho số phân tích câu 71 Hình 3.5 Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+}) 73 Hình 3.6 Số lượng dạng tuyển sau lược tỉa lược tỉa mạnh 74 Hình 3.7 Kêt phân tích liên kết câu “Chúng muốn giành danh hiệu” 75 Hình 3.8 Kêt phân tích liên kết câu “Mỗi mùa trắng tay khó nuốt trơi” 75 Hình 3.9 Kết phân tích liên kết câu “Phần lớn bọ ngựa ăn trùng” 76 Hình 3.10 Cây phân tích diễn ngơn câu “[trời mưa to vàA1] [gió mạnh nênB1] [tơi phải nghỉ học,C1] [mẹ phải nghỉ làm.D1]” 80 Hình 3.11 Giải thuật phân đoạn diễn ngơn (có khử nhập nhằng) 85 Hình 3.12 Hàm isClause 87 Hình 3.13 Các dạng cấu trúc diễn ngôn 89 Hình 3.14 Giải thuật phân tích cú pháp cho câu ghép 90 Hình 3.15 Hàm Insert_Link_From_RST_Tree 91 Hình 3.16 Minh họa cách lưu trữ phân tích liên kết câu “Tơi mua bơng hoa” 92 Hình 3.17 Phân tích câu “Tơi mua bơng hoa” 92 Hình 3.18 Phân tích cụm từ “một bút tốt” 93 Hình 3.19 Kết phân tích câu “Trời mưa to gió mạnh nên tơi phải nghỉ học, mẹ phải nghỉ làm” 94 Hình 3.20 Hai phân tích câu “Tơi mua bơng hoa” 98 Hình 3.21 Giải thuật kiểu Viterbi để dự đốn phân tích có xác suất cao 99 Hình 3.22 Mơ tả cách tính xác suất PrO ⊲ left(L, W, l ⊳, ⊲ leftd) 101 O Hình 3.23 Minh họa mối liên kết để tính 102 Hình 3.24 Phân tích câu “Tơi thích bánh kẹo, anh thích rượu bia” 105 Hình 3.25 Một phân tích với kết nối F cho từ “và” 106 Hình 3.26 Kết nối G nối nhiều dấu phảy từ “và” 107 Hình 4.1.Sắp xếp lại trật tự từ 115 Hình 4.2 Kiến trúc hệ dịch dựa dạng tuyển có giải 118 Hình 4.3 Thay đổi trật tự từ cho dịch câu “Cô gái nhỏ xinh” 122 Hình 4.4 Quá trình dịch câu “Báo săn loại động vật nhanh giới” 128 Hình 4.5 So sánh điểm BLEU hệ thống 129 DANH MỤC BẢNG BIỂU Bảng 1.1 Ví dụ từ điển 34 Bảng 2.1.Các loại từ tiếng Việt 45 Bảng 2.2 Các tiểu loại từ tiếng Việt 45 Bảng 3.1 Chi tiết ngữ liệu mẫu cho phân tích cú pháp liên kết 76 Bảng 3.2 Kết phân tích liên kết cho tập mẫu 76 Bảng 3.3 Kết thử nghiệm phân tích diễn ngơn (chưa kết hợp phân tích cú pháp) 79 Bảng 3.4 Các biểu thức quy biểu diễn số dấu hiệu diễn ngôn tiềm tàng81 Bảng 3.5 Hành động ứng với số dấu hiệu diễn ngôn 82 Bảng 3.6 Chi tiết tập mẫu câu ghép 94 Bảng 3.7 Kết phân tích tập mẫu câu ghép 95 Bảng 4.1 Những khác biệt quan trọng hình thái tiếng Việt tiếng Anh 113 Bảng 4.2 Đại từ xưng hô tiếng Anh 114 Bảng 4.3 Đại từ xưng hô tiếng Việt 114 Bảng 4.4 So sánh kết hệ thống dịch 129 DANH MỤC CÁC KẾT NỐI QUAN TRỌNG CLI Kết nối chất liệu (ẩn giới từ) DI Kết nối động từ “đi” với động từ khác DpN Kết nối định từ số nhiều với danh từ DpNt Kết nối định từ số nhiều với danh từ cụ thể DsN Kết nối định từ số với danh từ DT_LA Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là” ĐT_XONG Kết nối động từ động từ “xong” EoPp Kết nối giới từ “của” với đại từ xưng hơ EpNt Kết nối giới từ vị trí danh từ cụ thể EsNt Kết nối danh từ cụ thể giới từ phạm vi LA_DT Kết nối động từ “là” với danh từ McNu Kết nối số từ danh từ đơn vị NcNt1 Kết nối danh từ loại với danh từ cụ thể người NcNt2 Kết nối danh từ loại với danh từ cụ thể động vật NcNt3 Kết nối danh từ loại với danh từ cụ thể thực vât NcNt4 Kết nối danh từ loại với danh từ cụ thể đồ dùng, vật dụng NcNt5 Kết nối danh từ loại với danh từ cụ thể tượng NcNt6 Kết nối danh từ loại với danh từ cụ thể khái niệm NEo Kết nối danh từ giới từ sở hữu NN Kết nối danh từ danh từ, thể quan hệ nội dung, địa điểm… NtEm Kết nối danh từ cụ thể giới từ chất liệu NtEs Kết nối giới từ phạm vi danh từ cụ thể NtPd Kết nối danh từ cụ thể với đại từ định NuNt Kết nối danh từ đơn vị danh từ cụ thể NHAT_DT Kết nối từ “nhất” với danh từ đứng sau O Kết nối động từ bổ ngữ trực tiếp RcV Kết nối động từ với phụ từ so sánh RfA Kết nối phụ từ thời gian (tương lai) tính từ RfVt Kết nối định từ tương lai động từ RfVt Kết nối động từ với phụ từ thời gian (tương lai) RhA Kết nối phụ từ thời gian (hiện hồn thành) tính từ RhV Kết nối phụ từ thời gian (hiện hoàn thành) động từ RmV Kết nối động từ với phụ từ mệnh lệnh RnV Kết nối phủ định từ động từ RnV1 Kết nối động từ với phụ từ phủ định RpA Kết nối phụ từ thời gian (quá khứ) tính từ RpV Kết nối động từ với phụ từ thời gian (quá khứ) RpVt Kết nối định từ khứ động từ RtA Kết nối phụ từ thời gian (hiện tại) tính từ RtV Kết nối động từ với phụ từ thời gian (hiện tại) SA Kết nối danh từ, đại từ xưng hơ với tính từ SA Kết nối danh từ tính từ SH Kết nối giới từ sở hữu danh từ chủ sở hữu SHA Kết nối hai danh từ quan hệ sở hữu ẩn SS_NHAT Kết nối tính từ với từ “nhất” SV Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động từ THS Kết nối từ để hỏi đứng sau động từ động từ THT Kết nối từ để hỏi đứng trước động từ động từ VmVt Kết nối động từ tình thái động từ cụ thể VtAp Kết nối ngoại động từ tính từ tính chất VtEp Kết nối ngoại động từ giới từ vị trí VtVs Kết nối động từ ngoại động động từ trạng thái 10 MỞ ĐẦU Xử lý ngôn ngữ tự nhiên máy tính tốn khó cơng nghệ thơng tin Nghiên cứu xử lý ngôn ngữ tự nhiên khởi động từ năm 40 kỷ 20, sau xuất máy tính điện tử Dù bắt đầu muộn hơn, xử lý tiếng Việt phát triển mạnh mẽ năm gần bùng nổ thông tin mạng Internet với hàng loạt yêu cầu tìm kiếm, dịch thuật tài liệu, quảng bá thơng tin, đào tạo, hội thảo từ xa Số nhà nghiên cứu theo đuổi lĩnh vực tăng lên nhanh chóng, tiếp cận theo hai hướng lớn: xử lý tiếng nói xử lý văn Do phạm vi đề tài, luận án đề cập đến số vấn đề liên quan nhánh xử lý văn Phân tích cú pháp khâu quan trọng để giải nhiều vấn đề khác, phân tích cú pháp tiếng Việt xây dựng từ sớm Đầu tiên phân tích cú pháp dựa văn phạm phi ngữ cảnh với phương pháp truyền thống: phân tích cú pháp theo phương pháp CYK Lê Thanh Hương đồng nghiệp [12], phân tích cú pháp theo phương pháp Earley Phan Thị Tươi [27], Nguyễn Gia Định đồng nghiệp [5] Để giải vấn đề nhập nhằng, nhóm Lê Thanh Hương sử dụng văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất [22], văn phạm cấu trúc đoạn hướng trung tâm[15] Nhiều mơ hình văn phạm khác xây dựng cho tiếng Việt với để mở rộng lớp ngôn ngữ biểu diễn: văn phạm kết nối từ vựng hóa Nguyễn Thị Minh Huyền đồng nghiệp xây dựng [20], [101] cho phép biểu diễn lớp ngôn ngữ cảm ngữ cảnh, cấu trúc nét văn phạm hợp nhóm Trần Ngọc Tuấn sử dụng [26], [122], [123] cho phép biểu diễn lớp ngôn ngữ lớn theo phân cấp Chomsky[63]: lớp ngôn ngữ loại Dịch tự động lĩnh vực khó lại có khả ứng dụng thực tế lớn Hiện nhà nghiên cứu Việt Nam thử nghiệm số hệ thống dịch tự động dựa hướng tiếp cận khác Có thể kể đến VCLEVT Trường Đại học Khoa hoc Tự nhiên ĐHQG TP Hồ Chí Minh với tiếp cận BTL - học luật chuyển đổi từ ngữ liệu song ngữ [3] Hệ dịch Việt Nam thương mại hóa EVtran - VEtran Nacentech theo cách tiếp cận dựa luật [10] Một hệ thống dịch khác đạt chất lượng tốt hệ thống Vietgle chuyên dịch Anh - Việt Lạc Việt Ngồi cịn có hệ dịch máy khác hệ LVT Đại học Công nghệ ĐHQG Hà Nội [93], hệ dịch máy thống kê Việt - Anh sử dụng phân tích cú pháp có xác suất Trường Đại học Bách khoa thành phố Hồ Chí Minh [124] Cũng khơng thể khơng nhắc đến hệ thống dịch Google Translate 11 theo hướng tiếp cận thống kê với kho ngữ liệu khổng lồ Google Nhìn chung, sản phẩm dịch tự động chủ yếu theo hướng Anh - Việt Số lượng chất lượng hệ thống dịch Việt - Anh hạn chế Về khai thác văn Internet, nhiều nhà nghiên cứu Việt Nam quan tâm đến lĩnh vực biểu diễn văn Hồ Tú Bảo [29],[33]; khai phá web, web ngữ nghĩa Cao Hoàng Trụ [117], Hồ Tú Bảo[63]; tóm tắt văn Lê Thanh Hương [66], nhóm Hà Thành Lê [15] Tuy nhiên, khơng có nhiều nghiên cứu thực văn tiếng Việt hệ thống tóm tắt văn nhóm Hà Thành Lê [15], hệ thống rút trích nội dung trang web tiếng Việt nhóm Đỗ Phúc [19] Do đặc điểm cấu tạo từ, phân tách gán nhãn từ giai đoạn tiền xử lý bắt buộc hệ thống xử lý tiếng Việt Công cụ phân tách từ vnTokenizer Nguyễn Thị Minh Huyền, Lê Hồng Phương đồng nghiệp phát triển, sử dụng ôtô mat hữu hạn kết hợp phân tích biểu thức quy để xác định chuỗi từ [102] Trường hợp nhập nhằng giải thuật toán trực cảm (heuristic), ưu tiên cách phân tách cho kết chứa từ có độ dài lớn Phương pháp đạt độ xác cao với ngữ liệu mẫu (trên 98,5%) [116] Bộ tách từ JVnSegmenter nhóm Phan Xuân Hiếu [121] sử dụng công nghệ CRF SVM cho kết 94% Ngồi kể đến tách từ Lê An Hà [60] tính xác suất độ hợp lý cực đại (maximum likelihood) Bài toán gán nhãn từ loại thường giải toán tách từ Cùng với JVnSegmenter, tác giả xây dựng gán nhãn từ JVnTagger sử dung CRF entropy cực đại [7] Bộ vnTokennizer kèm với vnQTAG [13] Một số nghiên cứu tác giả Việt Nam tập trung vào khử nhập nhằng nghĩa từ Lê Anh Cường [45], [46], Đinh Điền [48] Các ngữ liệu tài nguyên quan trọng xử lý tiếng Việt Các đề tài cấp nhà nước KC.01-03, KC.01.01/06-10 thu thập kho ngữ liệu tiếng Việt lấy từ báo điện tử Hiện nay, ngữ liệu triệu âm tiết tách từ, 10.000 câu gán nhãn từ loại, treebank tiếng Việt với 10.000 phân tích câu xây dựng Đây đóng góp lớn, tạo thuận lợi đáng kể cho nghiên cứu xử lý tiếng Việt tự động Về ngữ liệu song ngữ: kho ngữ liệu sách báo song ngữ đáng kể nhiên kho ngữ liệu khó hỗ trợ cho xử lý tự động, chưa thực thao tác tiền xử lý gióng hàng mức câu, mức từ Ngữ liệu song ngữ Anh -Việt điện tử (có dịch 1-1, có gán nhãn ngơn ngữ) phổ biến có kho ngữ liệu song ngữ Anh -Việt EVC Cao Hồng 12 Trụ cơng trình cơng bố thức nước[24], [25], kho ngữ liệu song ngữ nhóm Đinh Điền cơng bố ngồi nước [47] Đã có cơng trình nghiên cứu chi tiết xây dựng khai thác kho ngữ liệu song ngữ Anh - Việt có gán nhãn ngơn ngữ Đinh Điền [48] Cũng có kết khác xây dựng kho ngữ liệu cho xử lý văn nhóm Nguyễn Thị Minh Huyền [36], [37], Phan Huy Khánh [73] Đề tài KC.01.01/06-10 thu thập 100.000 câu song ngữ Anh - Việt gióng hàng mức câu, có 20.000 câu thuộc lĩnh vực tin học 80.000 câu thuộc lĩnh vực kinh tế, xã hội Ngữ liệu song ngữ Việt - Anh cịn nghèo nàn, chưa có ngữ liệu mẫu đáng kể Một số từ điển điện tử xây dựng, chủ yếu để phục vụ tra cứu máy tính, nhiên phần lớn từ điển chưa dùng xử lý tự động Đáng kể từ điển tiếng Việt đề tài KC.01.01/06-10 [16] xây dựng mơ hình LMF với ba gói: hình thái, cú pháp, ngữ nghĩa Bộ từ điển thể tồn diện thơng tin liên quan đến từ pháp cú pháp Một số từ điển song ngữ cung cấp miễn phí từ điển Anh - Việt đề tài KC.01.01/06-10 gồm gần 60.000 mục từ, từ điển Việt - Anh đề tài nói cung cấp gồm 11.000 mục từ, từ điển Anh - Việt Hồ Ngọc Đức bao gồm 110.000 mục từ, từ điển Việt - Anh gồm 23.000 mục từ Trên phần tranh tình hình nghiên cứu xử lý tự động văn tiếng Việt với phát triển đáng kể thời gian vừa qua Nếu so với tiếng Anh, ngôn ngữ châu Âu, hay tiếng Trung, Nhật, Hàn, thấy nguồn tài nguyên phục vụ cho xử lý tiếng Việt cịn nghèo nàn Cho dù có lấn át phương pháp học máy, thống kê, nghiên cứu tách rời hồn tồn mơ hình biểu diễn cú pháp Việc tham khảo cấu trúc cú pháp văn nguồn văn đích xuất hệ thống dịch nhóm Đinh Điền [3], nhóm Đại học Bách khoa thành phố Hồ Chí Minh [124], nhóm nghiên cứu JAIST [115] Sử dụng phương pháp học thống kê kết hợp biểu diễn cú pháp cho sản phẩm có chất lượng tốt hẳn, chẳng hạn lĩnh vực dịch máy [115] Như vấn đề biểu diễn cú pháp vấn đề quan trọng xử lý tiếng Việt Mơ hình văn phạm phi ngữ cảnh mơ hình phổ biến để biểu diễn cú pháp tiếng Việt phân tích cú pháp theo phương pháp tiếng CYK, Earley [12], [27], [5] Mơ hình sử dụng cho số hệ thống dịch máy [124] Việc phân chia từ thành lớp mà không quan tâm đến đặc điểm từ vựng văn phạm ngữ cấu cổ điển làm cho phân tích cú pháp chấp nhận nhiều câu không 13 sử dụng thực tế, ví dụ câu tiếng Việt “Tơi mua hai thóc” Câu này, khơng tồn tiếng Việt từ “thóc” khơng trực tiếp sau số từ Hiện tượng phổ biến ngơn ngữ khác Xu hướng từ vựng hóa văn phạm nhiều nhà nghiên cứu quan tâm Nhiều mơ hình văn phạm từ vựng hóa xây dựng cho ngôn ngữ tự nhiên văn phạm phi ngữ cảnh từ vựng hóa,văn phạm chức từ vựng hóa, văn phạm cấu trúc đoạn hướng trung tâm, văn phạm kết nối từ vựng hóa, văn phạm phạm trù tổ hợp, văn phạm liên kết Hiện nay, xu hướng từ vựng hóa ảnh hưởng tới văn phạm tiếng Việt Các mơ hình văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất [22], văn phạm kết nối từ vựng hóa [20] phát triển cho tiếng Việt Tuy nhiên có số văn phạm văn phạm phạm trù tổ hợp, văn phạm liên kết hoàn tồn từ vựng hóa, tức tồn luật riêng cho mục từ [112] Mơ hình hồn tồn từ vựng hóa cho phép đặc tả nhiều ngoại lệ cú pháp từ pháp tiếng Việt Tập ký hiệu khơng kết thúc có kích cỡ lớn làm cho phân tích câu văn phạm phi ngữ cảnh trở nên phức tạp Do sử dụng phân tích cho mục đích khác dịch máy, sinh ngôn ngữ cần nhiều bước xử lý theo mức phân cấp Hơn nữa, muốn tìm mối liên hệ hai từ câu theo mơ hình phi ngữ cảnh, phải vượt qua khoảng cách không nhỏ, chí lần theo mối nối đến tận nút gốc với chi phí thời gian lớn Trong tiếng Việt, với nhiều trường hợp, quan hệ từ lại quan trọng cho biết thơng tin số danh từ, thì, thể động từ, hay nhiều loại quan hệ khác quan hệ sở hữu, quan hệ chất liệu Cách tiếp cận phụ thuộc xu hướng trội để biểu diễn cú pháp Ưu điểm văn phạm phụ thuộc khơng có tập ký hiệu không kết thúc Cây phụ thuộc thể mối quan hệ trực tiếp từ câu, đơn giản nhiều so với ngữ cấu Khi sử dụng quan hệ phụ thuộc có gán nhãn, mơ hình phụ thuộc mã hóa trực tiếp cấu trúc vị ngữ - bổ ngữ Do dịch (hiểu) riêng đoạn câu Mơ hình văn phạm phụ thuộc khơng xạ ảnh (non projective) có đặc điểm cấu trúc phụ thuộc độc lập với trật tự từ, thích hợp với ngơn ngữ có trật tự từ tự Tất nhiên mơ hình văn phạm phụ thuộc tỏ hiệu cho ngơn ngữ có trật tự từ chặt chẽ Chính vậy, phân tích cú pháp xây dựng mơ hình phụ thuộc phát triển cho hầu hết ngôn ngữ phổ biến giới, khởi đầu phân tích cú pháp tiếng Anh Collins [44], phân tích cú pháp phụ thuộc đại học Stanford Các phân tích cú pháp phụ thuộc cho ngôn ngữ khác: tiếng Pháp Candito [39], [40], tiếng 14 Nga nhóm Bogulavsky [98], tiếng Trung Quốc Lai Bong Yeung Tom, Changning Huang [118], tiếng Nhật Matsumoto đồng nghiệp [99], [125], tiếng Hàn So Young Kwon [78] xây dựng Nhiều ngôn ngữ Đông Nam Á phân tích cú pháp theo hướng phụ thuộc tiếng Indonesia với phân tích cú pháp Kamayani Purwarianti [72], tiếng Thái Lan với phân tích cú pháp Tongchim [119], tiếng Tagalog (Philippines) với phân tích Maguilimotan Matsumoto [85] Mơ hình văn phạm phụ thuộc hữu hiệu cho ứng dụng tóm tắt văn [91], [108], rút trích thơng tin [42], dịch máy [49], [55] Vai trị quan trọng mơ hình phụ thuộc rõ ràng Tuy nhiên mơ hình văn phạm phụ thuộc có điểm khó mặt ngơn ngữ học Theo Nguyễn Tài Cẩn [2] nhiều tranh luận phụ thuộc yếu tố câu tiếng Việt, chẳng hạn số đối tượng đóng vai trị phụ cú pháp, lại đóng vai trị từ pháp hay vai trò trung tâm danh ngữ, động ngữ thuộc đối tượng nhiều quan điểm khác Do vậy, dù nhắc đến số tài liệu [6], chưa có cơng trình văn phạm phụ thuộc cơng bố lĩnh vực ngơn ngữ học Tiếng Việt có phân tích cú pháp phụ thuộc theo mơ hình đồ thị [17] khó phát triển nữa, chưa có hệ thống văn phạm phụ thuộc đầy đủ Với mong muốn tiếp cận với mơ hình văn phạm dạng phụ thuộc thiên từ pháp, luận án chọn cho đề tài mơ hình theo hướng phụ thuộc hồn tồn từ vựng hóa: mơ hình văn phạm liên kết Văn phạm liên kết mơ hình D.Sleator D Temperley đưa [111], cho phép từ có số mối liên hệ với từ bên trái bên phải, thỏa mãn yêu cầu tính phẳng, tính liên thơng, tính thỏa mãn, tính thứ tự tính loại trừ Văn phạm liên kết văn phạm theo cách tiếp cận phụ thuộc, thể điểm sau: Phân tích liên kết khơng chứa ký hiệu khơng kết thúc, chí cấu trúc cịn đơn giản phụ thuộc Có thể coi phân tích liên kết danh sách tuyến tính với nút chứa không mối liên hệ với nút khác Ngân hàng phân tích đơn giản ngân hàng ngữ cấu Nhiều sở liệu thiết lập từ ngân hàng phân tích lớn ngân hàng liệu đa phương tiện [128] Phân tích liên kết sử dụng phổ biến cho ứng dụng khác trích chọn thơng tin [84], [106], [110], dịch máy [35], hỏi đáp tự động [95], [105] Nhiều phân tích cú pháp cho ngơn ngữ khác xây dựng mơ hình văn phạm liên kết cho tiếng Anh[111], tiếng Nga [132], tiếng Đức [76], tiếng Thổ Nhĩ Kỳ [68] 15 Văn phạm liên kết có khả biểu diễn trực tiếp mối liên hệ từ không thiết liền kề Do vậy, văn pham liên kết cho phép trật tự từ tương đối tự do, chẳng hạn tập kết nối câu “Tôi hôm mệt” câu “Hôm mệt” khơng khác Phân tích hai câu nói khác thứ tự liên kết Tất nhiên, theo Schneider [109], mơ hình văn phạm liên kết địi hỏi tính phẳng nên khơng linh hoạt văn phạm phụ thuộc biểu diễn phụ thuộc thành phần không liền kề (long distance dependency) câu Điều chấp nhận với tiếng Việt, nói chung, câu tiếng Việt tn theo trật tự SVO, cấu trúc danh ngữ, động ngữ, tính ngữ nói chung cố định, số thành phần có vị trí thay đổi tùy ý không nhiều Văn phạm liên kết biểu diễn mối liên hệ ngữ nghĩa Việc biểu diễn liên hệ ngữ nghĩa dễ dàng văn phạm phụ thuộc phân tích câu văn phạm liên kết chứa chu trình Việc phân biệt thành phần - phụ câu trở nên phức tạp liên kết khơng định hướng phụ thuộc Do vậy, với số tốn, chẳng hạn tóm tắt văn bản, mơ hình văn phạm liên kết không thuận tiện văn phạm phụ thuộc Tuy nhiên nhiều lĩnh vực biểu diễn tri thức, dịch máy…, văn phạm liên kết lại hiệu Văn phạm liên kết khơng địi hỏi quan hệ cai trị - phụ thuộc nên dễ dàng gộp phân tích mệnh đề thành phần thành phân tích lớn, làm cho việc phân tích câu ghép nhiều mệnh đề dễ dàng Văn phạm liên kết mơ hình hồn tồn từ vựng hóa, biểu diễn mối liên hệ từ pháp, chi tiết nhiều so với văn phạm phụ thuộc, văn phạm ngữ cấu (quan hệ định nghĩa đến loại từ) Đặc điểm cho phép biểu diễn nhiều tượng tiếng Việt Ví dụ, động từ động tác có phương hướng “chạy”, “mang”, “mở”,”đậy” kết hợp với thành tố phụ hướng: “ra”, “vào”, “lên”, “xuống” Liên kết DR thiết lập loại từ nói mà khơng tồn với loại từ khác Liên kết dùng để biểu diễn tri thức [53], liên kết gần với đồ thị khái niệm nên chuyển từ liên kết sang đồ thị khái niệm dễ dàng [131] Phân tích liên kết sử dụng để trích chọn thơng tin [50], [52], [90], [97], đặc biệt thông tin ngữ nghĩa [82] 16 Liên kết có nhãn nên biểu diễn trực tiếp mối liên hệ vị ngữ - bổ ngữ mối liên hệ khác, tạo thuận lợi cho việc dịch sang ngơn ngữ có biến đổi hình thái, tốt mơ hình mà quan hệ phụ thuộc khơng gán nhãn (theo Zamin [129]) Qua khảo cứu thử nghiệm bước đầu, luận án rút số nhận xét: Từ trước đến nay, cách phổ biến để biểu diễn cú pháp tiếng Việt thông qua mô hình văn phạm ngữ cấu (phi ngữ cảnh) với ngữ cấu Tuy nhiên tiếng Việt có đặc điểm riêng mà cấu trúc không dễ biểu diễn: ẩn giới từ sở hữu, chuyển loại từ, kết hợp số từ danh từ đơn vị… Những đặc điểm biểu diễn cách linh hoạt đơn giản qua mơ hình liên kết Đặc biệt giải toán dịch từ tiếng Việt sang ngôn ngữ khác, việc phát mối quan hệ trực tiếp từ cho khả chuyển đổi sang cấu trúc ngơn ngữ đích với chất lượng cao Phân tích câu theo mơ hình liên kết gần với suy nghĩ người, hỗ trợ hiệu cho học viên tiếng Việt tìm hiểu cú pháp đặt câu Kết phân tích liên kết câu lại đơn giản nhiều so với ngữ cấu Tuy đồ thị, phân tích liên kết gần danh sách tuyên tính từ, từ có mối liên hệ với khơng q từ khác Điều cho phép tra cứu ngân hàng phân tích dễ dàng treebank, tạo thuận lợi cho hướng tiếp cận theo phương pháp thống kê Do phức tạp cấu trúc câu ghép câu phức, khơng nhiều nghiên cứu phân tích cú pháp tự động quan tâm đến loại câu này, đặc biệt tiếng Việt Mơ hình văn phạm liên kết cho cách liên kết mệnh đề dựa kết nối lớn, tạo khả phân tích xử lý câu ghép, câu phức cách hiệu Hiện tiếng Việt chưa có nhiều tài nguyên phục vụ cho toán dịch máy, nên hệ thống dịch máy chủ yếu theo hướng Anh - Việt làm theo hướng tiếp cận dựa luật Do mơ hình văn phạm liên kết biểu diễn cách mềm dẻo nhiều tượng cú pháp tiếng Việt việc chuyển đổi liên kết cú pháp sang ngơn ngữ khác dễ dàng, sử dụng để xây dựng hệ thống dịch máy Việt – Anh dựa luật xử lý dễ dàng nhiều khác biệt ngơn ngữ nguồn ngơn ngữ đích, hỗ trợ tốt nhiều yêu cầu dịch thuật thực tế Hệ thống tích hợp với hệ thống theo hướng tiếp cận khác ví dụ, thống kê để tạo dịch có chất lượng tốt: trơi chảy cú pháp từ pháp 17 ... văn phạm liên kết 34 1.4.2 Các định nghĩa hình thức văn phạm liên kết 38 1.5 Kết luận 40 CHƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 43 2.1 .Văn phạm liên kết cho tiếng. .. tâm, văn phạm kết nối từ vựng hóa, văn phạm phạm trù tổ hợp, văn phạm liên kết Hiện nay, xu hướng từ vựng hóa ảnh hưởng tới văn phạm tiếng Việt Các mơ hình văn phạm phi ngữ cảnh từ vựng hóa kết. .. phạm liên kết cho tiếng Anh[111], tiếng Nga [132], tiếng Đức [76], tiếng Thổ Nhĩ Kỳ [68] 15 Văn phạm liên kết có khả biểu diễn trực tiếp mối liên hệ từ không thiết liền kề Do vậy, văn pham liên