1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận Án Tiến Sĩ Công Nghệ Thông Tin Mô Hình Văn Phạm Liên Kết Tiếng Việt.docx

186 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 186
Dung lượng 2,56 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THU HƯƠNG MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT Chuyên ngành Khoa học máy tính Mã số 62 48 01 01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Ng[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THU HƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: GS TS NGUYỄN THÚC HẢI GS.TS NGUYỄN THANH THỦY Hà Nội - Năm 2013 LỜI CẢM ƠN Trước trình bày nội dung nghiên cứu luận án, xin bày tỏ biết ơn chân thành đến hai thầy hướng dẫn, GS.TS Nguyễn Thúc Hải, GS.TS Nguyễn Thanh Thủy, người thầy kính mến khơng tận tình hướng dẫn giúp đỡ mà cịn động viên tơi nhiều để tơi hoàn thành luận án Xin chân thành cảm ơn đồng nghiệp Bộ mơn Khoa học Máy tính Viện Công nghệ thông tin Truyền thông, Đại học Bách khoa Hà Nội, hỗ trợ chia sẻ công việc, giúp đỡ nhiều lúc khó khăn Tơi xin chân thành cảm ơn PGS.TS Lương Chi Mai, PGS.TS Lê Thanh Hương, PGS TS Nguyễn Thị Kim Anh, PGS TS Đặng Văn Chuyết, TS Nguyễn Văn Vinh, TS Nguyễn Thị Minh Huyền giúp đỡ đóng góp rât nhiều ý kiến quý báu cho luận án Tôi xin chân thành cảm ơn nhà ngơn ngữ học: PGS.TS Phạm Văn Tình, PGS.TS Nguyễn Chí Hịa, Vũ Xn Lương, Đào Văn Hùng hỗ trợ tơi nhiệt tình tìm hiểu đặc trưng tiếng Việt Xin chân thành cảm ơn cựu sinh viên Lê Văn Chương, Phạm Nguyễn Quang Anh, Luyện Thanh Đạt, Lê Ngọc Minh giúp đỡ tơi q trình thử nghiệm mơ hình liên kết Xin chân thành cảm ơn nhóm nghiên cứu VLSP, đặc biệt GS.TS Hồ Tú Bảo TS Nguyễn Phương Thái cung cấp ngữ liệu tiếng Việt để thực thử nghiệm Xin bày tỏ lòng biết ơn sâu sắc đến chồng yêu dấu người gia đình nguồn động viên tinh thần quan trọng để tơi hồn thành cơng trình Hà Nội ngày 20 tháng năm 2012 Tác giả luận án Nguyễn Thị Thu Hương LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết luận án trung thực chưa công bố công trình khác Tác giả luận án Nguyễn Thị Thu Hương MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .4 DANH MỤC CÁC HÌNH VẼ DANH MỤC BẢNG BIỂU DANH MỤC CÁC KẾT NỐI QUAN TRỌNG .9 MỞ ĐẦU 11 CHƯƠNG TỔNG QUAN VỀ CÁC MƠ HÌNH VĂN PHẠM CHO NGƠN NGỮ TỰ NHIÊN 20 1.1 Cách tiếp cận cấu trúc văn phạm phi ngữ cảnh .20 1.1.1 Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên .20 1.1.2 Văn phạm phi ngữ cảnh xác suất .23 1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa 26 1.1.4 Văn phạm kết nối 27 1.2 Tiếp cận qua cấu trúc nét văn phạm hợp 28 1.3 Cách tiếp cận phụ thuộc 29 1.3.1 Một số khái niệm .29 1.3.2.Tính chất phụ thuộc .32 1.4 Văn phạm liên kết .34 1.4.1 Khái niệm văn phạm liên kết 34 1.4.2 Các định nghĩa hình thức văn phạm liên kết 38 1.5 Kết luận 40 CHƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 43 2.1.Văn phạm liên kết cho tiếng Việt .43 2.1.1 Cấu trúc từ điển liên kết 43 2.1.2 Xây dựng liên kết cho danh từ 47 2.1.3 Các liên kết cho động từ 55 2.1.4 Các liên kết cho tính từ 60 2.1.5 Liên kết mệnh đề câu ghép đơn giản 61 2.2 Mở rộng từ điển văn phạm liên kết .64 2.2.1 Giải thuật mở rộng từ điển .66 2.2.2 Ứng dụng giải thuật mở rộng từ điển tiếng Việt .67 2.2 Kết luận 68 CHƯƠNG PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT 70 3.1 Bộ phân tích cú pháp liên kết .70 3.1.1 Giải thuật phân tích cú pháp 70 3.1.2 Lược tỉa 72 3.1.3 Kết thử nghiệm phân tích câu đơn câu ghép đơn giản 74 3.2 Phân tích cú pháp cho câu ghép 77 3.2.1 Xây dựng diễn ngôn 81 3.2.2 Giải thuật phân tích cú pháp câu ghép .90 3.2.3 Tìm từ để kết nối mệnh đề .91 3.2.4 Kết thử nghiệm phân tích câu ghép 93 3.2.5 Độ phức tạp tính tốn 96 3.3.Khử nhập nhằng 96 3.3.1 Khử nhập nhằng thành phần 97 3.3.2 Khử nhập nhằng liên hợp 103 3.4 Kết luận 107 CHƯƠNG HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI 109 4.1 Tổng quan dịch máy 109 4.1.1.Tình hình phát triển dịch máy Việt Nam 109 4.1.2 Phương pháp đánh giá chất lượng dịch máy 111 4.2 Khác biệt ngôn ngữ Việt - Anh 112 4.2.1 Khác biệt hình thái 112 4.2.2 Khác biệt trật tự từ 115 4.3 Hệ thống dịch máy sử dụng dạng tuyển có giải .116 4.3.1.Tìm nghĩa từ từ điển ADJ 118 4.3.2.Xây dựng luật dịch 119 4.3.3.Hoàn thiện câu dịch 125 4.3.4.Kết thử nghiệm với dịch dựa dạng tuyển có giải 126 4.4 Kết luận 130 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133 Tóm tắt 133 Các đóng góp luận án .133 Về mặt khoa học .133 Về mặt thực tiễn 134 Hạn chế hướng phát triển 135 CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ 136 TÀI LIỆU THAM KHẢO 137 TIẾNG VIỆT 137 TIẾNG ANH 139 TIẾNG NGA 147 CÁC WEBSITE 147 PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG VIỆT 148 PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ CÂU GHÉP HAI MỆNH ĐỀ .166 PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH 174 Luật xác định thuộc tính 174 Luật dịch cụm từ 175 Luật chuyển đổi cấu trúc 178 PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU 179 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT HMM Hidden Markov Model: Mơ hình Markov ẩn BNF Backus Naur Form: Công thức siêu ngữ Backus ADJ Annotated Disjunct: Dạng tuyển có giải RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn CCR Chunks/Constituents/Relation SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ SVM Support Vector Machine: Máy vectơ hỗ trợ CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện EDU Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng DANH MỤC CÁC HÌNH VẼ Hình 1.1 Cây ngữ cấu câu “Tơi thích chân gà” 21 Hình 1.2 Hai ngữ cấu câu “Họ không chuyển hàng xuống thuyền vào ngày mai” 22 Hình 1.3 Văn phạm phi ngữ cảnh xác suất ngữ cấu câu “Last week IBM bought Lotus” 27 Hình 1.4 Phân tích câu “John loves a woman” mơ hình văn phạm phụ thuộc 31 Hình 1.5 Đồ thị phụ thuộc câu “Economic news had little effect on financial market” 32 Hình 1.6 Câu ngữ pháp “Tại cậu không tới” 35 Hình 1.7 Kết nối lớn từ “và” 37 Hình1.8 Chu trình phân tích câu 38 Hình 1.9 Nút liên kết 39 Hình 2.1 Cấu trúc danh ngữ với đầy đủ thành tố 48 Hình 2.2 Liên kết cụm từ “những bàn” 51 Hình 2.4 Liên kết cụm từ “cái bàn gỗ” .53 Hình 2.3 Liên kết cụm từ “cái giường lò xo” 53 Hình 2.5 Liên kết cụm từ “cái bàn tôi” .54 Hình 2.6 Hai cách liên kết cho cụm từ “cái bàn gỗ tơi” .54 Hình 2.7 Các liên kết xoay quanh danh từ trung tâm “ghế” 55 Hình 2.8 Thành tố phụ trước động từ 56 Hình 2.9 Liên kết cụm từ “vẫn làm” 57 Hình 2.10 Liên kết cụm từ “khơng hay đọc sách này” 57 Hình 2.11 Liên kết cụm từ “đang sợ” 59 Hình 2.12 Liên kết cụm từ “ sâu hai ngàn mét” 61 Hình 2.13 Liên kết câu ghép hai mệnh đề với liên từ .62 Hình 2.14 Liên kết câu ghép hai mệnh đề với liên từ đầu dấu phảy 63 Hình 2.15 Liên kết câu ghép với liên từ có mặt hai mệnh đề 63 Hình 2.16 Một đoạn từ điển văn phạm liên kết 64 Hình 2.17 Ánh xạ trực cảm 67 Hình 2.18 Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt .69 Hình 3.1 Giải thuật phân tích .70 Hình 3.2 Lời giải cục .70 Hình 3.3 Giải thuật phân tích cú pháp liên kết 71 Hình 3.4.Hàm COUNT cho số phân tích câu 71 Hình 3.5 Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+}) 73 Hình 3.6 Số lượng dạng tuyển sau lược tỉa lược tỉa mạnh 74 Hình 3.7 Kêt phân tích liên kết câu “Chúng muốn giành danh hiệu” .75 Hình 3.8 Kêt phân tích liên kết câu “Mỗi mùa trắng tay khó nuốt trôi” .75 Hình 3.9 Kết phân tích liên kết câu “Phần lớn bọ ngựa ăn trùng” 76 Hình 3.10 Cây phân tích diễn ngơn câu “[trời mưa to vàA1] [gió mạnh nênB1] [tôi phải nghỉ học,C1 ] [mẹ phải nghỉ làm.D1 ]” 80 Hình 3.11 Giải thuật phân đoạn diễn ngơn (có khử nhập nhằng) 85 Hình 3.12 Hàm isClause .87 Hình 3.13 Các dạng cấu trúc diễn ngơn 89 Hình 3.14 Giải thuật phân tích cú pháp cho câu ghép 90 Hình 3.15 Hàm Insert_Link_From_RST_Tree 91 Hình 3.16 Minh họa cách lưu trữ phân tích liên kết câu “Tơi mua hoa” .92 Hình 3.17 Phân tích câu “Tơi mua bơng hoa” 92 Hình 3.18 Phân tích cụm từ “một bút tốt” 93 Hình 3.19 Kết phân tích câu “Trời mưa to gió mạnh nên tơi phải nghỉ học, mẹ phải nghỉ làm” 94 Hình 3.20 Hai phân tích câu “Tơi mua bơng hoa” 98 Hình 3.21 Giải thuật kiểu Viterbi để dự đốn phân tích có xác suất cao 99 Hình 3.22 Mơ tả cách tính xác suất PrO ⊲ left(L, W, l ⊳, ⊲ leftd) .101 Hình 3.23 Minh họa mối liên kết để tính ꢀꢁOꢂꢃꢄꢅ 102 Hình 3.24 Phân tích câu “Tơi thích bánh kẹo, anh thích rượu bia” 105 Hình 3.25 Một phân tích với kết nối F cho từ “và” 106 Hình 3.26 Kết nối G nối nhiều dấu phảy từ “và” 107 Hình 4.1.Sắp xếp lại trật tự từ .115 Hình 4.2 Kiến trúc hệ dịch dựa dạng tuyển có giải 118 Hình 4.3 Thay đổi trật tự từ cho dịch câu “Cô gái nhỏ xinh” 122 Hình 4.4 Quá trình dịch câu “Báo săn loại động vật nhanh giới” 128 Hình 4.5 So sánh điểm BLEU hệ thống 129

Ngày đăng: 15/05/2023, 10:15

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
14] Đỗ Bá Lâm, Lê Thanh Hương (2008) Xây dựng hệ thống phân tích cú pháp tiếng Việt sử dụng văn phạm HPSG. Kỷ yếu hội thảo ICT- rda 8/2008, trang 235-242 Sách, tạp chí
Tiêu đề: Xây dựng hệ thống phân tích cú pháp tiếng Việt sửdụng văn phạm HPSG
[17] Nguyễn Lê Minh, Hoàng Thị Điệp, Trần Mạnh Kế (2008) Nghiên cứu luật hiệu chỉnh kết quả dùng phương pháp MST phân tích cú pháp phụ thuộc tiếng Việt. Kỷ yếu hội thảo ICT- rda 8/2008 trang 258-267[ [ Sách, tạp chí
Tiêu đề: Nghiên cứu luật hiệu chỉnh kếtquả dùng phương pháp MST phân tích cú pháp phụ thuộc tiếng Việt
18] Nguyễn Thiện Nam (1998) Tiếng Việt nâng cao cho người nước ngoài. NXB Giáo dục 19] Đỗ Phúc, Hồ Anh Thư (2005) Rút trích và tóm tắt nội dung trang web tiếng Việt. Kỷ yếuhội thảo khoa học quốc gia lần thứ hai “Nghiên cứu cơ bản và ứng dụng công nghệ thông tin” - TP Hồ Chí Minh, 2005, trang 317-328 Sách, tạp chí
Tiêu đề: Tiếng Việt nâng cao cho người nước ngoài. "NXB Giáo dục19] Đỗ Phúc, Hồ Anh Thư (2005) "Rút trích và tóm tắt nội dung trang web tiếng Việt". Kỷ yếuhội thảo khoa học quốc gia lần thứ hai “Nghiên cứu cơ bản và ứng dụng công nghệ thôngtin
Nhà XB: NXB Giáo dục19] Đỗ Phúc
[20] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà (2010) Trích rút tự động văn phạm LTAG cho tiếng Việt. Tạp chí Tin học và Điều khiển số 2/2010.[[ Sách, tạp chí
Tiêu đề: Trích rút tự động văn phạm LTAG cho tiếng Việt
21] Stankevich N.V. (1982) Các loại hình ngôn ngữ. NXB Đại học và Trung học chuyên nghiệp Sách, tạp chí
Tiêu đề: Các loại hình ngôn ngữ
Nhà XB: NXB Đại học và Trung học chuyênnghiệp
22] Nguyễn Quốc Thế, Lê Thanh Hương (2007) Phân tích cú pháp tiếng Việt sử dụng văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất. Kỷ yếu hội thảo FAIR, Nha Trang, Việt nam, 9-10/8/2007[ [ Sách, tạp chí
Tiêu đề: Phân tích cú pháp tiếng Việt sử dụng vănphạm phi ngữ cảnh từ vựng hóa kết hợp xác suất
24] Cao Hoàng Trụ (2002) Ứng dụng ngữ liệu song ngữ Anh-Việt điện tử trong ngành ngôn ngữ học so sánh. Tạp chí Ngôn ngữ, 2002(3), tr. 49-58 Sách, tạp chí
Tiêu đề: Ứng dụng ngữ liệu song ngữ Anh-Việt điện tử trong ngành ngônngữ học so sánh
[25] Cao Hoàng Trụ (2005) Xây dựng và khai thác kho ngữ liệu song ngữ Anh-Việt điện tử.Luận án tiến sĩ ngôn ngữ học so sánh, ĐH Khoa học Xã hội & Nhân văn – ĐHQG TP HCM.[[ Sách, tạp chí
Tiêu đề: Xây dựng và khai thác kho ngữ liệu song ngữ Anh-Việt điện tử
26] Trần Ngọc Tuấn, Phan Thị Tươi (2006) Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất. Tạp chí Bưu chính viễn thông và Công nghệ thông tin Sách, tạp chí
Tiêu đề: Phân tích cụm danh từ tiếng Việt sử dụng vănphạm hợp nhất
27] Phan Thị Tươi (2002) Cải tiến một số giải thuật phân tích cú pháp trong xử lý ngôn ngữ tự nhiên. Tạp chí Tin học và Điều khiến học, 3/2002 Sách, tạp chí
Tiêu đề: Cải tiến một số giải thuật phân tích cú pháp trong xử lý ngôn ngữtự nhiên
[28] Ủy ban Khoa học xã hội Viêt Nam (1983) Ngữ pháp tiếng Việt. NXB Khoa học xã hội Hà Nội Sách, tạp chí
Tiêu đề: Ngữ pháp tiếng Việt
Nhà XB: NXB Khoa học xã hộiHà Nội
29] T.B. Adji, B. Baharudin, N. Zamin (2007) Annotated Disjunct in Link Grammar for Machine Translation. International Conference on Intelligent and Advanced Systems 2007, pp 205-208 Sách, tạp chí
Tiêu đề: Annotated Disjunct in Link Grammar forMachine Translation
30] T.B. Adji, B, Baharudin, N. Zamin (2007) Building Transfer Rules using Annotated Disjunct: An Approach for Machine Translation, The 8 th Student Conference on Research and Development, December 2007, Malaysia.[[ Sách, tạp chí
Tiêu đề: Building Transfer Rules using AnnotatedDisjunct: An Approach for Machine Translation
31] J.W. Amtrup, K. Mergerdoomian, R. Zajac (1999) Rapid Development of Translation Tool. Proceedings of Machine Translation Summit, 1999, p 385-389 Sách, tạp chí
Tiêu đề: Rapid Development of TranslationTool
32] H. T. Bao, S. Kawasaki , N. N. Binh (2002) Cluster-based Information Retrieval with a Tolerance Rough Set Model. International Journal of Fuzzy Logic and Intelligent Systems, Vol. 2, No. 1, pp. 26-32, 2002 Sách, tạp chí
Tiêu đề: Cluster-based Information Retrieval with aTolerance Rough Set Model
[33] H. T. Bao, N. N. Binh (2002) Nonhierarchical Document Clustering by a Tolerance Rough Set Model. International Journal of Intelligent Systems, John Wiley & Sons, Vol Sách, tạp chí
Tiêu đề: Nonhierarchical Document Clustering by a ToleranceRough Set Model
34] D. Béchet (2003) k-Valued Link Grammars are Learnable from Strings. Proceedings of Formal Grammar, Vienna, Austria, pp. 9-18 Sách, tạp chí
Tiêu đề: k-Valued Link Grammars are Learnable from Strings
35] A. Bharati, D. M. Sharma, Sukhada (2009) Adapting Link Grammar Parser (LGP) to Paninian Framework Mapping of Parser Relations for Indian Languages. National Seminar on Computer Science and its Applications in Traditional Shastras (CSATS'09) Sách, tạp chí
Tiêu đề: Adapting Link Grammar Parser (LGP) toPaninian Framework Mapping of Parser Relations for Indian Languages
36] N. T. Bon, N. T. M. Huyen, R. Laurent, V. X. Luong (2004) Developing tools and building linguistic resources for Vietnamese morpho-syntactic processing. Proceedings of the 4th International Conference on Language Ressources and Evaluation (LREC04), Lisbon.[[[ Sách, tạp chí
Tiêu đề: Developing tools andbuilding linguistic resources for Vietnamese morpho-syntactic processing
37] N. T. Bon, N. T. M. Huyen, R. Laurent, V. X. Luong (2004) Lexical descriptions for Vietnamese language processing. Proceedings of the Asian Language Resources Workshop (ALR-04), IJC-NLP 2004, Hainan, China Sách, tạp chí
Tiêu đề: Lexical descriptions forVietnamese language processing

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w