Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 164 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
164
Dung lượng
8,92 MB
Nội dung
ĐẠI HOC QUOC GIA HÀ N I TRƯ NG ĐẠI HOC CÔNG NGH ——————— TRAN HONG VI T CẢI TIEN CHAT LƯ NG D±CH MÁY THONG KÊ ANH-VI T DỰA VÀO ĐẢO TR T TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THU C LU N ÁN TIEN SĨ KHOA HOC MÁY TÍNH Hà N i - 2019 ĐẠI HOC QUOC GIA HÀ N I TRƯ NG ĐẠI HOC CÔNG NGH ——————— TRAN HONG VI T CẢI TIEN CHAT LƯ NG D±CH MÁY THONG KÊ ANH-VI T DỰA VÀO ĐẢO TR T TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THU C Chuyên ngành: Khoa hoc máy tính Mã so: 48 01 01 01 LU N ÁN TIEN SĨ KHOA HOC MÁY TÍNH NGƯ I HƯ NG DAN KHOA HOC: TS Nguyen Văn Vinh PGS.TS Nguyen Lê Minh Hà N i - 2019 L i cam đoan Tôi xin cam đoan lu n án ket nghiên cáu tôi, thực hi n hướng dan TS Nguyen Văn Vinh PGS.TS Nguyen Lê Minh Các n®i dung trích dan tà nghiên cáu tác giả khác trình bày lu n án ghi rõ nguon phan tài li u tham khảo Tran Hong Vi t TÓM TAT Đảo tr t tự tà m®t van đe quan dịch máy liên quan đen vi c làm the đe sinh thá tự tà (cụm tà) xác ngơn ngǎ đích Trong h dịch máy thong kê dựa cụm tà (Phrase-Based Statistical Machine Translation - PBSMT)(Koehn c®ng sự, 2003; Och Ney, 2004) [59, 89], vi c đảo cụm tà van đơn giản chat lượng chưa cao Bên cạnh đó, ngơn ngǎ có nhieu đ c điem khác (đ c bi t khác ve thá tự tà ngôn ngǎ) dan tới không the mơ hình hóa xác q trình dịch [89] Nhieu hướng nghiên cáu giải quyet van đe sap xep lại tr t tự tà bên h thong dịch máy thong kê dựa cụm tà M®t so nghiên cáu theo hướng tiep c n tien xả lý cho van đe sap xep lại tr t tự tà cho ket tot, đảm bảo cân bang giǎa chat lượng dịch thời gian giải mã qua thực hi n tien xả lý trình sap xep lại Với ưu điem cau trúc cú pháp phụ thu®c: ket noi tat tà m®t câu với khả nam bat phụ thu®c giǎa tà xa với cau trúc phụ thu®c địa phương tương ch t chě với ngǎ nghĩa, lu n án t p trung nghiên cáu đe tài: "Cải tien chat lư ng dịch máy thong kê Anh-Vi t dfia vào đảo tr t tfi tfi theo cú pháp phn thu c" Lu n án t p trung giải quyet ton nêu thông qua toán: sap xep lại tà câu can dịch ngôn ngǎ nguon theo thá tự gan nhat có the với câu dịch ngơn ngǎ đích Các đe xuat thực hi n bước tien xả lý sả dụng cú pháp phụ thu®c đoi với ngôn ngǎ nguon đe đưa vào h dịch thong kê dựa cụm tà nham cải tien chat lượng dịch máy Ket dịch tà tieng Anh sang tieng Vi t với b® dǎ li u IWSLT 2015 h thong tot hai h thong dịch phő bien nhat hi n NMT PBSMT Đóng góp lu n án cụ the sau: • Thá nhat, lu n án đe xuat lu t đảo tr t tự tà thủ công tà vi c lựa chon đ c trưng ve ngơn ngǎ cú pháp phụ thu®c Tà áp dụng phương pháp đảo tr t tự tà đe nâng cao chat lượng h thong dịch máy Anh-Vi t • Thá hai, lu n án đe xuat phương pháp xây dựng lu t đảo tr t tự tà tự đ®ng Chúng tơi coi vi c xây dựng lu t đảo tr t tự tà van đe hoc máy vi c dự đốn xác vị trí thành phan lu t đe đoán thá tự câu ngôn ngǎ nguon tương với thá tự câu ngơn ngǎ đích Với hai đe xuat gom: – Khai thác đ c trưng ve ngôn ngǎ đe xuat phương pháp sả dụng b® phân lớp đe giải quyet toán đảo tr t tự tà Cụ the xác định thá tự phân lớp quan h giǎa cụm cha-con phân tích phụ thu®c bieu dien câu đau vào – Bang vi c khai thác quan h c p tà phân tích phụ thu®c ưu điem vi c bieu dien dạng word embedding, lu n án đe xuat phương pháp sả dụng mạng nơ-ron đe giải quyet toán đảo tr t tự tà câu nguon theo thá tự tà câu đích trước đưa vào h dịch đe nâng cao chat lượng dịch • Thá ba, lu n án đưa phân tích ảnh hưởng loi phân tích cú pháp đen chat lượng dịch qua vi c áp dụng lu t đảo tr t tự tà đoi với câu nguon Các phân tích mang lại lợi ích cho vi c cải tien phương pháp đảo tr t tự tà dựa cú pháp phát trien vi c phân tích cú pháp phụ thu®c, đ c bi t với ngơn ngǎ tieng Vi t TG khóa: dịch máy, dịch máy thong kê, tien xả lý cú pháp, cú pháp phụ thu®c, dịch máy thong kê dựa cụm tà Mnc lnc L i cảm ơn Danh mnc chfi viet tat Danh sách hình vẽ 10 Danh sách bảng 13 L i m đau 16 Tong quan van đe liên quan lu n án 22 1.1 Tőng quan ve dịch máy 22 1.2 Dịch máy thong kê 25 1.2.1 Cơ sở toán hoc 25 1.2.2 Cau trúc h thong dịch máy 27 1.3 Dịch máy mạng nơ-ron 29 1.4 Phân tích cú pháp phụ thu®c 31 1.5 Van đe đảo tr t tự tà dịch máy 35 1.5.1 Sự khác ve thá tự tà giǎa ngôn ngǎ 35 1.5.2 Đảo tr t tự tà dịch máy 36 1.6 Bài toán đảo tr t tự tà mơ hình dịch máy dựa cụm tà 37 1.6.1 Mơ hình dịch máy dựa cụm tà 37 1.6.2 Bài toán đảo tr t tà tự dựa tien xả lý 39 1.7 Các nghiên cáu liên quan 43 1.7.1 Sả dụng lu t thủ công cho van đe tien xả lý .44 1.7.2 Sả dụng lu t tự đ®ng cho van đe tien xả lý 45 1.8 Ket lu n chương 46 Phương pháp dfia vào lu t thủ công cho toán đảo tr t tfi tfi dịch máy thong kê 48 2.1 Phương pháp tien xả lý cho toán đảo tr t tự tà dịch máy 48 2.2 Các nghiên cáu liên quan 50 2.3 Tien xả lý cú pháp phụ thu®c cho dịch máy thong kê 52 2.3.1 Phân tích hi n tượng ngôn ngǎ van đe sap xep lại 52 2.3.2 Lu t chuyen đői tr t tự tà 55 2.3.3 T p lu t đảo tr t tự tà thủ công 57 2.3.4 T p dǎ li u cài đ t thực nghi m 59 2.3.5 Ket thực nghi m 62 2.4 Ket lu n chương 63 Phương pháp sfi dnng lu t trích xuat tfi đ ng bang b phân l p quan h 65 3.1 Tien xả lý dựa phân lớp cho dịch máy dựa cụm tà 65 3.1.1 Van đe tien xả lý dựa phân lớp 66 3.1.2 Đ c trưng 69 3.1.3 Mơ hình phân lớp .70 3.2 Thực nghi m 73 3.2.1 T p dǎ li u cau hình thực nghi m 73 3.2.2 Ket thực nghi m 74 3.3 Ket lu n chương 76 Phương pháp sfi dnng mạng nơ-ron ket h p thông tin ngfi cảnh 79 4.1 Thông tin ngǎ cảnh tà word embedding 79 4.2 Mơ hình đảo dựa mạng nơ-ron sả dụng cú pháp phụ thu®c cho dịch máy thong kê 81 4.2.1 Đ c trưng cho phân lớp huan luy n mơ hình 82 4.2.2 Khung làm vi c cho đảo tr t tự tà 87 4.3 Thực nghi m ve phương pháp sả dụng mạng nơ-ron ket hợp thông tin ngǎ cảnh 90 4.4 Phân tích thảo lu n 93 4.5 Ket lu n chương 94 Ảnh hư ng cú pháp phn thu c đen chat lư ng dịch máy Anh-Vi t 96 5.1 Giới thi u .96 5.2 Phân tích cú pháp phụ thu®c 97 5.2.1 Bài tốn phân tích cú pháp phụ thu®c 98 5.2.2 Định dạng dǎ li u theo chuȁn CoNLL .98 5.2.3 Sả dụng t p nhãn cho cú pháp phụ thu®c .100 5.3 Ảnh hưởng loi phân tích cú pháp phụ thu®c tới chat lượng dịch máy 102 5.3.1 Phương pháp phân tích loi 102 5.3.2 Đánh giá 104 5.3.3 Phân tích nguyên nhân gây loi đảo tr t tự tà 108 5.4 Đánh giá ket dịch đ® xác cú pháp phụ thu®c 110 5.5 Ket lu n chương 112 Ket lu n 114 Danh mnc cơng trình khoa hoc tác giả liên quan đen lu n án117 Tài li u tham khảo 119 L I CẢM ƠN Tôi xin gải lời cảm ơn sâu sac đen TS Nguyen Văn Vinh PGS.TS Nguyen Lê Minh, hai Thay trực tiep hướng dan, bảo t n tình, ln ho trợ tạo nhǎng đieu ki n tot nhat cho tơi q trình hoc t p nghiên cáu Tôi xin gải lời cảm ơn đen Thay/Cô giáo Khoa Công ngh thông tin, Trường Đại hoc Công ngh , Đại hoc Quoc gia Hà N®i, đ c bi t Thay/Cơ giáo B® mơn Khoa hoc máy tính, nhǎng người trực tiep giảng dạy giúp tơi q trình hoc t p nghiên cáu trường Tôi xin gải cảm ơn đen GS.TS Nguyen Thanh Thủy, PGS TS Lê Sy Vinh, PGS.TS Nguyen Phương Thái, PGS.TS Phan Xuân Hieu, TS Tran Quoc Long, TS Bùi Ngoc Thăng (Trường Đại hoc Công ngh , Đại hoc Quoc gia Hà N®i), PGS.TS Lê Thanh Hương (Trường Đại hoc Bách khoa Hà N®i), TS Nguyen Thị Minh Huyen (Trường Đại hoc Khoa hoc Tự nhiên, Đại hoc Quoc gia Hà N®i), TS Ngơ Xn Bách (Hoc vi n Cơng ngh Bưu Vien thơng), TS Nguyen Vi t Anh (Vi n Công ngh thông tin, Vi n Hàn lâm Khoa hoc Công ngh Vi t Nam) Thay/Cơ có nhǎng góp ý chỉnh sảa đe tơi hồn thi n lu n án Tôi xin gải lời cảm ơn đen tat anh, chị, em bạn bè đong nghi p B® mơn Khoa hoc máy tính (Khoa Cơng ngh thơng tin, Trường Đại hoc Công ngh , Đại hoc Quoc gia Hà N®i) giúp tơi thời gian làm nghiên cáu sinh Cuoi cùng, xin gải lời cảm ơn đen tat thành viên gia đình ln ủng h®, chia sẻ, đ®ng viên khích l hoc t p, nghiên cáu ... phương pháp đảo tr t tự tà dựa cú pháp phát trien vi c phân tích cú pháp phụ thu®c, đ c bi t với ngôn ngǎ tieng Vi t TG khóa: dịch máy, dịch máy thong kê, tien xả lý cú pháp, cú pháp phụ thu®c, dịch. .. HONG VI T CẢI TIEN CHAT LƯ NG D±CH MÁY THONG KÊ ANH- VI T DỰA VÀO ĐẢO TR T TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THU C Chuyên ngành: Khoa hoc máy tính Mã so: 48 01 01 01 LU N ÁN TIEN SĨ KHOA HOC MÁY TÍNH... điem mạnh dịch máy theo cú pháp toán đảo tr t tự tà Hi n nay, có nghiên cáu ve h thong dịch máy thong kê dựa cụm tà cho c p ngôn ngǎ Anh- Vi t Tuy nhiên, nghiên cáu ve dịch máy thong kê dựa cụm