Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
148,61 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH LÊ MẠNH HẢI MƠHÌNHXỬLÝKHOẢNGTRỐNGTỪVỰNGTRONGDỊCHMÁYANHVIỆT TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Chuyên ngành : Khoa học Máy tính Mã số : 62.48.01.01 TP.HCM - Năm 2010 Công trình hoàn thành tại: Đại học Bách khoa TP HCM Người hướng dẫn khoa học: PGS TS Phan Thò Tươi Phản biện 1: Phản biện 2: Phaûn bieän 3: Luận án bảo vệ trước Hội đồng chấm luận án cấp nhà nước họp vào hồi ngày tháng năm Có thể tìm hiểu luận án thư viện: Đại học Bách khoa TP.HCM MỞ ĐẦU Mục đích, ý nghĩa luận án Luận án nghiên cứu giải vấn đề khoảngtrốngtừvựng (lexical gap) - nguyên nhân sai lệch từvựng cấu trúc- dịchmáyAnh – ViệtKhoảngtrốngtừvựng tượng thiếu từvựng tương ứng ngơn ngữ đích (tiếng Việt) so với ngơn ngữ nguồn (tiếng Anh) Chẳng hạn từ tiếng Anh “abeyant” có nghĩa “tạm thời đình chỉ” Luận án đề xuất phương pháp giải vấn đề khoảngtrốngtừvựngdịchmáytự động Anh-Việtmơhìnhdịchtừ sang ngữ - gọi tắt mơhình XLKTTV Đối tượng, phạm vi nghiên cứu Đối tượng nghiên cứu Đối tượng nghiên cứu luận án tượng khoảngtrốngtừvựngdịchmáyAnh – Việt giải pháp giải tượng Bài toán 1: Tạo từ điển song ngữ Anh – Việt với cấu trúc nét cho phép lưu trữ thông tin ngữ pháp, đặc biệt cụm từ thay từ Bài tốn thứ lại chia làm hai toán nhỏ: Bài toán 1A: Xây dựng văn phạm chức từvựng tiếng Việt với cấu trúc tồn song song cấu trúc thành tố cấu trúc chức làm sở xây dựng từ điển Anh – Việt hỗ trợ mơhìnhxửlýkhoảngtrốngtừvựng Bài toán 1B: Xây dựng từ điển song ngữ Anh – Việt với cấu trúc nét Từ điển song ngữ gồm phần tiếng Anh tiếng Việt Bài toán 2: Xây dựng mơhình XLKTTV với giải thuật chèn, lược bớt, chuyển vị cấu trúc thành tố cấu trúc câu tiếng Việt dựa mẫu cấu trúc tìm từ điển Mơhình xây dựng phải giải công việc sau đây: Bài toán 2A: Xác định khoảngtrốngtừvựng câu cần dịch Bài tốn 2B: Tìm từ điển cấu trúc tương ứng khoảngtrốngtừvựng áp dụng thuật toán xửlýkhoảngtrốngtừvựng tạo câu tiếng Việt phù hợp ngữ pháp tiếng Việt Các đóng góp luận án: Đóng góp thứ nhất: Xây dựng khung văn phạm chức từvựng tiếng Việt văn phạm chức từvựng Đóng góp thứ hai: Xây dựng từ điển cung cấp từvựng dạng mẫu cấu trúc cụm từ phức tạp với nét văn phạm chức từvựng tiếng Việt sử dụng mơhình nói Đóng góp thứ ba: Đề xuất mơhìnhdịch với giải thuật cho phép biến đổi cấu trúc câu tiếng Việt trường hợp có khoảngtrốngtừvựng cách sử dụng cụm từ theo mẫu Phạm vi nghiên cứu Luận án nghiên cứu phương pháp xửlýkhoảngtrốngtừvựngdịchmáyAnh-ViệtMơhìnhdịchmáy mà luận án xây dựng không nhằm tạo tập luật hồn chỉnh để phân tích câu nguồn tạo câu đích Luận án giả định có mơhìnhdịch chuyển đổi sử dụng tập luật ánh xạ từ tiếng Anh sang tiếng Việt trường hợp từ tiếng Anh có từViệt tương ứng Phạm vi luận án tập trung vào giải toán khoảngtrốngtừvựng nhằm nâng cao chất lượng dịch gặp từ tiếng Anh khơng có từ tiếng Việt tương đương Nhiệm vụ luận án Luận án nhằm thực công việc sau: - Nghiên cứu tượng khoảngtrốngtừvựngdịchmáyAnh -Việt tác động tượng lên dịchmáy- Xây dựng từ điển song ngữ AnhViệt hỗ trợ môhình XLKTTV - Đề xuất giải pháp mơhình XLKTTV giải thuật xửlýkhoảngtrốngtừvựng với ngữ pháp hướng tâm cho câu tiếng Anh Phương pháp nghiên cứu Phương pháp nghiên cứu luận án chủ yếu dựa việc xây dựng cấu trúc nét cho từ vựng, cụm từ câu để truyền tải thông tin từ văn nguồn sang văn đích áp dụng cấu trúc vào xây dựng từ điển song ngữ Cấu trúc luận án Luận án bao gồm chương TỔNG QUAN VỀ KHOẢNGTRỐNGTỪVỰNGKhoảngtrốngtừvựng Các nghiên cứu khoảngtrốngtừvựng Các tài liệu giáo khoa có đề cập đến khoảngtrốngtừvựng bao gồm “lý thuyết dịch” Huỳnh Trung Tín cộng (năm 2005), “Machine Translation: an Introductory Guide” (năm 1994) Douglas Arnold cộng Các nghiên cứu chuyên sâu khoảngtrốngtừvựng tương đối rộng Barnett (năm 1994) nghiên cứu tượng máydịch không sát tiếng Anh tiếng Pháp ngược lại Dorr (năm 1994) nghiên cứu khoảngtrốngtừvựngmơhìnhmáydịch thơng qua ngơn ngữ trung gian tiếng Anh ngôn ngữ châu Âu khác tiếng Đức, Pháp Ý Các kết nghiên cứu Janssen cho thấy khoảngtrốngtừvựng tiếng Anh Ý chiếm khoảng 7,8% tổng số 60.901 từ xem xét Phân loại hướng tiếp cận Có trường hợp Dorr là: a) từ nguồn rộng nghĩa từđích b) từ nguồn hẹp nghĩa c) từ nguồn từđích có số nghĩa trùng, số nghĩa khơng trùng (hình 2.1) Từ nguồn TừđíchTừđíchTừ nguồn a) b) Từ nguồn Từđích c) Hình 2.1 Các trường hợp gây khoảngtrốngtừvựng Hướng tiếp cận luận án việc xửlýkhoảngtrốngtừvựng Luận án chọn phương pháp sử dụng cụm từ bổ sung (thường ngữ) gặp khoảngtrốngtừvựngdịchmáyAnhViệt Khảo sát khoảngtrốngtừvựng hai ngôn ngữ Anh-Việt Để làm rõ ảnh hưởng khoảngtrốngtừvựng tới dịchmáyAnh Việt, luận án tiếp cận từ hai góc độ: góc độ từ điển góc độ ngữ dụng Bảng 2.2 Xác suất từkhoảngtrốngtừvựng P >0,9 >0,8 >0,7 >0,6 >0,5 >0,4 >0,3 >0,2 >0,1 Số từ 16.435 16.443 16.642 17.533 19.037 19.674 22.905 24.188 24.889 24.895 Tỷ lệ 28% 28% 29% 30% 33% 34% 39% 42% 43% 43% Bảng 2.3 Ví dụ từkhoảngtrốngtừvựng (xác suất P=1) Từ abase abasement abatable abatis Các khoảngtrốngtừvựng với P=1 Nghĩa làm hạ phẩm giá làm hạ phẩm giá làm dịu đống chướng ngại Bảng 2.4 Khoảngtrốngtừvựng theo từ loại có P=1 Từ loại danh từ tính từ ngoại động từ nội động từ phó từ động từ thán từ đại từ Không rõ đại từ sở hữu đại từ phản thân Số lượng 11.916 3.297 817 163 120 87 17 7 Các phương pháp dịchmáykhoảngtrốngtừvựng Cách xửlýkhoảngtrốngtừvựng phụ thuộc nhiều vào phương pháp dịch, cụ thể – phụ thuộc vào cách ánh xạ từ ngôn ngữ nguồn sang ngơn ngữ đíchTrong lịch sử phát triển dịch máy, hai mơhình chuẩn cơng nhận nghiên cứu trước dịchmáy theo luật (Rule-Based Machine Translation - RBMT) dịchmáy theo xác xuất (Statistical Machine Translation - SMT) Luận án tập trung nghiên cứu cách tiếp cận mơhình với vấn đề khoảngtrốngtừvựng [ CƠ SỞ LÝ THUYẾT Văn phạm cấu trúc ngữ hướng tâm (HPSG) HPSG (ngữ pháp cấu trúc hướng tâm) ngơn ngữ hình thức cho phép mơhình hóa thực thể ngơn ngữ Mỗi thực thể ngôn ngữ miêu tả miền đơn với cấu trúc đặc trưng bao gồm thuộc tính giá trị Mỗi thành tố cấu trúc miêu tả cấu trúc đặc trưng mang tên gọi sign Nó chứa thuộc tính (còn gọi nét): phonology, syntax, semantics Ngữ pháp tích hợp cú pháp ngữ nghĩa thành nét SYNSEM (SYNTAX – cú pháp, SEMATICS – ngữ nghĩa) Nền tảng cho giá trị lí thuyết tình ngữ nghĩa (situation semantics) lưu trữ thuộc tính CONTEXT Văn phạm chức từvựng (Lexical Functional Grammar LFG) LFG xuất lần năm 1982, cơng trình “Lexical-functional Grammar: A formal system for grammatical represetation”, đứng tên hai tác giả Kaplan R.M & Bresnan J LFG cấp độ cấu trúc nổi, thành phần từvựng làm phong phú thêm nhờ ánh xạ đối vào cấu trúc cú pháp LFG xây dựng cấp độ biểu (Levels of Representation) có quan hệ với nhau: cấu trúc từvựng (lexical structure) cấu trúc chức (functional structure) cấu trúc thành tố(constituent structure) NGỮ PHÁP CHỨC NĂNG TỪVỰNG TIẾNG VIỆT Văn phạm tiếng Việt Các xu hướng nghiên cứu ngữ pháp tiếng Việt Có ba quan điểm cấu trúc câu Quan điểm thứ nhất: câu từ tổ trọn vẹn (lấy từ tổ làm sở câu [8]) Quan điểm có ưu điểm thừa hưởng tính liên tục định nghĩa từtừ tổ (cụm từ) Quan điểm thứ hai: xây dựng cấu trúc ngữ pháp câu dựa quan hệ ngữ pháp [10] với thành phần gọi vị ngữ mà thành phần trung tâm gọi vị từ (trong tiếng Anh vị từ động từ đảm nhiệm) Quan điểm thứ ba: ngữ pháp chức Dik khởi xướng năm 1978 xem xét thành phần câu việc thực chức truyền tải thông tin, bao gồm phần đề (topic) phần thuyết (comment) Luận án sử dụng phần kết nghiên cứu [4] để xây dựng cấu trúc nét cho từvựng cụm từtừ điển Anh-Việt Ngữ pháp chức tiếng Việt Theo kết nghiên cứu Cao Xuân Hạo [4], câu trần thuật có hai thành phần đề thuyết Đề “là thành tố trực tiếp câu nêu rõ phạm vi ứng dụng điều nói thành tố trực tiếp thứ hai: phần thuyết Văn phạm chức từvựng tiếng Việt Dựa kết nghiên cứu văn phạm chức tiếng Việt, luận án xây dựng văn phạm hình thức cho tiếng Việt dựa LFG, gọi VLFG Các bước tổ chức VLFG thực sau: Giải thuật 4.1 Đếm chiều cao cấu trúc thành phần (cây cú pháp) Nhập: Cho cú pháp X câu/ cụm từ Xuất: Chiều cao Y X Phương pháp: % Giải thuật sử dụng ngôn ngữ đặc tả Prolog %Function tree_level (X, Y) % X rỗng Y tree_level([],Y):-Y is %X đơn tố Y=1 tree_level(X,Y):-atom(X),X\=[],Y is 1,! % X danh sách tree_level([Head|Tail],Y):tree_level(Head,Y1), tree_level(Tail,Y2), (Y1>=Y2 -> Y is Y1+1; Y is Y2),! % X cấu trúc tree_level(Structure,Y):Structure = [_|Arg], tree_level(Arg,Y1),Y is Y1 Hàm tree_level() sử dụng giải thuật xửlý cấu trúc chương Cấu trúc chức VLFG Trước hết luận án xây dựng hệ thống ma trận chức Ma trận chức cho để lưu trữ từ có tên gọi “word” có hai nét: nét chứa giá trị đề, ký hiệu TOPIC nét chứa giá trị thuyết, ký hiệu COMMENT Ngoài ma trận từ có nét POS để xác định từ loại từ Bảng 4.2 Các từ loại thực từ dùng VLFG Từ loại Danh từ (NN) Tiểu từ loại Danh từ chung Tiết loại Tổng hợp Không tổng hợp Chỉ tên người Chỉ vật Chỉ quan hệ Chỉ tình thái Nội động từ Ngoại động từ Chỉ quan hệ Chỉ phẩm chất Chỉ cường độ Chỉ hình thể Chỉ mầu sắc Chỉ âm Chỉ mùi vị Chỉ định lượng Tuyệt đối Tương đối, không đối lập Mô Danh từ riêng Động từ (VB) Động từ không độc lập Động từ độc lập Tính từ (ADJ) Tính từ khơng thang độ Tính từ thang độ Số từ (NB) Định từ (MT) Phó từ (ADV) Số từ xác định Số từ không xác định Đại từ xưng hô Đại từ định Xác định Phiếm Quán từ Số từ dạng hư từ Chỉ thời gian Tiếp diễn Chỉ mức độ Khẳng định, phủ định Sai khiến Ví dụ học sinh, quần áo bàn, ghế Nam cao Hà nội Ngoài, Cần, nên Nói, cười Đánh trống Xa, gần Đẹp, xấu Mạnh, yếu Béo, gầy Xanh, nhạt Ồn, náo nhiệt Thơm, Ít, nhiều Riêng, chung Đỏ lòm, trắng phau Lè tè, ào Hai, Vài, đôi ba Chúng Bây giờ, tất Gì, đâu Những, các, Mỗi, Đã, đang, Cũng , lại, Rất, Khơng, chẳng có Hãy, đừng word TOPIC COMMENT POS Hình 4.3 Ma trận word phrase TOPIC COMMENT RELATION Hình 4.4 Ma trận phrase Một ma trận chức cụm từ gồm ba nét Nét đề (TOPIC), nét thuyết (COMMENT) nét quan hệ đề thuyết (RELATION) Chẳng hạn câu “nó ăn nhiều kẹo chanh” có ma trận chức hình 4.5 TOPIC TOPIC TOPIC ăn COMMENT COMMENT RELATION TOPIC TOPIC nhiều COMMENT direct kẹo chanh COMMENT COMMENT RELATION RELATION “là” Hình 4.5 Ma trận chức Ánh xạ cấu trúc chức vào cấu trúc thành tố VLFG Xây dựng ánh xạ cấu trúc cú pháp cấu trúc chức Việc mô tả quan hệ mô tả hình 4.6 Các nét TOPIC, COMMENT, RELATION coi ánh xạ chức năng, riêng hàm M có nghĩa cấu trúc cấp (cấu trúc cha) S TOPIC TOPIC TOPIC ăn COMMENT I COMMENT RELATION TOPIC nhiều COMMENT direct V TOPIC COMMENT AP COMMENT N P V AD TT K N ă nhiều l kẹo TOPIC chanh COMMENT RELATION N RELATION n kẹo “là” chanh Hình 4.6 Ánh xạ f cấu trúc thành tố cấu trúc chức Bảng 4.3 Biểu diễn ánh xạ cấu trúc quan hệ hàm ánh xạ 10 11 12 13 14 15 16 17 18 THIS(TOPIC ) = Q //ứng với IP THIS(COMMENT) = P //ứng với NP THIS(RELATION) =“là” // ứng với KT TOPIC(Q) = Q1 //ứng với PR COMMENT(Q) = P1 // ứng với VP RELATION(Q) = direct //quan hệ trực tiếp TOPIC(Q1)= “nó” //nút COMMENT(Q1) = null POS(Q1)=noun TOPIC(P1) = Q2 COMMENT(P1) =P2 TOPIC(P2)= “nhiều nhất” COMMENT(P2) =null POS(P2) = adj TOPIC(P) = “kẹo” COMMENT(P) = “chanh” M(Q1) = Q M(Q2) = P1 TỪ ĐIỂN NÉT CHO MƠHÌNHXỬLÝKHOẢNGTRỐNGTỪVỰNGTừ điển song ngữ Anh – Việt Nhiệm vụ từ điển Anh-Việt Nhiệm vụ từ điển song ngữ AnhViệt là: Ánh xạ từvựng tiếng Anh sang hay nhiều nghĩa tiếng Việt Cung cấp thông tin ngữ nghĩa để giảm thiểu nhập nhằng ngữ nghĩa Hỗ trợ mơhình XLKTTV xửlýkhoảngtrốngtừvựng Hệ thống từ loại tiếng Anh Các tiêu chí xây dựng từ điển tiếng Anh bao gồm xác định giới hạn mục từ, xây dựng tập từ loại định dạng loại từ theo văn phạm nét HPSG Hệ thống cấu trúc nét dùng lưu trữ từ tiếng Anh Để khai báo từ loại từ điển, thay sử dụng kiểu từ loại đơn giản “danh từ”, “động từ”… luận án xây dựng cấu trúc phức tạp với nét lồng theo văn phạm HPSG nghiên cứu chương Các phần mềm ngữ liệu tiếng Anh Toàn mục từ lấy kho ngữ liệu Englex [36] Luận án không kiểm tra tính đủ tập từvựng tiếng Anh Englex Để tìm kiếm mục từtừ điển tiếng Anh, phần mềm PC-PATR dựa giải thuật PC-KIMMO [36] thực ánh xạ từ biến hình vào từ gốc từ điển Các từ điển điện tử dùng dịchmáyAnhViệt Phần trình bày khuôn dạng từ điển điện tửtừ điển điện tửAnh-Việt phục vụ hệ thống dịchmáyAnh-ViệtTừ điển điện tử áp dụng nét – hình thức cung cấp thông tin cấp độ từvựng cho phép hệ thống RBMT giảm bớt tập luật phân tích câu nguồn tạo câu đích Hệ thống từ tương đương tiếng ViệtTrongtừ điển song ngữ Anh Việt, mục từ tiếng Anh trình bày mục 5.2 có hay nhiều mục từ tương đương tiếng ViệtTừ book nn PHONOLOGY book HEAD ENG CAT SYNSEM NN SUBJ COMPS SPR DT | [ ] CONTENT [ ] ARG-ST word TOPIC sách COMMENT VIE POS nn Hình 5.6 Danh từ “book” từ điển song ngữ Anh-Việt Ví dụ mục từ “book” từ điển song ngữ AnhViệtmơ tả hình 5.6 Trong nét ENG VIE hai phần tiếng Anh tiếng Việt tương ứng mục từ Cấu trúc mẫu cho ngữ từ điển song ngữ Anh-Việt Phần liệt kê mẫu cụm từ tiếng Việt xuất từ điển AnhViệtMƠHÌNHXỬLÝKHOẢNGTRỐNGTỪVỰNG Chương trình bày mơhìnhdịchmáy sử dụng ngữ (hay cụm từ) - gọi tắt mơhình XLKTTV - để giải tượng thiếu từvựng tương đương MơhìnhxửlýkhoảngtrốngtừvựngMơhình XLKTTV đóng góp luận án Mơhình XLKTTV luận án đề xuất (hình 6.1) dựa mơhình chuẩn Transfer-based model [46] Tập luật chuyển cấu trúc Chuyển đổi cấu trúc câu Cấu trúc câu tiếng Anh cú pháp Cấu trúc câu tiếng Việt Chuyển đổi từ Phân tích câu Từ điển AnhViệt Tổng hợp câu Đường liệu Từ điển tiếng AnhTừ điển tiếng Việt Dữ liệu hỗ trợ Câu tiếng Anh Quy trình xửlý đề xuất luận án Tập luật ngữ pháp Tập tiếng luậtAnh ngữ pháp tiếng Việt Câu tiếng Việt Hìn h 6.1 Mơhình XLKTTV Tập luật chuyển cấu trúc Cấu trúc câu tiená g Vietä Câu tiếng Anh sau phân tích cú pháp Cây cú pháp câu tiếng Anh Chuyển đổi cấu trúc Chỉnh câu cấu trúc cụm từCây cú pháp câu tiếng Việt Chuyển đổi cấu trúc câu nguồn sang câu đích Cấu trúc câu tiếng Anh Cấu trúc câu tiếng ViệtTừ tiếng Anh Chuyển đổi từTừ tiếng Việt Tập liệu xửlýTừ điển AnhViệt Tập liệu hỗ trợmới Các xửlý bổ sung Hình 6.4 Mơhình XLKTTV: Các thành phần bổ sung Hoạt động mơhình XLKTTV Hoạt động mơhình theo trình tự sau: Câu nguồn phân tích thành cấu trúc để làm rõ chức ngữ pháp ngữ nghĩa Cấu trúc câu nguồn chuyển đổi tập luật sang cấu trúc tương đương ngơn ngữ đích Đồng thời từ nguồn dịch qua từđích dựa từ điển song ngữ Từđích cấu trúc phức hợp với nét lưu trữ thông tin ngữ nghĩa ngữ pháp tương đương, từ cụm từ tiếng Việt- Các từđích gán vào cấu trúc câu đích, chỉnh lý lại cấu trúc nhận Do phần tiếng Việttừ điển song ngữ xây dựng VLFG, nên sau q trình chuyển đổi từ, mơhình nhận hai cấu trúc cây: cấu trúc thành tố cấu trúc chức Các cấu trúc nhận sau chỉnh lý cần kiểm tra ánh xạ với để đảm bảo tính đắn văn phạm tiếng Việt Cấu trúc câu/ cụm từ tiếng Anh Không Cấu trúc có từ vựng? Có Tìm từvựngKhoảngtrốngtừ vựng? Có Có Chuyển đổi theo luật Tìm mẫu cụm từ Chỉnh sửa cấu trúc cụm từ Không Còøn cấu trúc ? Kết thúc Hình 6.7 Hoạt động mơhình XLKTTV Các giải thuật xửlýkhoảngtrốngtừvựngmơhình XLKTTV Giải thuật bổ trợ 6.1 mơ tả bước xác nhận khoảngtrốngtừvựng Giải thuật 6.1: Xác định khoảngtrốngtừvựng Nhập: Từ tiếng Anh X Xuất: Trả lại Y A khoảngtrốngtừ vựng, ngược lại trả lại Phương pháp: % Giải thuật sử dụng ngôn ngữ đặc tả Prolog % Function is_lex_gap (X, Y) %X rỗng Y=0 is_lex_gap([],Y):- Y is %X thành phần đơn tố, Y=0 is_lex_gap(X,Y):-atom(X), Y is %Phần tiếng Việt thành phần đơn tố, Y=0 is_lex_gap(X,Y):-X=[_|VIE], atom(VIE), Y is 0,! %Phần tiếng Việt có POS thành phần đơn tố, Y=0 is_lex_gap(X,Y):-X=[_|VIE], VIE=[ |POS], atom(POS), Y is 0,! %X khoảngtrốngtừ vựng, Y=1 is_lex_gap(X,Y):-X=[_|VIE], VIE=[_|POS], member(POS , [vp,np,adp]) , Y is 1,! Thực giải thuật 6.1 việc xác định 12.304 từ tiếng Anh, có 2.980 từ khơng có từ điển Anh –Việt Trong 7.455 từ lại có 1109 giải thuật 6.1 coi khoảngtrốngtừvựngTrong số có 933 từkhoảngtrốngtừvựng thật sự, 176 trường hợp khác chọn nghĩa từ không tốt nhập nhằng ngữ nghĩa xác định khoảngtrốngtừvựng không tốt Độ xác giải thuật 6.1 933/1109 = 84,1% Tỷ lệ khoảngtrốngtừvựng tiếng Anh tiếng Việt 12,5% cao kết tương ứng tiếng Anh –Ý 7,8% (4,738 khoảngtrốngtừvựng 60,901 từ, [48]) Giải thuật 6.2 Xửlýkhoảngtrốngtừvựng trở nên tầm thường cụm từ thay khơng có sai biệt cú pháp, chức khuyết thành phần Khi xửlý 200 câu chứa khoảngtrốngtừ vựng, trường hợp đơn giản chiếm 82 câu, tương ứng 41% rơi vào câu đơn giản (câu đơn hai thành phần) Giải thuật 6.2: Xửlýkhoảngtrốngtừvựng (giải thuật tổng quát) Nhập: Cấu trúc cụm từ câu tiếng Việt G cú pháp, có chứa từ tiếng Anhkhoảngtrốngtừvựng Xuất: Cấu trúc cụm từ câu tiếng Việt F cú pháp không chứa khoảngtrốngtừvựng Phương pháp: % Giải thuật sử dụng ngôn ngữ đặc tả Prolog %Hàm lex_gap_proc(G,F) xửlýkhoảngtrốngtừvựng lex_gap_proc(G,F):lex_search (G,V), is_lex_gap(V,Z), Z=1, lex_gap_proc_aux(V,F) % Các hàm hỗ trợ sử dụng hàm lex_gap_proc(G,F) % Function lex_search(X,Y) %Kiểm tra cấu trúc X có chứa từvựng chuyển từvựng qua hàm lex_search_aux xửlý lex_search([],[]) lex_search(X,Y):-atom(X), lex_search_aux(X,Y) lex_search(Stru,Result):Stru= [Functor|Arg],!,lex_search_aux(Arg,NewArg), Result= [Functor|NewArg] % Hàm lex_search_aux (X,Y) tìm mục từ X từ điển song ngữ, trả Y lex_search_aux([T|Term],[NewT|NewTerm]):lex_search(T,NewT), lex_search_aux(Term,NewTerm) lex_search_aux(X,Y):- XY,! lex_search_aux(X,X) lex_search_aux([],[]) % hàm lex_gap_proc_aux(V,Y) xửlý cấu trúc khoảngtrốngtừvựng tạo phép chèn, xóa, chuyển vị sửa sai lệch cấu trúc lex_gap_proc_aux([],[]) 10 lex_gap_proc_aux(X,X):- atom(X) 11 lex_gapproc_aux(X,Y):- lex_search(X,E), is_lex_gap(E,Temp), Temp=1, lex_search_aux(E,V), lex_insert(X,E,V, Z), lex_move(Z,W), tree_level(W,Temp1), Temp1 >=5, lex_prune (W,T) ), lex_corr(T,Y) Phép thay nút cấu trúc Giải thuật 6.3 Thay nút cấu trúc cho trước cấu trúc Phép rút gọn cấu trúc Phép rút gọn cấu trúc khoảngtrốngtừvựng tạo phép lược bỏ số nhánh, ngược với phép thêm mục 6.2.1 Giải thuật 6.4 Rút gọn cấu trúc Phép chuyển vị cấu trúc Phép chuyển vị cấu trúc phép hốn đổi vị trí thành phần cấu trúc câu Xửlý sai lệch cú pháp Giải thuật 6.6 Xửlý sai lệch cú pháp Xửlý khuyết cấu trúc thành phần Giải thuật 6.7 Xửlý khuyết cấu trúc thành phần Đánh giá hiệu hoạt động mơhình XLKTTV Phương pháp chọn ngữ liệu: Luận án chọn câu kho ngữ liệu, cụ thể câu mẫu sở liệu Wordnet [63] Luận án tìm 1.657 câu có chứa từkhoảngtrốngtừvựngTrong giai đoạn đầu, luận án chọn 200 câu 1.657 câu để thử nghiệm Việc phân tích cấu trúc tiếng Anh Phân tích câu tiếng Anh thực chương trình “LFG Parser” [64] KẾT LUẬN Các kết đạt Luận án nghiên cứu tượng khoảngtrốngtừvựngdịchmáyAnh -Việt đề xuất giải pháp chuyển đổi từ tiếng Anh sang ngữ tiếng Việt nhằm đảm bảo thông tin văn nguồn Giải pháp bao gồm việc xây dựng mơhình XLKTTV, dựa mơhìnhdịchmáy dùng tập luật cấu trúc ngữ theo văn phạm chức từvựng tiếng Việt Các vấn đề liên quan xây dựng từ điển song ngữ với phần từvựng tiếng Anh theo văn phạm cấu trúc ngữ hướng tâm phần tiếng Việt với văn phạm chức từvựng tiếng Việt Ý tưởng giải pháp sử dụng tri thức ngôn ngữ để giải vấn đề khoảngtrốngtừvựng Để từvựng hóa luật tiếng Việt, văn phạm chức từvựng VLFG xây dựng Luận án trình bày mơhình giải thuật xửlý câu tiếng Việt trường hợp có khoảngtrốngtừvựng Luận án có ý nghĩa thực khoa học thực tiễn với kết sau: a) Khảo sát trường hợp xuất khoảngtrốngtừvựngdịchmáy Anh-Việt b) Đưa mơhình cho dịchmáyAnhViệt sử dụng luật mơhình XLKTTV, cho phép sử dụng ngữ ngơn ngữ đích (cụm từ) để thay từ ngôn ngữ nguồn c) Xây dựng khung văn phạm tiếng Việt văn phạm chức từvựng phục vụ môhình đề xuất d) Xây dựng chương trình thực hiệc giải thuật mơhình XLKTTV, xửlý trường hợp khoảngtrốngtừvựngdịchmáyAnh – Việt Ba đóng góp luận án Đóng góp thứ nhất: Luận án xây dựng khung văn phạm chức từvựng tiếng Việt văn phạm chức từvựng hỗ trợ xửlýkhoảngtrốngtừvựng Đóng góp thứ hai: Luận án xây dựng từ điển cung cấp từvựng dạng mẫu cấu trúc cụm từ phức tạp với nét văn phạm chức từvựng tiếng Việt sử dụng mơhình nói Đóng góp thứ ba: Luận án đề xuất mơhìnhdịch xây dựng giải thuật cho phép biến đổi cấu trúc câu tiếng Việt trường hợp có khoảngtrốngtừ vựng, sử dụng cụm từ theo mẫu Các khó khăn hướng phát triển Luận án thực văn phạm chức từvựng cho tiếng Việt cho trường hợp khoảngtrốngtừvựng tập trung vào ba từ loại danh từ, động từ tính từ Kết luận Luận án thực đóng góp khoa học cho vấn đề thiếu từvựngdịchtừ tiếng Anh sang tiếng Việt Giải pháp mà luận án đề xuất cho phép xửlýkhoảngtrốngtừ vựng, giúp cải thiện chất lượng dịch dựa mức độ xác cụm từ thay Giải pháp áp dụng cho nhiều hệ thống dịchmáy cặp ngơn ngữ khác ngồi tiếng Anh – Việt DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ [1] Le Manh Hai, Phan Thi Tuoi, Nguyen Chi Hieu 2005 English Vietnamese dictionary with lexical conceptual structure for machine translation FAIR 05, Ho Chi Minh City, 22-25 September, 2005 [2] Le Manh Hai, Phan Thi Tuoi, Nguyen Chi Hieu 2006 Dictionaries for English-Vietnamese Machine Translation, in proceedings of the 21st International Conference on the Computer Processing of Oriental Languages Singapore 17-19 December, 2006 [3] Le Manh Hai, Phan Thi Tuoi 2009 Word-to-phrase translation: A solution for lexical gap in English-Vietnamese machine translation In Proc of the 7th Internationnal IEEE Conference on the Computer Science- RIVF’09, Danang 13-17 July, [4] Le Manh Hai, Phan Thi Tuoi 2009 Vietnamese Lexical Functional Grammar, In Proc of the first International Conference on Knowledge and Systems Engineering (KSE 2009) Hanoi, 12 15 Octorber, 2009 [5] Le Manh Hai, Phan Thi Tuoi 2009 Three algorithms for wordto-phrase machine translation., In Proc of International Conference on Asian Language Processing 2009 IALP 2009 Singapore, 7-9 Dec, 2009 [6] Le Manh Hai, Phan Thi Tuoi 2010 Lexical gap in English- Vietnamese machine translation: what to do?, In Proc of International Conference on Asian Language Processing 2010 IALP 2010 China, 28-30 Dec, 2010 [7] Hieu, N.C & Tuoi, T.P & Dung, N.X & Hai, L.M 2006 Phrase-based English-Vietnamese Machine Translation, In Proceedings of the International Conference on Speech Databases and Assessment – Oriental-COCOSDA’06, Malaysia, 12-2006 ... = “chanh” M(Q1) = Q M(Q2) = P1 TỪ ĐIỂN NÉT CHO MƠ HÌNH XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG Từ điển song ngữ Anh – Việt Nhiệm vụ từ điển Anh - Việt Nhiệm vụ từ điển song ngữ Anh Việt là: Ánh xạ từ vựng. .. tiếng Việt tương ứng mục từ Cấu trúc mẫu cho ngữ từ điển song ngữ Anh - Việt Phần liệt kê mẫu cụm từ tiếng Việt xuất từ điển Anh Việt MÔ HÌNH XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG Chương trình bày mơ hình dịch. .. gây khoảng trống từ vựng Hướng tiếp cận luận án việc xử lý khoảng trống từ vựng Luận án chọn phương pháp sử dụng cụm từ bổ sung (thường ngữ) gặp khoảng trống từ vựng dịch máy Anh Việt Khảo sát khoảng