Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 251 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
251
Dung lượng
1,54 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM -oOo - Nguyễn Chí Hiếu MÔ HÌNH KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ CƠ SỞ TƯƠNG ỨNG ANH-VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HCM - Năm 2008 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM -oOo - Nguyễn Chí Hiếu MÔ HÌNH KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ CƠ SỞ TƯƠNG ỨNG ANH-VIỆT Chuyên ngành : Khoa học máy tính Mã số: 60.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC PGS-TS PHAN THỊ TƯƠI TS NGUYỄN XUÂN DŨNG TP HCM - Năm 2008 i Lời cam đoan Tôi xin cam đoan luận án công trình nghiên cứu khoa học Các kết luận án trung thực chưa khác công bố công trình khác Tp Hồ Chí Minh, ngày 27 tháng 12 năm 2007 Người thực NCS Nguyễn Chí Hiếu ii LỜI CẢM ƠN Lời đầu tiên, xin bày tỏ lòng biết ơn sâu sắc tới PGS-TS Phan Thị Tươi, TS Nguyễn Xuân Dũng – Cô Thầy trực tiếp hướng dẫn, động viên suốt trình thực luận án Chân thành cảm ơn quý Thầy Cô trường Đại học Bách khoa – Đại học Quốc gia TP HCM, đặc biệt Thầy Cô môn Phần mềm ứng dụng Khoa Công nghệ Thông tin cung cấp cho tài liệu cần thiết cho lời khuyên bổ ích để hoàn thành luận án Tôi xin bày tỏ lòng biết ơn chân thành tới Hiệu trưởng, Ban giám Hiệu, đồng nghiệp Khoa Công nghệ Thông tin trường Đại học Công nghiệp TP HCM, người tạo điều kiện thuận lợi, giúp đỡ tinh thần vật chất cho việc thực luận án Luận án khó hoàn thành hỗ trợ từ gia đình, bạn bè, đặc biệt nhóm NLP – Đại học Bách khoa TP HCM, người trực tiếp đóng góp ý kiến thiết thực cho thành công nghiên cứu Cuối cùng, xin cảm ơn bạn sinh viên lớp ĐHTH1- Trường Đại học Công nghiệp TP HCM trực tiếp hỗ trợ việc xây dựng kho ngữ liệu song ngữ đánh giá kết thực nghiệm Cảm ơn Trung tâm Nghiên cứu Ngôn ngữ Viện Khoa học xã hội giúp việc chỉnh lý liệu chuẩn để hỗ trợ cho việc đánh giá kết luận án TP.HCM, ngày 27-12-2007 Người thực NCS Nguyễn Chí Hiếu iii MỤC LỤC Lời cam đoan i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT .v DANH MỤC CÁC HÌNH viii DANH MỤC CÁC BẢNG x Chương MỞ ĐẦU 1.1 Động nghiên cứu 1.2 Mục tiêu, hướng nghiên cứu nhiệm vụ nghiên cứu .3 1.3 Phạm vi nghiên cứu toán 1.4 Đóng góp luận án 1.5 Cấu trúc luận án Chương CƠ SỞ LÝ THUYẾT 2.1 Các định nghĩa phát biểu hình thức 10 2.2 Cụm danh từ 15 2.2.1 Cấu trúc cụm danh từ tiếng Việt 15 2.2.2 Cấu trúc cụm danh từ tiếng Anh 28 2.2.3 Sự tương đồng khác biệt cụm danh từ tiếng Anh tiếng Việt .33 2.3 Các phương pháp đối sánh từ 41 2.3.1 Xác định toán 42 2.3.2 Các mô hình đối sánh 43 2.3.3 Mô hình đối sánh thống kê .46 2.3.4 Phương pháp từ điển .51 2.4 Nguồn tài nguyên dùng luận án .54 2.4.1 Gate .54 2.4.2 Giza++ 55 2.4.3 Penn Treebank 56 2.4.4 Phân đoạn từ tiếng Việt 56 2.4.5 Tiêu chí nhận diện từ 57 Chương CHUYỂN ĐỔI CÂY CÚ PHÁP ANH VIỆT 59 3.1 Mở đầu 60 3.2 Lý thực toán chuyển đổi trật tự từ 71 3.3 Mô hình chuyển đổi trật tự từ 74 3.4 Kết thử nghiệm đánh giá .91 3.4.1 Dữ liệu đánh giá 92 3.4.2 Tiêu chuẩn đánh giá 93 iv 3.4.3 Kết đánh giá .95 Chương MÔ HÌNH THỐNG KÊ KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH .98 4.1 Mở đầu 98 4.2 Mô hình thống kê khai thác đặc tính ngôn ngữ đích .101 4.3 Đánh giá kết .111 4.3.1 Ngữ liệu huấn luyện đánh giá 112 4.3.2 Kết thực nghiệm 116 Chương MÔ HÌNH TỪ ĐIỂN KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH .121 5.1 Mở đầu 121 5.2 Mô hình đối sánh điểm neo 123 5.2.1 Dẫn nhập .123 5.2.2 Các mô hình thực nghiệm .127 5.2.3 Bài toán chồng chéo xung đột 145 5.3 Kết thực nghiệm .153 Chương CÁC NGHIÊN CỨU LIÊN QUAN .158 6.1 Các phương pháp phân đoạn câu 158 6.1.1 Các phương pháp tạo văn phạm tay .158 6.1.2 Các phương pháp máy học 159 6.2 Rút trích cụm danh từ song ngữ 161 Chương KẾT LUẬN 166 7.1 Các kết đạt .166 7.2 Hướng phát triển .168 7.3 Lời kết 168 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 171 TÀI LIỆU THAM KHẢO 173 PHỤ LỤC A DỮ LIỆU ĐÁNH GIÁ 187 PHỤ LỤC B LUẬT SINH RÚT TRÍCH TỪ PENN TREEBANK 193 PHỤ LỤC C CHẠY GIZA++ .207 PHỤ LỤC D BẢNG MÃ HÓA TIẾNG VIỆT SANG MÃ ASCII .209 PHỤ LỤC E CÁC TỪ PHÂN LỚP TRONG TIẾNG VIỆT .210 PHỤ LỤC F BẢNG MÃ TỪ LOẠI DÙNG TRONG LUẬN ÁN 219 PHỤ LỤC G ĐỊNH NGHĨA MỘT SỐ KHÁI NIỆM 221 PHỤ LỤC H CÁC PHƯƠNG PHÁP HỌC MÁY 223 PHỤ LỤC I TÍNH NHẬP NHẰNG 226 PHỤ LỤC J ĐỘ PHỨC TẠP GIẢI THUẬT 229 v DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt AER Alignment Error Lỗi đối sánh AI Artificial Intelligence Trí tuệ nhân tạo ANN Artificial Neural Networks Mạng Neural nhân tạo APAP Anchor Point Alignment & Projection APAP-LCC Anchor Point Alignment & Chiếu qua đối sánh điểm neo Projection – Language khai thác đặc tính ngôn ngữ Characteristic Combination đích APAP-STT Anchor Point Alignment & Projection – Syntax Tree Transfer Chiếu qua đối sánh điểm neo khai thác đặc tính trật tự từ APAP-WS Anchor Point Alignment & Projection – Word Segmentation Chiếu qua đối sánh điểm neo khai thác đặc tính phân đoạn từ BaseNP Base-Noun Phrase Cụm danh từ sở BLEU Bilingual evaluation Phương pháp để đánh giá tự động cho Dịch máy Understudy Chiếu qua đối sánh điểm neo 10 CoNLL Conference on Computational Natural Language Learning 11 CLIR Cross-language information Truy hồi thông tin xuyên retrieval ngôn ngữ 12 DictAlign Dictionary Alignment Đối sánh từ điển 13 DL Decision List Danh sách định 14 DP Decision Pylon Tháp định 15 EBMT Example Based Machine Translation Dịch máy sở ví dụ Hội nghị ngôn ngữ học tính toán vi 16 EBT Example Based Transfer Chuyển đổi sở ví dụ 17 EM Expected Maximal kỳ vọng cực đại 18 FNPC Finding Noun Phrase Corresponding Tìm cụm danh từ tương ứng 19 GATE General Architecture for Text Engineering Kiến trúc tổng quát cho kỹ thuật văn 20 HMM Hidden Markov Models Mô hình Markov ẩn 21 IE Information Extraction Rút trích thông tin 22 IR Information Retrieval Truy hồi thông tin 23 KANT Knowledge-Based Natural Dịch ngôn ngữ tự nhiên Language Translation sở tri thức 24 MBL Memory-based learning Học sở nhớ 25 MT Machine Translation Dịch máy 26 ME Maximal Entropy Entropy cực đại 27 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên 28 NFA Nondeterministic Finite Automata Automat hữu hạn không đơn định 29 NP Noun Phrase Cụm danh từ 30 POS Part–Of-Speech Mã từ loại 31 QA Question & Answer Hỏi trả lời 32 RBMT Rule Base Machine Translation Dịch máy dựa vào luật sinh 33 SMT Statistical Machine Translation Dịch máy thống kê 34 SQL Structured Query Language Ngôn ngữ hỏi có cấu trúc 35 SR Speech Recognition Nhận dạng giọng nói 36 SVM Support vector machine Máy véc tơ hỗ trợ vii 37 TA Treebank Approach Tiếp cận Treebank 38 TA+LR Treebank Approach + Local Repair Treebank + hiệu chỉnh cục 39 TBL Transformation Based Learning Học sở chuyển đổi 40 WA Word Alignment Đối sánh từ 41 WAP Word Alignment & Projection Chiếu qua đối sánh từ WAP-LCC Word Alignment & Chiếu qua đối sánh từ khai Projection –Language Characteristic Combination thác đặc tính ngôn ngữ đích WAP-STT Word Alignment & Projection – Syntax Tree Transfer Chiếu qua đối sánh từ khai thác đặc tính trật tự từ WAP-WS Word Alignment & Projection – Word Segmentation Chiếu qua đối sánh từ khai thác đặc tính phân đoạn từ 42 43 44 viii DANH MỤC CÁC HÌNH Hình 2.1 Giải thuật đối sánh từ sở từ điển 52 Hình 2.2 Giải thuật đối sánh từ sở từ điển phân lớp từ 54 Hình 3.1 Ví dụ loại đối sánh .71 Hình 3.2 Vấn đề chồng chéo xung đột phép chiếu 72 Hình 3.3 Chuyển đổi trật tự từ để xác định điểm neo 73 Hình 3.4 Một ví dụ cụm danh từ sở .76 Hình 3.5 Giải thuật tìm từ trung tâm 76 Hình 3.6 Giải thuật nhận biết liên từ thành phần Y5 80 Hình 3.7 Giải thuật phân tách thành phần phụ trước .81 Hình 3.8 Mô hình chuyển đổi trật tự từ tiếng Anh theo tiếng Việt 83 Hình 3.9 Giải thuật chuyển đổi trật tự từ tiếng Anh theo tiếng Việt .85 Hình 4.1 Ví dụ đối sánh mô hình WAP 102 Hình 4.2 Mô hình WAP .102 Hình 4.3 Giải thuật WAP .103 Hình 4.4 Ví dụ đối sánh mô hình WAP-WS 104 Hình 4.5 Giải thuật WAP-WS 104 Hình 4.6 Mô hình WAP-WS 105 Hình 4.7 Ví dụ đối sánh mô hình WAP-STT .106 Hình 4.8 Giải thuật WAP-STT 106 Hình 4.8 Mô hình WAP-STT 107 Hình 4.10 Ví dụ đối sánh mô hình WAP-LCC 108 Hình 4.12 Mô hình WAP-LCC 109 Hình 4.13 Giải thuật nhận biết cụm danh từ sở tiếng Việt 110 Hình 5.1 Ví dụ đối sánh điểm neo 124 Hình 5.2 Ví dụ xác định cụm danh từ tương ứng Anh-Việt .125 Hình 5.3 Giải thuật nhận biết cụm danh từ sở tiếng Việt 126 Hình 5.4 Mô hình APAP 128 Hình 5.5 Mô hình APAP-WS 129 Hình 5.6 Mô hình APAP-STT .130 Hình 5.7 Mô hình APAP-LCC 131 224 - Danh sách định Rivest [113] đưa có mối quan hệ gần với định Các giải thuật huấn luyện theo phương pháp đề xuất Michalski [88] (giải thuật AQ), Clark Niblett [41], Clark Boswell [42] (giải thuật CN2) Trong xử lý ngôn ngữ tự nhiên, danh sách định dùng toán xử lý ngữ nghĩa Yarowsky [133], [135], [136] Martinez [85], rút trích thông tin Yarowsky [134], tổng hợp ngôn ngữ Yarowsky [137] - Giải thuật học Winnow Littlestone [78] đưa năm 1988, giải thuật đề xuất phương pháp học trọng số phương pháp phân lớp trực tuyến Một vấn đề mà giải thuật Winnow phải đối mặt liệu không chia tách trực tuyến, đạt hội tụ Để giải vấn đề này, giải thuật Winnow cho việc tác động liệu chia tách không trực tuyến Gentile Warmuth [60] Zhang [141], [142] , đảm bảo hội tụ liệu chia tách không trực tuyến, mà thu nhiều kết tốt Golding Roth [61] dùng mô hình Winnow để xây dựng hệ thống sửa lỗi tả cho văn tiếng Anh - Các mô hình hàm số mũ có lịch sử lâu đời ứng dụng xử lý ngôn ngữ tự nhiên, có từ 1964, Mosteller Wallace [92] giới thiệu phương pháp phân lớp Naive Bayes phân lớp văn để giúp giải vấn đề nhận dạng quyền tác giả luận án - Mô hình Naive Bayes đề xuất để giải số toán xử lý ngôn ngữ, toán liên quan đến nhiều nét đặc trưng, chẳng hạn truy vấn thông tin phân loại văn Lewis [77], xử lý ngữ nghĩa Gale [59], Pedersen [104], Yarowsky [137], phân loại ý kiến Pang [102] - Trong xử lý ngôn ngữ tự nhiên, mạng Neural sử dụng để học với khứ động từ Rumelhart McClelland [115]; gán từ loại Benello [31], Schmid [117], Marques Lopes [83]; tìm giới hạn câu Palmer Hearst [101]; phân tích từ loại Henderson Lane [65] phân loại văn Wiener [132] Schutze [118] - Khởi động thích nghi (AdaBoost) giải thuật phân lớp biến đổi 225 Freund Schapire [57] đưa mở rộng [58] - Phân lớp tổ hợp nhiều người nghiên cứu chứng minh phương pháp thành công nhiều ứng dụng xử lý ngôn ngữ tự nhiên, gán từ loại Van Halteren [63], xác định cụm danh từ sở Tjong Kim Sang [122], phân tích cú pháp Henderson Brill [64], xác định nghĩa từ Florian Yarowsky [56], phân lớp từ Van Halteren [62], [63], TiMBL (phân lớp sở nhớ) Daelemans [48], [49] - Một phương pháp đơn giản đưa Cardie Pierce năm 1998 gọi tiếp cận treebank (TA: Treebank Aproach) Tiếp cận gồm hai giai đoạn: giai đoạn đầu, cụm danh từ sở tiếng Anh học từ kho ngữ liệu mẫu Kho ngữ liệu gán từ loại cho từ Các cụm từ xác định trước nhà ngôn ngữ học, ví dụ cụm danh từ sở, cụm giới từ, cụm động từ, cụm tính từ Giai đoạn sau, tác giả sử dụng luật sinh vừa học để ứng dụng vào việc nhận biết cụm danh từ sở tiếng Anh đạt độ xác khoảng 90% đến 94% [40] 226 PHỤ LỤC I TÍNH NHẬP NHẰNG Hai vấn đề nghiên cứu dịch máy cú pháp ngữ nghĩa Do không nhóm ngôn ngữ, ngôn ngữ tiếng Anh thuộc nhóm ngôn ngữ Ấn-Âu, ngôn ngữ tiếng Việt thuộc nhóm ngôn ngữ Việt-Mường, ngành Môn-Khmer nên cấu tạo từ trật tự từ hai ngôn ngữ có khác biệt, ví dụ tiếng Anh có yếu tố tiếp đầu ngữ yếu tố tiếp vĩ ngữ; tiếng Việt yếu tố trật tự từ ảnh hưởng đến nghĩa từ Sự khác biệt gây nhiều khó khăn cho chuyển ngữ Để biên dịch tốt, máy tính phải hiểu đặc tính ngữ pháp hai ngôn ngữ nguồn đích Trong quan trọng cú pháp ngữ nghĩa lịch sử dịch máy tự động trải qua 50 năm [30], [66] vấn đề tập trung nghiên cứu Nguyên nhân khó khăn tính nhập nhằng, cấu trúc ngữ pháp phức tạp, không đồng cặp ngôn ngữ Sau ví dụ minh họa khó khăn - Nhập nhằng ngữ pháp: Ngay ngữ pháp tiếng Anh tồn tính nhập nhằng, nhập nhằng xảy phân loại yếu tố phân bổ, cấu trúc thành tố Ví dụ với: They can fish Ngữ pháp tiếng Anh cho hai phân tích (theo cấu trúc thành tố): - They/PRP can/VBP fish/NN (Họ đóng hộp cá) - They/PRP can/MD fish/VB (Họ câu cá) Do tính nhập nhằng xuất phụ thuộc vào cấu trúc thành tố, vào phân loại theo phân bổ - Nhập nhằng từ vựng: Một từ có nhiều chức ngữ pháp Một chức ngữ pháp lại có nhiều nghĩa 227 Ví dụ: Từ train với chức danh từ có nghĩa tàu hỏa đoàn tùy tùng, với chức động từ có nghĩa đào tạo dạy dỗ Người ta tính từ tiếng Anh có hai nghĩa Từ có nhiều nghĩa từ Set (58 nghĩa có chức ngữ pháp danh từ, 126 nghĩa có chức ngữ pháp động từ 10 nghĩa tính từ) - Nhập nhằng phân đoạn từ, Ví dụ: Ông già nhanh Ông già nhanh Ông già nhanh Hay câu: học sinh học sinh học gây nhặp nhằng phân đoạn từ - Hiện tượng tĩnh lược (ellipsis): Một cấu trúc câu dài rút ngắn lại Ví dụ: Mary tidied up the kitchen and John the living room Mary tidied up the kitchen and John tidied up the living room - Nghĩa câu phụ thuộc vào nghĩa câu trước: nhiều trường hợp, muốn hiểu nghĩa câu, ta phải vào nghĩa câu trước Ví dụ: The room has two cabinets He keeps books in them - Nghĩa từ phụ thuộc vào ngữ cảnh: Con người xác định ngữ nghĩa từ nhờ biết ngữ cảnh văn Từ bank lấy nghĩa ngân hàng ngữ cảnh tài chính, lấy nghĩa bờ sông ngữ cảnh thiên nhiên… Giúp máy tính lấy nghĩa (hoặc nghĩa thông dụng) cho kết hợp vấn đề không đơn giản Để lấy nghĩa đúng, Ill Mitamura [90] đưa hệ thống KANT Hệ thống giới hạn dịch lĩnh vực hẹp chế tạo máy - Cấu trúc ngữ pháp phức tạp: hệ thống ngữ pháp ngôn ngữ tự nhiên phức tạp Vì văn phạm ngôn ngữ tự nhiên văn phạm cảm ngữ cảnh Thật khó khăn phải mô tả lại chúng văn phạm phi ngữ cảnh (cho đến tồn giải thuật phân tích cú pháp cho lớp văn phạm phi ngữ cảnh) 228 - Lượng từ vựng nhiều: tiếng Anh có khoảng 500.000 từ thông thường 300.000 thuật ngữ khoa học Việc đưa khối lượng liệu lớn vào máy tính xử lý chúng vấn đề khó khăn - Sự không đồng tiếng Anh tiếng Việt: việc dịch câu từ ngôn ngữ sang ngôn ngữ khác mà giữ nguyên nội dung, tính xác sắc thái biểu cảm vấn đề khó khăn (kể người dịch); bao gồm số trở ngại sau: • Không tương đồng từ vựng: Vi dụ: Từ table tiếng Anh dịch sang tiếng Việt : bảng biểu, bữa tiệc, bàn… Ngôi thứ tiếng Anh “I” , Nhưng tiếng Việt là” tôi, tớ, tao , anh, mình, cháu, bố, mẹ…” • Không tương đồng cấu trúc câu: Trong tiếng Anh tính từ thường đứng trước danh từ, tiếng Việt ngược lại Ví dụ: She bought a blue book yesterday (Hôm qua, cô ta mua sách màu xanh) Một câu tiếng Anh có động từ, tiếng Việt không hẳn Ví dụ: She is nice (Cô ta đẹp) • Không tương đồng nhóm ngôn ngữ: ví dụ: Is he not a student? (Anh ta sinh viên à?) No (Vâng là sinh viên) 229 PHỤ LỤC J ĐỘ PHỨC TẠP GIẢI THUẬT Gọi n số từ câu e, m số từ câu v Tính độ phức tạp giải thuật 2.1 1.1 Giải thuật 2.1 (DictAlign): Bước 1: Loại bỏ từ E không dịch (StopWord) sang V khỏi WE Bước 2: Tìm kiếm tất tổ hợp từ WV câu V từ điển DV Bước 3: Với e ∈ WE, tìm nghĩa e từ điển song ngữ ta có DTE Bước 4: Với dt ∈ DTE vt ∈ WV, tính Sim(dt,vt) theo công thức (2.29) Bước 5: Với cặp (e,vt) ∈ WE*WV, tính DTSim(e,vt) theo công thức (2.30) Bước 6: Với từ e, chọn cặp (e,vt), DTSim(e,vt) lớn DTSim(e,vt) > h, h ngưỡng cho trước Bước 7: Tạo tập cặp kết nối (e,vt) gọi CONN Trong đó: E câu tiếng Anh; V dịch E tiếng Việt; DTE tập ngữ nghĩa từ điển song ngữ cho mục từ e, nghĩa ký hiệu dt WV = {vt | vt ∈ V ∧ vt ∈ DV}, vt từ/cụm từ tiếng Việt có V; WE = {e}; DV từ điển đơn ngữ tiếng Việt 1.2 Độ phức tạp giải thuật 2.1 tính sau: Giả sử lần tìm kiếm từ điển cho từ hết đơn vị thời gian Giả thiết số từ DT m Bước ÆB1 = O(k), giả sử có k (km; ngược lại O(m2); Ví dụ: Cho cặp câu E = some1 people2 love3 to4 live5 in6 a7 countryside8, while9 others10 prefer11 town12 life13 V = Một vài1 người2 thích3 sống4 ở5 nông thôn6, khi7 người khác8 thích9 sống10 thành thị11 hơn12 WE = {some, people, love, live, in, a, countryside, while, others, prefer, town, life} WV = {Một vài, người, thích, sống, ở, nông thôn, khi, người khác, thích, sống, thành thị, hơn} Kết tìm từ điển từ people gọi DT(people) sau: DTE = DT(people) = {người, nhân dân, dân chúng, quần chúng, người ta, thiên hạ, bà con, họ hàng, thần dân,…} DTSim(people, người) = max{ Sim(người, người), Sim(nhân dân, người), Sim(dân chúng, người), Sim(quần chúng, người), Sim(người ta, người), Sim(thiên hạ, người), Sim(bà con, người), Sim(họ hàng, người),…} = 2/2 = 1; Tính độ phức tạp giải thuật 2.2 2.1 Giải thuật 2.2 (ClassAlign):Đối sánh từ sở phân lớp từ cho cặp câu (E,V) Bước 1: Gán từ loại cho từ câu E, tách từ câu E để thu We Bước 2: ANS = rỗng Thực giải thuật DictAlign cặp câu (E,V) để xây dựng tập CONN 231 Bước 3: Tìm từ điển để xây dựng tập WV (các từ đồng nghĩa với từ câu V) Bước 4: Với cặp dự tuyển (e,v) ∈ WE*WV, tính xác xuất Pr(e,v) theo công thức (2.4) đến (2.8) Bước 5: Thêm vào tập ANS cặp (e,v) có Pr(e,v) lớn nhất, e, v ∈ WE*WV Bước 6: Tập ANS kết đối sánh từ 2.2 Độ phức tạp giải thuật 2.2 tính sau: Giả sử câu tiếng Anh gán từ loại, có số phần tử n Bước Æ B1 = O(n) Bước Æ B2 = O(n2) Bước Æ B3 = O(n2): giả thiết có n từ đồng nghĩa Bước Æ B4 = O(n2): giả thiết số từ tiếng Anh số từ tiếng Việt Bước Æ B5 = O(n2): giả thiết việc thêm phần tử vào ASN hết đơn vị thời gian Bước Æ B6 = O(1): giả thiết việc xuất liệu hết đơn vị thời gian Kết O(GT2.2) = max(O(B1), , O(B6)) = O(n2); Tính độ phức tạp giải thuật 3.1 3.1 Giải thuật 3.1 (GT3.1): Tìm từ trung tâm cụm danh từ sở tiếng Anh (Y5) Nhập: Cụm danh từ tiếng Anh gán nhãn từ loại Xuất: Từ trung tâm (Y5) Phương pháp: Nếu cụm danh từ sở có phần tử thực bước 6, Ngược lại thực bước 1; 232 Bước 1: Tìm từ phải qua trái, gặp từ có từ loại tập {NN, NNP, NNPS, NNS} Y5 từ vừa tìm thấy thực bước 6, ngược lại thực bước 2; Bước 2: Tìm từ phải qua trái, gặp từ có từ loại tập {$, #} Y5 từ vừa tìm thấy thực bước 6, ngược lại thực bước 3; Bước 3: Tìm từ phải qua trái, gặp từ có từ loại CD Y5 từ vừa tìm thấy thực bước 6, ngược lại thực bước 4; Bước 4: Tìm từ phải qua trái, gặp từ có từ loại tập {JJ, JJS, RB, JJR} Y5 từ vừa tìm thấy thực bước 6, ngược lại thực bước 5; Bước 5: Y5 từ tận bên phải cụm danh từ sở trả cho chương trình thành phần Y5 ; Bước 6: trả thành phần Y5 ; 3.2 Độ phức tạp giải thuật 3.1 tính sau: Giả sử cụm danh từ nhập vào có n từ - Nếu n=1 Æ O(GT3.1) = O(1) - Nếu n>1: Bước Æ B1 = O(n) Bước Æ B2 = O(n) Bước Æ B3 = O(n) Bước Æ B4 = O(n) Bước Æ B5 = O(1) Bước Æ B6 = O(1) Kết quả: O(GT3.1) = Max(O(B1), …, O(B6)) = O(n) 233 Tính độ phức tạp giải thuật 3.2 4.1 Giải thuật 3.2 (GT3.2): Xác định từ trung tâm có liên từ tách cụm danh từ sở Nhập: Cụm danh từ sở tiếng Anh gán nhãn từ loại Xuất: phần phụ trước (Y1Y2Y3Y4), trung tâm (Y5) phần phụ sau (Y6a, Y6b) Phương pháp: - Bước 1: Chạy giải thuật 3.1 để xác định từ trung tâm (Y5) vị trí h cụm danh từ sở gồm n từ (h ≤ n) - Bước 2: Mở rộng từ trung tâm tách cụm danh từ sở đoạn mã sau begin foundCC=True; Y5= từ vị trí h; h2 = h; while ((h>2)and(foundCC)) begin /*bài toán có nhiều liên từ thành phần Y5*/ if ( h-1 vị trí từ có từ loại CC) then begin Y5 = hai từ vị trí ( h-1, h) + Y5; /*thêm h-2 vòng ngoài*/ h = h-2; end else foundCC = false; end if (h>1) then tách vị trí từ đến h-1 vào thành tố phụ trước(Y1Y2Y3Y4); if (h2= k O(k2) ngược lạiÆ O(GT5.6) = O(n2) Tính độ phức tạp giải thuật 5.7 8.1 Giải thuật 5.7 (GT5.7): Giải xung đột thành phần chứa điểm neo có nhiều tính từ (thành phần d mô tả hình 5.15) Nhập: thành phần d chứa nhiều tính từ 238 Xuất: Điểm neo tương ứng với cận phải cụm danh từ sở tiếng Việt Phương pháp: Bước 1: Đánh số mã loại tập d Ví dụ: JJ JJ… JJ ∈ d ; JJ JJ JJ ⇒ JJ1 JJ2 …JJk Bước 2: Đối sánh từ tập d Gọi i1, i2, …ik, vị trí đối sánh từ tương ứng bên tiếng Việt; lấy ichọn = max (i1, i2, …ik) Bước 3: Đổi vị trí từ đối sánh với ichọn với từ vị trí JJk 8.2 Độ phức tạp giải thuật 5.7 tính sau: Giả sử thành phần d có t tính từ, câu tiếng Việt có chiều dài m Bước Æ B1 = O(t) Bước Æ B2 = O(t*m) lặp k (i1, i2, …, ik) lần bên cụm tiếng Việt Bước Æ B3 = O(1) Kết O(GT5.7) = max(O(B1), , O(B3)) = O(t*m) = O(m2) m >= t O(t2) ngược lại Æ O(GT5.7)=O(n2) - Tất giải thuật cài đặt C# phiên 2005 (Microsoft Visual Studio 2005) khoảng 2500 dòng lệnh, không kể phần kết nối với Gate 3.1 để gán nhãn từ loại tiếng Anh, BaseNP chunk tiếng Anh phân đoạn từ tiếng Việt - Luận án sử dụng Giza++ phiên 2003 [98] - Độ phức tạp giải thuật tính toán theo Thomas H.Cormen & et al.[125] [...]... sánh sự tương đồng và khác biệt trong cụm danh từ cơ sở giữa tiếng Anh và tiếng Việt, để tìm ra quy luật chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo trật tự từ của cụm danh từ cơ sở tiếng Việt Xây dựng mô hình chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo cấu trúc cụm danh từ tiếng Việt - Nghiên cứu để rút trích các luật sinh của cụm danh từ cơ sở tiếng Anh từ ngữ liệu... cơ thúc đẩy chúng tôi chọn đề tài Mô hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tương ứng Anh- Việt 3 1.2 Mục tiêu, hướng nghiên cứu và nhiệm vụ nghiên cứu Chúng tôi đặt ra mục tiêu nghiên cứu chính của luận án là nhận biết cụm danh từ cơ sở tiếng Việt qua cặp câu song ngữ Anh- Việt Trên kết quả nhận biết này, chúng tôi rút trích các cụm danh từ cơ sở tương ứng Anh- Việt. .. biết cụm danh từ cơ sở tương ứng Anh- Việt, được phát biểu một cách hình thức như sau Bài toán: Cho e = we1 , we2 , , wen và v = wv1 , wv2 , , wvm là một cặp câu song ngữ Anh- Việt (v là bản dịch tương ứng của e), n là số từ của e, m là số từ của v Giả thiết rằng mỗi cụm danh từ cơ sở của câu e (tiếng Anh) được dịch sang một cụm danh từ 14 cơ sở tương ứng của câu v (tiếng Việt) và các từ trong cụm danh từ. .. trong đó: - wvji là từ thứ i trong cụm danh từ cơ sở thứ j của câu v - hj là số từ của cụm danh từ cơ sở thứ j, sao cho m > hj ≥1 và t ∑h j =1 - NPv j là cụm danh từ cơ sở thứ j của câu v - t là số cụm danh từ cơ sở của câu v tương ứng j < m Các mô tả hình thức về cụm danh từ cơ sở tiếng Anh trong công thức (2.1) và tiếng Việt trong công thức (2.2) có cùng một chỉ số t Điều này giả định rằng với mỗi... các từ trong ngôn ngữ đích - Trong luận án này, chúng tôi khai thác đặc tính ngôn ngữ đích như phân đoạn từ, đối sánh trật tự từ trong cấu trúc cụm danh từ và các từ đặc trưng của ngôn ngữ đích Với đặc tính phân đoạn từ và đặc tính trật tự từ, luận án tiến hành khai thác các đặc tính này ở bước tiền xử lý Sau đó mới thực hiện đối sánh từ trên mô hình thống kê thông qua mã nguồn mở Giza++ [98] Với các. .. không nói “vài táo” • Phần bổ ngữ sau Trong cụm danh từ tiếng Việt có nhiều loại bổ ngữ sau như: cụm danh từ, cụm tính từ, cụm giới từ, mệnh đề quan hệ, từ chỉ định, hoặc cụm từ sở hữu + Cụm danh từ Bổ nghĩa cho danh từ trung tâm có thể là một cụm danh từ xuất hiện ngay sau danh từ trung tâm (ví dụ 2.30, 2.31) để làm rõ nghĩa cho danh từ trung tâm Ví dụ 2.30: sách/NN hình học/NN a/DT geometry/NN book/NN... danh từ cơ sở tương ứng Anh- Việt - Xây dựng kho ngữ liệu song ngữ đã được đối sánh ở mức câu để thực nghiệm Xây dựng các bộ ngữ liệu mẫu để đánh giá các giải thuật và các mô hình đề xuất 1.3 Phạm vi nghiên cứu và các bài toán chính Nghiên cứu của luận án tập trung vào cụm danh từ cơ sở, một tập con của cụm danh từ, phù hợp với mục tiêu của luận án là xác định các cụm danh từ cơ sở tương ứng Anh- Việt Việc... cụm danh từ cơ sở tiếng Việt và rút trích được các cặp cụm danh từ cơ sở tương ứng Anh- Việt - Cho luật sinh của cụm danh từ cơ sở tiếng Anh và cặp câu song ngữ AnhViệt Chúng tôi xây dựng giải thuật để tạo tự động luật sinh cụm danh từ cơ sở tiếng Việt thông qua quá trình chuyển đổi cây cú pháp mức cụm danh từ cơ sở và sử dụng các từ đặc trưng trong tiếng Việt - Giải quyết vấn đề đối sánh rỗng, vấn đề... sự tương đồng và khác biệt giữa Mục 2.3 trình bày các phương pháp đối sánh từ hiện nay Mục 2.4 mô tả khái quát các nguồn tài nguyên sử dụng trong luận án và các tiêu chí nhận diện từ trong tiếng Việt 2.1 Các định nghĩa và phát biểu hình thức • Cụm danh từ cơ sở Định nghĩa 2.1: Cụm danh từ cơ sở tiếng Anh (BaseNP) là một cụm danh từ, nó bao gồm từ trung tâm là danh từ, các bổ ngữ trước (như các hạn định. .. Hình 5.14 Xung đột ngoài cụm danh từ cơ sở dạng 1 .147 Hình 5.15 Xung đột ngoài cụm danh từ cơ sở dạng 2 .147 Hình 5.16 Xung đột ngoài cụm danh từ cơ sở dạng 3 .147 Hình 5.17 Xung đột trong cùng cụm danh từ cơ sở dạng 4 147 Hình 5.18 Giải thuật giải quyết chồng chéo và xung đột 148 Hình 5.19 Các tổ hợp của cụm danh từ cơ sở đã chuyển đổi trật tự 149 Hình 5.20 Giải thuật ... đoán từ ngôn ngữ đích - Trong luận án này, khai thác đặc tính ngôn ngữ đích phân đoạn từ, đối sánh trật tự từ cấu trúc cụm danh từ từ đặc trưng ngôn ngữ đích Với đặc tính phân đoạn từ đặc tính. .. thức • Cụm danh từ sở Định nghĩa 2.1: Cụm danh từ sở tiếng Anh (BaseNP) cụm danh từ, bao gồm từ trung tâm danh từ, bổ ngữ trước (như hạn định từ, tính từ, ) không chứa bổ ngữ sau cụm danh từ cụm. .. vào cụm danh từ sở, tập cụm danh từ, phù hợp với mục tiêu luận án xác định cụm danh từ sở tương ứng Anh-Việt Việc giới hạn nghiên cứu mức cụm danh từ sở suất phát từ lý sau: Thứ cụm danh từ nói