Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 104 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
104
Dung lượng
1,65 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN GIANG SƠN CANH LỀ VĂN BẢN SONG NGỮ ANH-VIỆT VÀ ỨNG DỤNG (English-Vietnamese Bitext Alignment and Applications) Chuyên ngành : Công Nghệ Thông Tin Mã số ngành : 01.02.10 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, THÁNG 06/2005 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI Cán chấm nhận xét 1: Tiến sĩ NGUYỄN XUÂN DŨNG Cán chấm nhận xét 2: Tiến sĩ CAO HOÀNG TRỤ Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA ngày 18 tháng 08 năm 2005 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến: - Cô PGS., TS Phan Thị Tươi tận tình bảo, hướng dẫn tơi nghiên cứu thực luận văn Nếu khơng có theo dõi động viên cơ, tơi khơng thể hồn thành luận văn thời gian quy định - Các thày cô Khoa Công nghệ Thông tin trường Đại học Bách khoa TP Hồ Chí Minh tận tâm giảng dạy mở cho đường đến với tri thức - Ban lãnh đạo XN Địa vật lý Giếng khoan thuộc XN Liên doanh VietsovPetro tạo điều kiện hỗ trợ động viên suốt khoá học - Các bạn, anh chị đồng nghiệp gánh vác phần công việc hàng ngày - Những bạn bè thân thiết gia đình ln động viên khuyến khích tơi học tập phấn đấu TÓM TẮT Văn song ngữ nội dung thể ngơn ngữ khác nhau, ngày trở nên phong phú sẵn có kho liệu riêng chia sẻ trang Web mạng Internet Văn song ngữ dùng sở tri thức cho lĩnh vực dịch máy, xây dựng từ điển song ngữ, giải nhập nhằng ngữ nghĩa từ, rút trích thơng tin Canh lề văn công cụ thiết thực người phiên dịch Bước việc rút trích thơng tin từ văn song ngữ tìm tương ứng hai nửa văn song ngữ (chính ánh xạ canh lề văn song ngữ) Một số phương pháp tự động cho công việc đưa năm gần Tuy nhiên cho dù phương pháp cho tốt gặp phải hạn chế định Thuật toán SIMR GSA thuật toán sử dụng việc ánh xạ canh lề văn song ngữ Thuật toán SIMR giải thuật tham lam dùng việc ánh xạ văn song ngữ SIMR sử dụng số ý tưởng giải thuật trước Giống thuật giải Gale & Church (1991) Brown et al (1991), giải thuật SIMR phụ thuộc vào tương quan chiều dài văn thành phần văn song ngữ Giống giải thuật char_align Church (1993), giải thuật SIMR tìm đồ ánh xạ dựa điểm giống mặt phẳng xác suất văn song ngữ Nhưng không giống phương pháp trước giải thuật SIMR lần tìm kiếm điểm tương ứng có ích Kết SIMR chuyển đổi dễ dàng nhanh chóng thành canh lề câu nhờ giải thuật GSA Trong luận văn tơi trình bày giải thuật SIMR GSA, làm để ứng dụng chúng việc canh lề văn song ngữ Anh-Việt Kết việc canh lề giúp ích cho việc biên soạn văn song ngữ thành nguồn thơng tin hữu ích việc nghiên cứu ngôn ngữ tiếng Việt ABSTRACT Parallel texts or Bitexts - where the same content is available in several languages, due to document translation, are becoming plentiful and available, both in private warehouses and on publicly accessible sites on the World Wide Web Bitexts can be used as knowledge resources in many domains such as for machine translation, bilingual lexicography, word sense disambiguation, or multilingual information retrieval Text alignment can also be a useful practical tool for assisting translators The first step in extracting information from a bitext is to describe the correspondence between the two halves of the bitext (bitext mapping and alignment) Several automatic methods for this task have been proposed in recent years Yet even the best of these methods can err by several typeset pages The Smooth Injective Map Recognizer (SIMR) and the Geometric Segment Alignment (GSA) are new bitext mapping and alignment algorithms The Smooth Injective Map Recognizer (SIMR) is a greedy algorithm for mapping bitext correspondence SIMR borrows several insights from previous work Like Gale & Church (1991) and Brown et al (1991), SIMR relies on the high correlation between the lengths of mutual translations Like char_align (Church 1993), SIMR infers bitext maps from likely points of correspondence between the two texts, points that are ploted in a twodimensional space of possibilities Unlike previous methods, SIMR searches for only a handful of points of correspondence at a time SIMR’s bitext maps can be converted quickly and easily into sentence alignments using the Geometric Segment Alignment (GSA) algorithm In this paper I described what SIMR and GSA are, how to apply SIMR and GSA algorithms for bitext mapping and alignment to English-Vietnamese Bitexts This will help to compile these bitexts into a useful format for research and on Vietnamese language MỤC LỤC LỜI CẢM ƠN TÓM TẮT ABSTRACT MỤC LỤC DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 GIỚI THIỆU CHUNG 1.2 MỤC TIÊU LUẬN VĂN 1.3 ĐÓNG GÓP CỦA LUẬN VĂN 1.4 CẤU TRÚC CỦA LUẬN VĂN CHƯƠNG 2: CÁC ĐỊNH NGHĨA VÀ CƠNG THỨC TỐN HỌC 2.1 CANH LỀ VĂN BẢN LÀ GÌ 2.2 CÁC PHÉP CANH LỀ CÂU 2.3 PHÉP CANH LỀ CHÉO 2.4 MỨC ĐỘ HỒN TỒN VÀ ĐỘ CHÍNH XÁC 2.5 HỆ SỐ DICE 2.6 XÁC SUẤT CÓ ĐIỀU KIỆN 2.7 CÔNG THỨC XÁC SUẤT BAYES 2.8 TRUNG BÌNH VÀ ĐỘ LỆCH CHUẨN 2.9 PHÂN TÍCH HỒI QUY TUYẾN TÍNH CHƯƠNG 3: CÁC NGHIÊN CỨU LIÊN QUAN 3.1 PHƯƠNG PHÁP CANH LỀ DỰA VÀO CHIỀU DÀI CÂU 3.1.1 Phương pháp William A Gale Kenneth W.Church 3.1.2 Phương pháp Peter F.Brown 3.2 PHƯƠNG PHÁP CANH LỀ VĂN BẢN DỰA VÀO TỪ VỰNG 3.2.1 Phương pháp tác giả Martin Kay Martin Roscheisen 3.3.2 Phương pháp tác giả Stanley F.Chen 3.3 PHƯƠNG PHÁP CANH LỀ VĂN BẢN DỰA VÀO OFFSET 3.4 NGHIÊN CỨU CỦA CÁC TÁC GIẢ TRONG NƯỚC 3.5 ỨNG DỤNG CỦA CANH LỀ VĂN BẢN 3.5.1 Canh lề từ 3.5.2 Dịch máy phương pháp thống kê 3.5.3 Dịch máy dựa vào ví dụ 1 2 5 6 7 7 10 10 10 12 13 13 15 15 16 16 16 17 18 CHƯƠNG 4: CƠ SỞ LÝ THUYẾT 4.1 THUẬT TOÁN SIMR 4.1.1 4.1.2 4.1.3 4.1.4 Biểu diễn hình học văn song ngữ Tạo điểm Nhận dạng chuỗi Lọc nhiễu 4.2 THUẬT TOÁN GSA 4.3 SƠ ĐỒ KHỐI CỦA QUÁ TRÌNH CANH LỀ DỰA TRÊN SIMR VÀ GSA 4.4 ƯU KHUYẾT ĐIỂM CỦA SIMR VÀ GSA TRONG VIỆC CANH LỀ VĂN BẢN 4.5 ÁP DỤNG SIMR VÀ GSA CANH LỀ VĂN BẢN ANH-VIỆT CHƯƠNG HIỆN THỰC CHƯƠNG TRÌNH 5.1 SƠ ĐỒ KHỐI CỦA CHƯƠNG TRÌNH 5.1.1 5.1.2 5.1.3 5.1.4 5.1.5 Tạo từ điển Hiện thực giải thuật SIMR Giải thuật phân đoạn câu Hiện thực giải thuật GSA Giải thuật canh lề văn dựa vào chiều dài câu 5.2 TẠO TỪ ĐIỂN TỪ VỰNG (translation lexicon dictionary) 5.3 HIỆN THỰC GIẢI THUẬT SIMR 5.3.1 5.3.2 5.3.3 5.3.4 5.3.5 5.3.6 Lớp CAxisTick Lớp CMapPoint Lớp CBitextSpace Lớp CMappingChain Lớp CSearchRectangle Lớp CSIMR 5.4 PHÂN ĐOẠN CÂU (Sentence Segmentation) 5.4.1 Giới thiệu 5.4.2 Một số phương pháp phân đoạn câu 5.4.3 Phương pháp phân đoạn câu luận văn 5.5 HIỆN THỰC GIẢI THUẬT GSA 5.5.1 Lớp CSegment 5.5.2 Lớp CAlignedBlock 5.5.3 Lớp CGSA 5.6 GIẢI THUẬT CANH LỀ VĂN BẢN DỰA VÀO CHIỀU DÀI CÂU 5.6.1 Giới thiệu giải thuật 5.6.2 Tính giá trị trung bình c 5.6.3 Tính độ lệch chuẩn 21 21 21 23 24 24 25 27 28 29 30 30 31 31 32 33 34 35 38 38 39 41 44 50 56 59 59 60 61 62 62 64 65 66 66 69 70 5.6.4 Tính xác suất phép canh lề 72 CHƯƠNG 6: KẾT QUẢ THỰC NGHIỆM 73 CHƯƠNG 7: ỨNG DỤNG CỦA CANH LỀ VĂN BẢN 79 79 79 80 82 7.1 GIỚI THIỆU CANH LỀ TỪ 7.2 MỐI LIÊN HỆ GIÁN TIẾP GIỮA CÁC TỪ 7.3 GIẢI THUẬT CANH LỀ TỪ 7.4 KẾT QUẢ THỰC NGHIỆM 8.2.1 Hướng nghiên cứu 8.2.2 Hướng ứng dụng 83 83 84 84 85 BẢNG THUẬT NGỮ ANH-VIỆT ĐỐI CHIẾU 86 BẢNG THUẬT NGỮ VIỆT-ANH ĐỐI CHIẾU 87 THƯ MỤC THAM KHẢO 88 PHỤ LỤC A SỬ DỤNG CHƯƠNG TRÌNH CANH LỀ VĂN BẢN A.1 Yêu cầu hệ thống A.2 Cài đặt A.3 Sử dụng chương trình A-1 A-1 A-1 A-1 CHƯƠNG 8: KẾT LUẬN 8.1 TỔNG KẾT 8.2 MỞ RỘNG VÀ PHÁT TRIỂN ĐỀ TÀI DANH MỤC CÁC HÌNH Hình 2-1 Hình 3-1 Hình 3-2 Hình 4-1 Hình 4-2 Phép canh lề chéo Mơ hình dịch máy phương pháp thống kê Kiến trúc tổng quát dịch máy dựa vào ví dụ Không gian văn song ngữ Đỉnh hình chữ nhật lần tìm kiếm hành trùng với góc bên phải chuỗi tìm thấy lần trước Hình 4-3 Những cặp từ thường gặp có xu hướng tạo thành điểm tương ứng giả nằm đường thẳng đứng nằm ngang Hình 4-4 Dấu phân cách khối văn tạo nên lưới không gian văn song ngữ Hình 4-5 Sơ đồ khối trình canh lề Hình 5-1 Sơ đồ khối chương trình Hình 5-2 Từ điển Anh-Việt sở liệu Access Hình 5-3 Từ điển Việt-Anh sở liệu Access Hình 5-4 Sơ đồ khối thuật tốn tạo từ điển Việt-Anh Hình 5-5 Nhóm điểm chuỗi Hình 5-6 Ví dụ chuỗi có điểm xung đột Hình 5-7 Tương quan chiều dài câu tiếng Anh tiếng Việt Hình 7-1 Sơ đồ khối giải thuật canh lề từ Hình A-1 Giao diện chương trình Hình A-2 Biểu diễn hình học văn song ngữ Hình A-3 Hộp thoại tạo tập tin văn song ngữ 17 20 21 23 25 26 28 30 35 36 37 47 48 68 81 A-2 A-2 A-3 DANH MỤC CÁC BẢNG Bảng 3-1 Bảng 5-1 Bảng 5-2 Bảng 5-3 Bảng 5-4 Bảng 5-5 Bảng 6-1 Bảng 6-2 Bảng 6-3 Bảng 6-4 Bảng 6-5 Bảng 7-1 Các bead có hai ngơn ngữ Anh, Pháp Ví dụ từ dịch số từ tiếng Anh Tỷ lệ từ đơn, từ ghép đôi, từ ghép ba, từ ghép bốn Tỷ lệ số từ tiếng Việt số từ tiếng Anh số văn song ngữ Bảng giá trị tính giá trị bình phương độ lệch s2 Xác suất phép canh lề Danh sách văn canh lề Độ xác số văn song ngữ Một phần kết canh lề văn “Diễn văn ngài Đại sứ Michael W Marine trước phòng thương mại Hoa Kỳ Hà Nội” Một phần kết canh lề văn “Tổng quan chiến lược quốc tế Mỹ” Một phần kết canh lề văn “Kinh tế thị trường gì” Một phần kết canh lề từ 12 69 69 70 71 72 74 75 76 78 78 82 Canh lề văn song ngữ Anh-Việt ứng dụng GVHD: PGS TS Phan Thị Tươi Cho hai câu tiếng Anh tiếng Việt sau: vi-1 ej-1 vi ej vi+1 ej+1 vi+2 ej+2 Giả sử vi ej cặp từ tương ứng, mức độ giống chúng lớn Tuy nhiên, nhiều trường hợp từ vi+1 xuất sau từ vi, mức độ giống ej vi+1 lớn Mối liên hệ ej vi+1 gọi mối liên hệ gián tiếp Vấn đề đặt hai cặp từ (ej, vi+1) (ej, vi) cặp cặp từ tương ứng Đối với cặp ngôn ngữ từ ghép (ví dụ cặp ngơn ngữ Anh-Pháp), từ có đầy đủ ý nghĩa nó, cần phải loại bỏ mối liên hệ gián tiếp Tuy nhiên tiếng Việt, có nhiều khả vivi+1 tạo nên từ ghép, (ej, vivi+1) cặp từ tương ứng thực Tương tự, thấy vivi+1vi+2 từ ghép ba 7.3 GIẢI THUẬT CANH LỀ TỪ Ta dùng hệ số Dice (mời xem 2.5) để tính mức độ giống từ tiếng Anh từ tiếng Việt, với công thức sau: SIM ( e, v ) = Min( n, m ) n+m Với giả thiết n số lần xuất của từ e kho ngữ liệu, m số lần xuất từ v kho ngữ liệu Để loại bỏ cặp từ chưa đủ tin cậy, ta loại bỏ cặp từ có số lần xuất nhỏ SIM