Canh lề văn bản anh việt và ứng dụng

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA - LÊ HOÀI NHÂN CANH LỀ VĂN BẢN ANH –VIỆT VÀ ỨNG DỤNG Chuyên ngành : Công Nghệ Thông Tin Mã số ngành : 01.02.10 LUẬN VĂN THẠC SĨ TP Hồ Chí Minh, tháng 03 năm 2004 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: Phó giáo sư, Tiến só PHAN THỊ TƯƠI Cán chấm nhận xét 1: Tiến só DƯƠNG TUẤN ANH Cán chấm nhận xét 2: Tiến só NGUYỄN XUÂN DŨNG Luận văn thạc só bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 04 tháng 06 năm 2004 ĐẠI HỌC QUỐC GIA TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập – Tự Do – Hạnh Phúc -oOo - NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Lê Hoài Nhân Ngày sinh : 29/05/1975 Chuyên ngành : Công Nghệ Thông Tin Phái : Nam Nơi sinh : Bình Dương Mã số : 01.02.10 I TÊN ĐỀ TÀI Canh Lề Văn Bản Anh-Việt Và ng Dụng II NHIỆM VỤ VÀ NỘI DUNG: Xây dựng mô hình giải thuật để đối sánh trích cặp câu Anh –Việt tương ứng hai văn song ngữ Luận văn trình bày hai phương pháp: phương pháp dựa vào chiều dài câu, phương pháp dựa vào từ vựng Kết luận văn áp dụng để tạo corpus lónh vực dịch máy theo ví dụ mẫu (EBMT), hỗ trợ xây dựng từ điển song ngữ III NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương) 01/06/2003 IV NGÀY HOÀN THÀNH NHIỆM VỤ (Ngày bảo vệ luận án tốt nghiệp) 04/06/2004 V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN PGS, TS PHAN THỊ TƯƠI Cán hướng dẫn Chủ nhiệm ngành Bộ môn quản lý ngành PGS, TS Phan Thị Tươi TS Dương Tuấn Anh Nội dung đề cương luận văn thạc só Hội Đồng Chuyên Ngành thông qua PHÒNG ĐÀO TẠO SĐH Ngày tháng năm 2004 KHOA QUẢN LÝ NGÀNH LỜI CÁM ƠN Bằng kiến thức trang bị trình học tập trường, với dìu dắt tận tình giáo viên hướng dẫn giảng viên khoa CNTT, cộng với nỗ lực cá nhân, hoàn thành tốt nhiệm vụ giao cho luận văn tốt nghiệp cao học Tôi chân thành cảm ơn PGS TS Phan Thị Tươi, giáo viên hướng dẫn, tận tình bảo, hướng dẫn cung cấp tài liệu giúp hoàn thành tốt luận văn Chân thành cảm ơn quý giảng viên Khoa Công nghệ thông tin trường Đại Học Bách Khoa TP HCM, tận tâm giảng dạy, mở cho đường đến với tri thức LỜI CÁM ƠN Trước tiên, xin trân trọng cảm ơn PGS TS Phan Thị Tươi, giáo viên hướng dẫn, tận tình bảo, hướng dẫn cung cấp tài liệu giúp hoàn thành luận văn Chân thành cảm ơn quý thầy cô Khoa Công Nghệ Thông Tin trường Đại Học Bách Khoa TP HCM, tận tâm giảng dạy giúp có đủ kiến thức thực đề tài Xin cảm ơn gia đình bạn lớp cao học CNTT khóa 12 góp ý giúp đỡ suốt trình học tập Tuy cố gắng luận văn không tránh khỏi thiếu sót, mong quý thầy cô bạn tiếp tục đóng góp ý kiến, giúp hoàn chỉnh luận văn Xin cảm ơn TÓM TẮT Canh lề văn công việc xác định đoạn tương ứng nghóa hai văn song ngữ Kết canh lề văn ứng dụng nhiều lónh vực dịch máy phương pháp thống kê, tạo từ điển song ngữ, giải nhập nhằng ngữ nghóa, … Trong canh lề văn bản, canh lề câu giải thuật quan tâm nhiều nhất, kết áp dụng cho canh lề từ, dịch máy theo ví dụ Nhiều tác giả thuộc trường đại học giới nghiên cứu đưa nhiều giải thuật khác Trong luận văn này, xin trình bày hai giải thuật canh lề câu theo hai xu hướng khác nhau, áp dụng chúng để canh lề văn song ngữ Anh-Việt Giải thuật thứ dựa vào từ vựng tác giả Martin Kay đồng thuộc trung tâm nghiên cứu Xerox Palo Alto trường đại học Stanford Tuy nhiên, áp dụng xác giải thuật tác giả Kay độ xác độ hoàn toàn giải thuật, áp dụng cho cặp ngôn ngữ Anh-Việt, thấp so với báo cáo tác giả Để nâng cao độ xác tính hoàn toàn, giải thuật cải tiến việc lựa chọn cặp từ cặp câu tương ứng nghóa Kết giải thuật áp dụng canh lề văn song ngữ Anh-Việt đạt độ xác đến 96% Giải thuật thứ hai phương pháp dựa vào chiều dài câu tác giả William A Gale đồng thuộc AT&T Bell Laboratories Tuy nhiên, chiều dài câu tính số lượng từ câu thay số lượng ký tự đề nghị tác giả Gale Độ xác giải thuật, áp dụng canh lề văn song ngữ Anh-Việt, 98% Bên cạnh đó, nhằm giúp cho người đọc có nhìn tổng quát thấy ứng dụng giải thuật canh lề câu, luận văn trình bày tổng quát vấn đề như: canh lề từ, phân đoạn câu, phát hình vị, dịch máy theo ví dụ maãu (EBMT) Abstract Parallel texts have recently received considerable attention in machine translation, bilingual lexicography, and terminology research for human translators Parallel texts could be used to help translators overcome their lack of domain expertise by providing them with the ability to search previously translated documents to see how they were translated in the past This process is also used in Example-Based Machine Translation (EBMT) In EBMT, bilingual text must be aligned at the sentential, phrasal, and even word level This paper will present two text alignment algorithms at sentential level, and apply them to align English-Vietnamese bilingual texts The first algorithm is a lexical-based approach initiated by Martin Kay et al To keep the precision rate still high, we made some changes to the procedures which filter and select word and sentence pairs that are correspondent The error rate of the algorithm is 4% The second one is an algorithm initiated by William A Gale et al, which is a length-based method But the length of text is the number of words, instead of the number of characters as proposed by Gale The precision rate of the algorithm is 98%, In this paper, we also describe some related problems such as: identifying sentence boundaries, morphemes, word alignment, example-based machine translation DANH SÁCH HÌNH Trang CHƯƠNG CHƯƠNG Hình 1: Canh lề bị chéo CHƯƠNG Hình 2: Sơ đồ giải thuật dựa vào từ vựng 23 Hình 3: Các phép canh lề nằm dọc theo đường chéo .23 Hình 4: Màn hình demo chương trình canh lề câu từ vựng 34 Hình 5:Tương quan chiều dài câu tiếng Anh tiếng Việt .40 Hình 6: Phân bố chuẩn trung bình δ 45 Hình 7: Màn hình demo chương trình canh lề dựa vào chiều dài 46 CHƯƠNG Hình 8: Màn hình demo chương trình canh lề từ .53 Hình 9: Sơ đồ giải thuật canh lề từ 54 CHƯƠNG CHƯƠNG Hình 10: Kiến trúc EMBT .63 CHƯƠNG DANH SÁCH BẢNG CHƯƠNG Trang CHƯƠNG Bảng 1: Bảng bead 14 CHƯƠNG Bảng 2: Mức độ giống vài cặp từ Anh-Việt .27 Bảng 3:Cognate văn song ngữ “Phát biểu ngoại trưởng Colin Powell” 32 Bảng 4: SIM số từ văn “HĐTM Việt Mỹ” 35 Bảng 5: Kết canh lề văn phương pháp từ vựng Kay 36 Bảng 6: Một số tỷ lệ số từ tiếng Anh tiếng Việt 41 Bảng 7: Tỷ lệ số từ tiếng Anh tiếng Việt 41 Bảng 8: Bảng tính bình phương độ lệch 42 Bảng 9: δ cặp câu canh lề thủ công 43 Bảng 10: Xác suất phép canh lề .45 Bảng 11: Một phần kết canh lề văn “Phát biểu A.Wayne” 47 Bảng 12: Kết canh lề văn phương pháp chiều dài câu 48 CHƯƠNG Bảng 13: Ví dụ loại bỏ cặp từ có từ Việt đơn đôi 52 Bảng 14: Ví dụ loại bỏ mối liên kết gián tiếp 53 Bảng 15: Một phần kết canh lề từ 55 CHƯƠNG CHƯƠNG CHƯƠNG Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi MỤC LỤC CHƯƠNG GIỚI THIỆU 1.1 Giới thiệu 1.2 Mục tiêu luận văn 1.3 Đóng góp luận văn 1.4 Cấu trúc luận văn CHƯƠNG TỔNG QUAN CÁC GIẢI THUẬT HIỆN CÓ 2.1 CÁC ĐỊNH NGHĨA VÀ CÔNG THỨC TOÁN HỌC 2.1.1 Canh lề văn bản: (Text Alignment) 2.1.2 Các phép canh lề câu 2.1.3 Pheùp canh lề bị chéo (cross) 2.1.4 Mức độ hoàn toàn (Recall) Độ xác (Precision) 2.1.5 Hệ số Dice (Dice’s coefficient) 2.1.6 Xác suất có điều kiện 2.1.7 Công thức xác suất BAYES 2.1.8 Trung bình độ lệch chuẩn (mean, variance) 2.1.9 Mô hình ngôn ngữ (language model) 10 2.1.10 Mô hình dịch (translation model) 10 2.2 CÁC PHƯƠNG PHÁP VÀ GIẢI THUẬT 11 2.2.1 Phương pháp dựa vào chiều dài câu 11 2.2.1.1 Phương pháp tác giả William A Gale Kenneth W Church thuộc phòng thí nghiệm AT&T Bell 12 2.2.1.2 Phương pháp Peter F Brown đồng thuộc trung tâm nghiên cứu IBM 14 2.2.2 Phương pháp dựa vào từ vựng 15 2.2.2.1 Phương pháp tác giả Martin Kay Martin Roscheisen thuộc trung tâm nghiên cứu Xerox 16 2.2.2.2 Phương pháp tác giả Stanley F Chen thuộc đại học Havard 18 2.2.3 Các phương pháp canh lề Offset 19 2.3 KẾT LUẬN 19 CHƯƠNG 21 HIEÄN THỰC GIẢI THUẬT CANH LỀ CÂU 21 3.1 PHƯƠNG PHÁP TỪ VỰNG 21 3.1.1 Phương pháp 21 3.1.1.1 Các cấu trúc liệu cần dùng giải thuật: 21 1/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi tác giả Frank Smadja: ông canh lề corpus câu song ngữ Anh-Pháp thuộc Canadian Hansard đạt độ xác khoảng 73% E able abroad abuse access accordance account achieve acting action active V nước Lạm dụng Tiếp cận Phù hợp với tính đến để đạt thống hành động tích cực sim Tần suất e Tần suất v 0.333 13 0.618 28 27 0.833 6 0.919 36 38 0.384 22 51 0.450 30 10 0.364 0.308 0.388 73 97 0.593 10 17 additionally adequate đầy đủ administrative hành adviser tổng thống affect ảnh hưởng đến affirmative sơ afford điều afghanistan afghanistan agreement hiệp định agricultural nông sản agriculture nông nghiệp business kinh doanh but nhöng 0.632 0.353 0.899 0.500 0.378 0.500 0.400 0.909 0.587 0.857 0.846 0.417 0.685 20 32 16 11 25 186 15 12 23 107 13 31 37 21 30 233 13 14 25 109 While Whole Woman Women Word Working World 0.561 0.359 0.455 0.667 0.533 0.377 0.845 47 13 28 92 35 32 17 17 25 102 toàn nữ nữ lời nói làm việc giới Bảng 15 (một phần kết canh lề từ) 55/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi CHƯƠNG CÁC GIẢI THUẬT LIÊN QUAN 5.1 Phân đoạn câu (Sentence Segmentation) 5.1.1 Giới thiệu Một giải thuật giải thuật xử lý ngôn ngữ tự nhiên phân đoạn câu Giải thuật phân đoạn câu giải thuật phân chia văn thành câu Nghe giải thuật đơn giản Nhưng nghiên cứu kỹ giải thuật không đơn giản chút Câu gì? Câu chuỗi từ kết thúc dấu ? ! Tuy nhiên theo thống kê có 90% dấu chấm thực dấu hiệu kết thúc câu Dấu chấm [.] xuất từ viết tắt, số, địa website,… Bên cạnh đó, dấu hai chấm [:], dấu chấm phẩy [;] dùng ký hiệu kết thúc câu Đó lý phải có giải thuật riêng để phân đoạn câu văn Ví dụ: ( 1) The Office of the U.S Trade Representative includes two deputy USTRs, one based in Washington, D.C., and the other in Geneva, Switzerland (2) I bought the apples, pears, lemons, etc Did you eat them? Rõ ràng, phân tích câu thứ (1), nếâu không phát “U.S.” “D.C.” từ viết tắt ta câu câu Để giải vấn đề ta dựa vào danh sách từ viết tắt để giải tình trạng nhập nhằng phân tích ký hiệu kết thúc câu Tuy nhiên vấn đề xuất phân tích câu thứ (2), dấu chấm từ viết tắt dấu hiệu kết thúc câu Các ký hiệu kết thúc câu phổ biếân nhấât là: dấu chấm [ ] , chấm than [!], chấm hỏi [?] Tuy nhiên dấu chấm ký hiệu kết thúc câu trường hợp sau: 56/68 Canh lề văn – Text Alignment - GVDH: PGS TS Phan Thị Tươi Từ viết tắt, ví dụ U.S.A Xuất số, ví dụ: 1,200.50 Xuất địa web, ví dụ www.yahoo.com Điều gây nhập nhằng làm cho giải thuật phân đoạn câu xác Kết việc canh lề câu phụ thuộc nhiều vào việc phân đoạn câu Nếu phân đoạn câu không xác dẫn đến việc canh lề sai giải thuật không canh lề 5.1.2 Một số phương pháp phân đoạn câu 5.1.2.1 Phương pháp dùng mô hình trực tiếp Phương pháp dựa vào danh sách từ viết tắt để giải tình trạng nhập nhằng Đồng thời qui tắc phát ký hiệu kết thúc câu đưa vào giải thuật thực code chương trình Để thực chương trình cần lập trình viên chuyên gia ngôn ngữ Thời gian họ phải làm việc vài tháng để phát tất đặc tính riêng ngôn ngữ Do đó, phương pháp áp dụng cho ngôn ngữ cụ thể Giải thuật cho ngôn ngữ áp dụng cho ngôn ngữ tự nhiên khác 5.1.2.2 Phương pháp dựa vào luật Để giải nhược điểm phương pháp trên, ta phải tách biệt code chương trình qui luật phát dấu hiệu kết thúc câu Đây ý tưởng phương pháp Sau ví dụ: (3) “You see, Aunt Polly is very particular about this fence and it’s right on the street.” Điểm đặc biệt câu thứ (3) ” ta mô tả qui tắc sau: 57/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi sentence-> Words [PERIOD] [PUNCT] [PERIOD] để diễn tả câu gồm từ, dấu chấm, ký hiệu chức đó, cuối dấu chấm Hoặc qui tắc sau để phát địa web ‘[\-_A-za-z0-9.]+\.{dom}’ WEBADDRESS So với phương pháp dùng mô hình trực tiếp, phương pháp tỏ có nhiều lợi Khi áp dụng cho ngôn ngữ mới, ta cần thay đỗi mô tả qui luật Tuy nhiên việc mô tả đầy đủ qui luật vấn đề đơn giản nhiều thời gian 5.1.2.3 Các phương pháp khác Ngoài ra, số phương pháp khác dùng như: - Mạng neural tác giả Palmer Hearst (1997) có độ xác đạt đến 98.5% (theo báo cáo tác giả áp dụng cho corpus Wall Street Journal - WSJ) - Phương pháp dùng luật, kết hợp với danh sách từ viết tắt tác giả Grefenstette Tapanainen (1994) - Phương pháp maximum- entropy tác giả Ratnaparkhi (1997) đạt độ xác đến 98% áp dụng cho corpus WSJ 5.2 Phát hình vị (Morpheme) Hình vị tiếng Việt không phổ biến tiếng Anh Điểm đặc biệt tiếng Anh (và số ngôn ngữ khác) hình vị từ gốc tạo cách thêm tiền tố (prefix) hậu tố (suffix) Giải thuật phát hình vị mà tác giả Kay dùng gồm hai bước: tạo cấu trúc chứa thông tin số lần xuất tiền tố hậu tố có văn bản; bước tách từ thành tiền tố hậu tố Cấu trúc mà tác giả dùng trie (của tác giả Knuth) Trie thực chất cây, với nhánh từ nút gốc cho tất ký tự 58/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi chuỗi ký tự có văn Để tìm chuỗi ký tự cây, ta xuất phát từ nút gốc, lần theo nhánh tương ứng với ký tự chuỗi, lần theo nhánh tương ứng với ký tự thứ hai,… ; ký tự cuối chuỗi (hoặc chuỗi không tìm thấy cây) Nút cuối chứa thông tin chuỗi: số lượng từ mà chuỗi tiền tố số lượng từ mà chuỗi làm hậu tố Một từ gồm n ký tự 1…n tách làm hai phần (một phần tiền tố hậu tố) ký tự thứ i nếu: số lượng từ có văn có phần đầu 1…i-1 phải lớn số từ bắt đầu 1…i i-1 tiền tố thực theo sau nó, phải có hậu tố khác với i…n (xuất từ khác) Lấy ví dụ từ “wanting” Ta ngắt từ ký tự “i” làm thành hai phần “want” “ing”, văn có nhiều khả xuất từ “wanted”, “wants” bắt đầu “want” Ngược lại có nhiều từ khác tận “ing” “seeing” ,”going” Vậy làm để định ngắt từ ký tự nào? Giả sử ta ngắt từ làm hai phần p s, P(p) số từ văn bắt đầu p S(s) số từ văn kết thúc s Ta tìm vị trí ngắt từ cho tích k.P(p).S(p) lớn nhất; k số lựa chọn tùy thuộc ta ưu tiên chọn loại ngắt Cho tiếng Anh Đức, tác giả chọn k=length(p) Điều có nghóa ta ưu tiên ngắt từ cho phần đầu p có chiều dài dài nhất, tiếng Anh ngôn ngữ nhiều hậu tố Sau tách từ lam hai phần : phần dài từ gốc, phần lại tiền tố hậu tố 5.3 Chuẩn hoá văn Chuẩn hoá có nghóa phát lỗi văn chỉnh sửa chúng Các lỗi phổ biến văn tiếng Việt là: - - Bỏ dấu tiếng việt: hai từ hòa hoà từ máy tính chúng hai từ khác Thực lỗi, hai cách bỏ dấu chấp nhận Dùng sai dấu hỏi dấu ngã Ví dụ “sữa chữa” “sửa chữa” 59/68 Canh lề văn – Text Alignment - GVDH: PGS TS Phan Thị Tươi Các văn nhận dạng phần mềm OCR Thường văn nhận dạng phần mềm OCR có ký hiệu kết thúc câu không rõ ràng; nhận dạng nhầm từ, … 60/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi CHƯƠNG ỨNG DỤNG CỦA CANH LỀ VĂN BẢN 6.1 Biên soạn từ điển song ngữ Trong chương 5, canh lề từ, cho ví dụ Biên soạn từ điển song ngữ Độ xác giải thuật không cao lắm, có từ điển song ngữ hoàn toàn xác Để có từ điển xác, cần có kiểm tra người Điều có nghóa qui trình bán tự động Lợi điểm việc tạo từ điển với trợ giúp giải thuật canh lề từ là: đảm bảo không bỏ sót từ Bên cạnh giải thuật giúp phát từ đồng nghóa Điều có ích việc giải nhập nhằng ngữ nghóa 6.2 Dịch máy dựa vào ví dụ (Example-Based Machine Translation) Mục đích “Dịch máy” (Machine Translation) làm cho máy tính chuyển văn hay giọng nói từ ngôn ngữ tự nhiên sang một ngữ tự nhiên khác mà nguyên ngữ nghóa sáng tỏ Từ nửa kỷ qua, dịch máy phát triển nhiều mô hình khác bao gồm : dịch từ sang từ (word-to-word), dịch theo luật (rule-based), biểu diễn ngôn ngữ trung gian (inter-lingua), dịch dựa vào tri thức (knowledge-based) Dịch từ sang từ phương pháp đơn giản nhất, hoàn toàn dựa vào từ điển song ngữ Phương pháp không quan tâm đến trật tự từ hai ngôn ngữ Tuy nhiên trật từ ngôn ngữ khác Lấy ví dụ đơn giản tính từ tiếng Anh đứng trước danh từ, tiếng Việt ngược lại; Dịch theo luật giải tình trạng tối nghóa, mà từ có nhiều nghóa; tình trạng nhập nhằng phân tích biểu diễn câu; Mục tiêu tạo inter-lingua tổng quát xem chừng khó đạt 61/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi Dịch dựa vào tri thức (knowledge-based) giải tình trạng tối nghóa tình trạng nhập nhằng Tuy nhiên, việc tập hợp biễu diễn tri thức thật không đơn giản Các xu hướng dịch máy năm gần đa phần phương pháp thống kê (statistical MT) phương pháp dựa vào ví dụ mẫu (EMBT) Theo tác giả Somers dịch máy thống kê dịch dựa vào ví dụ mẫu Mặc dù dịch theo ví dụ mẫu có nhiều tiếp cận khác nhau, kết hợp với số phương pháp khác, tất dùng corpus câu song ngữ từ điển song ngữ Sau bước chung dịch máy ví dụ từ câu nguồn e sang câu đích v: - Nếu câu e tìm thấy corpus câu song ngữ tương ứng kết Giải thuật xử lý Nếu không: Cắt câu e thành cụm (chunk) Với cụm tìm cặp câu song ngữ chứa chúng Canh lề chunk để tìm chunk tương ứng Các chunk không canh lề dịch dựa vào từ điển song ngữ Kết nối chunk tương ứng thành câu v Ví dụ: Muốn dịch câu: “He buys a book on international politics.” Ta dùng hai ví dụ mẫu sau: [1] “He buys a notebook.” “Anh ta mua máy tính sách tay.” [2] “I am reading a book on international politics ” “Tôi đọc sách trị quốc tế.” Và kết là: “Anh ta mua sách trị quốc tế.” 62/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi Tuy nhiên dịch máy theo ví dụ không đơn giản ví dụ đây, thứ tự chunk câu đích chưa đề cập Hơn nữa, việc cắt câu thành chunk có nhiều phương án khác nhau, kết có nhiều câu v khác Ta dùng mô hình ngôn ngữ P(v) để lựa chọn câu v Konstantinidis (1998) [18] đưa kiến trúc tổng quát EMBT hình 10 Câu đích Câu nguồn Tìm ví dụ giống Ví dụ mẫu Truy xuất ví dụ tương ứng ví dụ ngôn ngữ đích Tương ứng Kết hợp ví dụ Ví dụ mẫu Ngôn ngữ đích Ngôn ngữ nguồn Hình 10 (kiến trúc EMBT) 63/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi CHƯƠNG KẾT LUẬN Đề tài thực hai giải thuật dựa hai phương pháp khác nhau: dựa vào chiều dài câu, dựa vào từ vựng Từ giúp đánh giá độ xác giải thuật áp dụng cho cặp ngôn ngữ Anh-Viêït Hơn nữa, với giải thuật dựa vào từ vựng, việc áp dụng cải tiến lựa chọn cặp từ tương ứng cặp câu tương ứng làm tăng độ xác độ hoàn toàn giải thuật (nếu áp dụng xác giải thuật tác giả Kay [2] độ xác độ hoàn toàn thấp) Riêng với giải thuật dựa vào chiều dài câu, việc tính toán chiều dài câu số lượng từ thay số lượng kí tự tác giả Gale [3], mang lại kết tốt áp dụng cho tiếng Việt Bằng chứng giải thuật đạt độ xác đến 98%, báo cáo tác giả Gale 96% Tuy nhiên, việc tính toán chiều dài câu dựa vào số lượng kí tự hay số lượng từ phải xem xét đến đặc điểm cặp ngôn ngữ cụ thể Về mặt lý thuyết, giải thuật dựa vào từ vựng có độ xác cao Nhưng thực tế, giải thuật dựa vào chiều dài câu lại có độ xác cao Tuy nhiên, số lượng văn chạy thử nghiệm nên kết so sánh xác Chúng ta chưa thể kết luận giải thuật tốt Mặc dù vậy, rút kết luận là: hai giải thuật, với số cải tiến, có độ xác cao cho cặp ngôn ngữ Anh-Việt Trong tương lai, hy vọng số lượng văn song ngữ mà máy tính đọc tăng lên phong phú Khi đó, hoàn toàn xây dựng corpus câu song ngữ Anh-Việt, tảng giúp cho hướng nghiên cứu dịch máy ví dụ mẫu (example-based machine translation) phát triển Bên cạnh việc biên soạn từ điển song ngữ dễ dàng với trợ giúp giải thuật canh lề từ Trong phạm vi luận văn trình bày chi tiết tất giải thuật liên quan Trong đó, giải thuật phân đoạn câu không phần quan trọng, không quan tâm tương xứng 64/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi Hướng phát triển đề tài: việc kết hợp phương pháp từ vựng chiều dài câu hướng nghiên cứu lý thú Chúng ta dùng giải thuật chiều dài câu để canh lề đoạn (paragraph) trước, sau dùng phương pháp từ vựng để canh lề câu đoạn Như thế, số lượng record AST giảm đáng kể, mức độ giống (similarity) cặp từ WAT xác vòng lặp Với kết đạt khả quan, hy vọng luận văn xem xác nhận độ xác giải thuật cặp ngôn ngữ Anh-Việt, đóng góp phần nhỏ vào xu hướng nghiên cứu xử lý ngôn ngữ tự nhiên (NLP) Việt Nam 65/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi Tài liệu tham khảo [1] “Foundations of Statistical Natural Language Processing.” Christopher D Manning & Hinrich Schutze MIT Press, 2001 [2] “Text -Translation Alignment.” Martin Kay & Martin Roscheisen Computational Linguistics Volume 19 , 1993 [3] “A Program for aligning sentences in bilingual corpora.” William A Gale & Kenneth W Church Proceedings of ACL-91 Berkeley CA, 1991 [4] “Sentence boundary Detection: A comparison of Paradigms for Improving MT Quality.” Daniel J Walker & David E Clements & Maki Darwin & Jan W Amtrup In Proceedings MT Summit VIII Santiago de Compostela, Spain 2001 [5] “Building a training corpus for word sense disambiguation in English-toVietnamese Machine Translation.” Dinh Dien Coling 2002 [6] “A Word-to-Word of Translational Equivalence.” I Dan Malamed In Proceedings of ACL-97, 1997 [7] “Aligning sentences in parallel corpora.” Peter F Brown & Jennifer C Lai & Robert L Mercer In Proceedings of ACL-91, 1991 [8] “What is Example-Based Machine Translation.” Davide Turcato & Fred Popowich 66/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi Proceedings of the Workshop on Example-Based Machine Translation, hosted by MT-Summit VIII Santiago de Compostela, Spain, September 18-22, 2001 [9] “The Mathematics of Machine Translation: Parameter Estimation.” Peter F Brown & Stephen A Della Pietra & Vincent J Della Pietra & Robert L Mercer Computational Linguistics, 1993 [10]“A Maximum Entropy Approach to Identifying Sentence Boundaries.” Jeffrey C Reynar & Adwait Ratnaparkhi Proceedings of the 5th conference on Applied natural language processing, 1997 [11] “Aligning Sentences in Bilingual Corpora Using Lexical Information” Stanley F Chen Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, 1993 [12] “Example-Based Machine Translation in the Pangloss System.” Ralf D Brown Proceedings of the 16th International Conference on Computational Linguistics, 1996 [13] “Viewing sentence boundary detection as collocation identification.” Tibor Kiss & Jan Strunk Tagungsprogramm der KONVENS, 2002 [14] “Example-Based Machine Translation: A new paradigm.” Chunyu Kit & Haihua Pan & Jonathan J Webster Chinese U of HK Press, 2002 [15] “Char_align: a program for aligning parallel texts at the character level” Kenneth Ward Church Proceedings of ACL'93, Columbus, Ohio, 1993 67/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi [16] “Aligning noisy parallel corpora across language groups: word pair feature matching by dynamic time warping.” Fung, P., & McKeown K AMTA 94: Partnerships in Translation Technology, Columbia, Maryland, 1994 [17] “Toward memory-base translation” Sato, S & Nagao, M Proceedings of the 13th International Conference on Computational Linguistics, 1990 [18] “Machine Translation” Michael Konstantinidis http://www.pris.net.cn/lesson/mtbook, 1998 68/68 LÝ LỊCH TRÍCH NGANG Họ tên : LÊ HOÀI NHÂN Giới tính: Nam Sinh ngày tháng năm: 29/05/1975 Nơi sinh: Bình Dương Nơi nay: Số 25/7/2 đường Đại Nghóa Phường Quận Tân Bình TP HCM, điện thoại: 66 35 82 Email: nhanleehoai@yahoo.com Dân tộc : Kinh Tôn giáo : Không Ngày vào Đoàn TNCS HCM: 31/05/1985 Ngày vào Đảng CSVN: QUÁ TRÌNH ĐÀO TẠO Năm 1992 đến 1996: sinh viên ngành Xử lý thông tin, khoa Thống kê -Toán, trường Đại Học Kinh Tế TP HCM Năm 2001 đến 2004: học viên cao học ngành Công nghệ Thông tin, khoa Công nghệ Thông tin Đại Học Bách Khoa TP HCM QUÁ TRÌNH CÔNG TÁC Năm 1997 đến (2004): Chuyên viên phần mềm, Phòng kế hoạch, Xí nghiệp TMMĐ Tân Sơn Nhất (TIAGS), Tổng Công Ty Hàng Không Việt Nam Ký tên Lê Hoài Nhân ... sử văn TA có m câu văn TV có n câu) Điều có nghóa là: câu văn TA canh lề với không, một, hai nhiều câu văn TV Canh lề ( 1-1 ) chiếm đa số; canh lề ( 1-2 ) ( 2-1 ) có khả hơn; canh lề ( 1-0 ) ( 0-1 ), ( 1-3 ),... phép canh lề không bị chéo Do tổ hợp phép canh lề: phép canh lề thứ k 12/68 Canh lề văn – Text Alignment GVDH: PGS TS Phan Thị Tươi phép canh lề hai câu thứ i j phép canh lề thứ k+1 là: - i+1... 2753 2637 Bảng (kết canh lề văn phương pháp từ vựng Kay) (1) Văn (2) Số câu tiếng Anh (3) Số câu tiếng Việt (4) Số câu tiếng Anh canh lề (5) Số câu tiếng Việt canh lề 36/68 Canh lề văn – Text

Định dạng
Số trang	78
Dung lượng	420,16 KB