Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 121 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
121
Dung lượng
2,76 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA oOo LÊ NGỌC SƠN CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGƠN NGỮ ANH - VIỆT Chun ngành : Cơng Nghệ Thông Tin Mã số ngành : 01.02.10 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, THÁNG 12 NĂM 2006 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI Cán chấm nhận xét 1: Cán chấm nhận xét 2: Luận văn thạc sĩ bảo vệ tại: HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA Ngày tháng năm 2006 ĐẠI HỌC QUỐC GIA TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc oOo oOo -Tp Hồ Chí Minh, ngày … tháng … năm 2006 NHIỆM VỤ LUẬN VĂN THẠC SĨ I Họ tên học viên : Lê Ngọc Sơn Phái : Nam Ngày sinh : 28/05/1981 Nơi sinh : Tiền Giang Chuyên ngành : Công Nghệ Thông Tin MSHV : 00704179 TÊN ĐỀ TÀI: Canh lề văn song ngữ ứng dụng giải trường hợp đặc thù ngôn ngữ Anh - Việt II NHIỆM VỤ VÀ NỘI DUNG: Tìm hiểu cơng trình nghiên cứu trước canh lề văn song ngữ Nghiên cứu giải thuật phân đoạn từ, phân đoạn câu, canh lề theo chiều dài câu LSSA Ứng dụng giải thuật để giải trường hợp đặc thù canh lề văn song ngữ Anh - Việt Xây dựng kho ngữ liệu (corpus) chứa cặp câu song ngữ Anh - Việt phân loại theo lĩnh vực III NGÀY GIAO NHIỆM VỤ : / / 2006 IV NGÀY HOÀN THÀNH NHIỆM VỤ : / / 2006 V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS., TS Phan Thị Tươi CÁN BỘ HƯỚNG DẪN PGS., TS Phan Thị Tươi Nội dung đề cương luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua Ngày … tháng … năm 2006 PHÒNG ĐÀO TẠO SAU ĐẠI HỌC KHOA QUẢN LÝ NGÀNH LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến: PGS., TS Phan Thị Tươi tận tình bảo, hướng dẫn nghiên cứu thực luận văn Cám ơn Cô theo dõi, hỗ trợ động viên tơi lúc khó khăn Các thầy cô Khoa Công Nghệ Thông Tin trường đại học Bách khoa TP Hồ Chí Minh tận tâm giảng dạy suốt q trình học, trang bị cho tơi kiến thức tảng khả nghiên cứu Thầy TS Võ Văn Huy, cô ThS Huỳnh Ngọc Liễu, KS Nguyễn Hồng Thanh Nhàn, KS Nguyễn Ngọc Bình Phương, CN Thái Kim Phụng, anh chị em Trung tâm nghiên cứu hỗ trợ đào tạo Quản trị doanh nghiệp (BR&T) hỗ trợ suốt thời gian thực luận văn Gia đình bạn bè thân thiết ln động viên khuyến khích tơi học tập phấn đấu TÓM TẮT Văn song ngữ (parallel text) văn thể ngôn ngữ dịch (translation) ngơn ngữ khác Để khai thác tính hữu dụng nguồn liệu này, việc tiến hành canh lề (hay đối sánh) văn để tìm dịch tương ứng đoạn, câu, từ hai ngôn ngữ Gần đây, canh lề văn quan tâm nhiều Nhiều phương pháp giải thuật đưa ra, áp dụng, đạt kết tương đối xác Tuy nhiên, cặp ngơn ngữ có đặc điểm riêng Việc áp dụng vào canh lề văn song ngữ Anh – Việt cần điều chỉnh cho phù hợp với đặc điểm ngôn ngữ tiếng Việt Trong đề tài này, xây dựng qui trình canh lề mới, áp dụng giải thuật canh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển giải thuật Longest Sorted Sequence (LSSA) Điểm luận văn xử lý trường hợp đặc biệt dịch thuật thường xảy dịch chéo Khi đó, chương trình phải xử lý trường hợp canh lề chéo, mà hầu hết giải thuật trước bỏ qua trường hợp Độ xác giải thuật tương đối cao Nó tạo kho ngữ liệu gồm cặp câu canh lề phân chia theo lĩnh vực văn Ngồi ra, chương trình đánh dấu điểm tương ứng từ câu Nó tập liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành kho ngữ liệu đủ lớn Trong luận văn này, tơi trình bày chi tiết giải thuật sử dụng cách thực giải thuật ứng dụng vào canh lề văn song ngữ Anh – Việt ABSTRACT Bitext (- parallel text) is a text in one language and its translation in another language They are available sources of information for bilingual lexicography, machine translation In order to achieve this, they must be aligned first, i.e the various pieces of the text must be put into correspondence Recently, text alignment has been taken interest in very much Many methods and algorithm have been brought out into open and applied The result were relatively accurate However, any pair of languages have their characteristics, the application of Vietnamese- English bittext alignment needs to be adjusted in accordance with the Vietnamese characteristics In this study, I am constructing a new alignment procedure which applied the algorithm of length- based alignment, dictionary- based word alignment and Longest Sorted Sequence Algorithm (LSSA) The interesting thing in this composition is taking the notice of a commonly special problem- cross translation Then, the algorithm must solve the cross translation problem which is often bypassed by many previous algorithms The degree of accuracy is relatively high It creates a corpus inncluding aligned pairs of sentences and devided in the field of text In addition, the algorithm will mark map points between words in sentences It will be an useful data file for machine translation and automically create a specialist dictionary when the data warehouse is large enough In this composition, I present in detail algorithms using and the realization of applied algorithms in Vietnamese- English bitext alignment MỤC LỤC Phần Giới thiệu 1.1 Bối cảnh thực luận văn 1.2 Thực trạng – Vấn đề .1 1.3 Hướng giải vấn đề 1.4 Mục tiêu luận văn 1.5 Đóng góp luận văn 1.6 Hướng phát triển 1.7 Cấu trúc luận văn Phần Các cơng trình nghiên cứu liên quan 2.1 2.2 Phương pháp canh lề văn dựa vào chiều dài câu 2.1.1 Phương pháp William A.Gale Kenneth W.Church [16]: 2.1.2 Phương pháp Peter F.Brown [17]: Phương pháp canh lề dựa vào từ vựng .10 2.2.1 Phương pháp Michel Simard, George F Foster, P Isabelle [15]: 10 2.2.2 Phương pháp Martin Kay Martin Roscheisen [11]: 11 2.2.3 Phương pháp nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre [9]: 12 2.3 2.2.4 Phương pháp Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]: 13 2.2.5 Phương pháp Antonio Ribeiro, Gabriel Lopes, Joao Mexia:[8] 14 2.2.6 Phương pháp Tiago Ildefonso and Gabtiel Pereira Lopes[1]: .16 Kết hợp phương pháp 16 2.3.1 Phương pháp nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2] 16 2.3.2 Phương pháp Stanley F.Chen:[14] .17 2.3.3 Phương pháp SIMR GSA, tác giả I Dan Melamed: [10] .18 2.4 Nghiên cứu tác giả nước 20 2.4.1 Nghiên cứu tác giả Lê Hoài Nhân (2004): 20 2.4.2 Nghiên cứu tác giả Trần Giang Sơn (2005) [3]: 21 Phần 22 Cơ sở lý thuyết 22 3.1 Các định nghĩa 22 3.1.1 Phép canh lề: 22 3.1.2 Phép canh lề chéo .23 3.2 Đánh giá mức độ xác phép canh lề .24 3.3 Hệ số Dice (D) 24 3.4 Xác suất có điều kiện: .24 3.5 Phân tích hồi qui tuyến tính: .25 Phần 28 Phân tích giải thuật 28 4.1 Giải thuật Stemming: 28 4.2 Giải thuật phân đoạn câu: 32 4.3 Giải thuật canh lề văn theo chiều dài câu [16]: 34 4.3.1 Khung lập trình động (A Dynamic Programming Framework): 34 4.3.2 Thuật tốn lập trình động (A Dynamic Programming Algorithm): 37 4.4 Phương pháp canh lề sử CBA [8]: 37 4.5 Phương pháp canh lề sử dụng LSSA [1]: 40 4.6 So sánh phương pháp LSSA với CBA: 41 4.7 Những khó khăn gặp phải áp dụng SIRM GSA [10] 46 4.8 Giải thuật giải canh lề chéo (sử dụng luận văn): 50 Phần 52 Hiện thực 52 5.1 Stemming: Dùng giải thuật Porter 54 5.2 Xác định từ ghép tiếng Việt cụm từ tiếng Anh: 55 5.3 Phân đoạn câu: 57 5.4 Canh lề câu theo chiều dài câu: 58 5.5 Kiểm tra tính hợp lệ phép canh lề 62 5.6 Canh lề chéo: 65 5.7 Canh lề từ: 66 5.8 Phân loại văn bản: 68 Phần 69 Kết thực nghiệm 69 6.1 Giới thiệu chương trình: .69 6.2 Kết sau bước canh lề câu (Bước 1): 70 6.3 Kết sau bước canh lề chéo (Bước 2): 75 6.4 Kết canh lề từ: 76 6.5 Các chức khác: 80 6.5.1 Lưu kết canh lề: 80 6.5.2 Mở lại qui trình canh lề: .80 6.5.3 Chạy bước giải thuật: 80 Phần 81 Kết luận .81 7.1 Tổng kết: 81 7.2 Hướng mở rộng phát triển đề tài: 83 7.2.1 Hoàn chỉnh luận văn: 83 7.2.2 Phát triển theo hướng nghiên cứu: .83 7.2.3 Phát triển theo hướng ứng dụng: 83 BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT .85 BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH .87 TÀI LIỆU THAM KHẢO 89 PHỤ LỤC DANH MỤC HÌNH Hình 2-1 Ví dụ mơ hình (1) phương pháp [6] 13 Hình 2-2 Ví dụ mơ hình (2) phương pháp [6] 13 Hình 2-3 Biểu đồ khoảng cách phương pháp [8] .14 Hình 2-4 Dãy giới hạn (CB) phương pháp [8] 15 Hình 2-5 Khơng gian văn song ngữ 19 Hình 3-1 Canh lề chéo văn song ngữ 23 Hình 4-1 Đồ thị tương quan chiều dài tiếng Anh tiếng Đức 34 Hình 4-2 Đường thẳng hồi qui tuyến tính 38 Hình 4-3 Biểu đồ khoảng cách 39 Hình 4-4 Dãy giới hạn (CB) 39 Hình 4-5 Kết thu sử dụng CBA 42 Hình 4-6 Kết thu sử dụng LSSA 42 Hình 4-7 Tính khoảng cách CBA 43 Hình 4-8 Kết canh lề sử dụng CBA .43 Hình 4-9 Kết canh lề sử dụng CBA .44 Hình 4-10 Kết canh lề dùng CBA 44 Hình 4-11 Kết canh lề dùng LSSA 45 Hình 4-12 Quá trình tạo điểm mở rộng hình chữ nhật tìm kiếm 47 Hình 4-13 Phát đoạn canh lề sót giải thuật SIRM 48 Hình 4-14 Sự biến đổi độ nghiêng cục giải thuật SIRM 49 Hình 5-1 Sơ đồ khối cho trình canh lề .53 Hình 5-2 Cấu trúc CSDL từ điển song ngữ Anh-Việt 54 Hình 5-3 Từ điển từ ghép tiếng Việt 55 Hình 5-4 Từ điển cụm từ tiếng Anh 56 Hình 5-5 Danh sách từ viết tắt tiếng Anh 58 Hình 5-6 Tương quan chiều dài câu Anh-Việt 60 Hình 5-7 Kết canh lề câu theo chiều dài câu 62 Hình 6-1 Giao diện chương trình .69 Hình 6-2 Giao diện hiển thị kết 79 PHỤ LỤC B: Hướng dẫn cài đặt SQL Server Phụ lục B: Cài đặt phục hồi Cơ sở liệu SQL Server Cài đặt SQL Server: Theo dẫn bước cài đặt đĩa CD Microsoft SQL Server 2000 Trong trình cài, bạn nên sử dụng tài khoản hệ thống cục chọn chế độ xác thực Mixed Mode với username sa password sa B-1 PHỤ LỤC B: Hướng dẫn cài đặt SQL Server Phục hồi Cơ sở liệu: Chép file BAData.dat đĩa CD đính kèm vào đĩa cứng, chẳng hạn D:\ Vào Start | All Programs | Microsoft SQL Server | Enterprise Manager Mở rộng Microsoft SQL Servers | SQL Server Group | local | Databases Click phải vào hình bên phải chọn All Tasks | Restore Databases B-2 PHỤ LỤC B: Hướng dẫn cài đặt SQL Server Gõ BiTextAlignment vào hộp Restore as database, click chọn From device, click nút Select Devices Click nút Add hộp thoại Choose Restore Devices B-3 PHỤ LỤC B: Hướng dẫn cài đặt SQL Server Chọn file BAData.dat click OK để đóng hộp thoại Choose Restore Destination Click OK để đóng hộp thoại Choose Restore Devices B-4 PHỤ LỤC B: Hướng dẫn cài đặt SQL Server Click OK hộp thoại Choose Restore Devices để bắt đầu phục hồi liệu 10 Đợi SQL Server phục hồi liệu 11 Nhấp OK để kết thúc trình phục hồi liệu B-5 PHỤ LỤC C: Tóm tắt, sữa chữa bổ sung luận văn sau báo cáo Phụ lục C: Tóm tắt, sữa chữa bổ sung luận văn sau báo cáo Học viên: Lê Ngọc Sơn Ngày 08/12/2006 1) Đề tài Canh lề văn song ngữ ứng dụng giải trường hợp đặc thù ngôn ngữ Anh - Việt 2) Nội dung Tìm hiểu giải thuật canh lề văn song ngữ cơng trình có liên quan Ứng dụng giải trường hợp đặc thù canh lề văn song ngữ Anh - Việt Xây dựng kho ngữ liệu (corpus) chứa cặp câu song ngữ Anh Việt phân loại theo lĩnh vực 3) Một số khái niệm 1.1.1 Văn song ngữ Văn song ngữ (bitext/ bilingual text/ parallel text) văn thể ngơn ngữ dịch (translation) ngôn ngữ khác 1.1.2 Canh lề Canh lề (hay đối sánh, gióng hàng) văn song ngữ tìm tương ứng đoạn, câu hai ngơn ngữ văn Điều có ý nghĩa quan trọng, chuyển nguồn liệu thành nguồn tri thức hữu ích Bởi bước bắt buộc việc xây dựng kho ngữ liệu song ngữ Nó khơng hỗ C-1 PHỤ LỤC C: Tóm tắt, sữa chữa bổ sung luận văn sau báo cáo trợ cho việc xây dựng từ điển song ngữ, dịch máy, mà hỗ trợ cho nhiều lĩnh vực khác giải nhập nhằng từ, rút trích thơng tin… Ngồi ra, canh lề văn cịn cơng cụ hữu ích để trợ giúp cho người làm cơng tác phiên dịch Một câu tiếng Anh thường dịch câu tương ứng tiếng Việt, ta gọi phép canh lề phép canh lề một-một (1-1) Phép canh lề có xác suất lớn phép canh lề Nếu câu tiếng Anh dịch hai câu tiếng Việt ta gọi phép canh lề phép canh lề một-hai (1-2) Trường hợp ngược lại gọi phép canh lề hai-một (2-1) Cũng có câu tiếng Anh lý khơng dịch bị xố, khơng có câu văn tiếng Việt Ta gọi phép canh lề phép canh lề một-không (1-0), ngược lại phép canh lề không (0-1) Về mặt lý thuyết cịn có phép canh lề ba-một (3-1) phép canh lề một-ba (1-3), với xác suất vô thấp Canh lề chéo: Một văn thường dịch từ xuống Nếu câu thứ i văn bàn nguồn dịch thành câu thứ j văn đích câu thứ i+1 văn nguồn dịch thành câu thứ j+1, dịch thành câu thứ j+1 câu thứ j+2 (trường hợp câu văn nguồn dịch thành câu văn đích) Nếu vi phạm điều canh lề chéo Điều hồn tồn xảy dịch thuật Tuy nhiên, việc xác định canh lề chéo phức tạp nên giải thuật trước bỏ qua trường hợp C-2 PHỤ LỤC C: Tóm tắt, sữa chữa bổ sung luận văn sau báo cáo 4) Sơ đồ khối Văn song ngữ Văn tiếng Anh (VB TA) Phân tích từ Cắt lấy gốc-Porter Xác định cụm từ Phân đoạn câu văn TA Từ điển song ngữ Từ điển từ ghép TV Từ điển cụm từ TA Danh sách stopword Danh sách từ viết tắt Văn tiếng Việt (VB TV) Phân tích từ Xác định từ ghép tiếng Việt Phân đoạn câu Văn TV Canh lề theo chiều dài câu Bước Kiểm tra độ tương tự cặp câu canh lề Canh lề chéo Bước Văn canh lề Canh lề từ dùng LSS Kho liệu chứa cặp câu canh lề C-3 PHỤ LỤC C: Tóm tắt, sữa chữa bổ sung luận văn sau báo cáo 5) Qui trình canh lề: Trước hết, chương trình sử dụng phương pháp canh lề theo chiều dài câu để canh lề đoạn (paragraph), canh lề câu (sentence) Chiều dài câu tính theo số lượng từ đơn có câu Mơ hình lập trình động sử dụng cách hợp lý hiệu Để xác định xác vị trí kết thúc câu (quá trình phân đoạn câu), chương trình tập hợp qui luật, kết hợp với thống kê danh sách từ viết tắt Giai đoạn canh lề câu trình bày mục 5.3, 5.4, phần thực Tiếp theo, chương trình nhận dạng cụm từ tiếng Anh từ ghép tiếng Việt dựa vào danh sách thống kê cụm từ tiếng Anh từ điển từ ghép tiếng Việt Đây giai đoạn phân đoạn từ (trình bày mục 5.2, phần thực) Đây bước chuẩn bị cho giải thuật canh lề từ Để tăng độ tin cậy bước canh lề câu, chương trình kiểm tra lại cách tính độ tương tự hai câu canh lề Mức độ tương tự câu tính dựa cặp từ giống câu, hay biểu diễn không gian văn song ngữ, điểm tương ứng thật Nếu độ tương tự thấp giới hạn cho phép, chương trình bắt buộc phải tạo tổ hợp canh lề cho cặp câu chưa chấp nhận này, chọn cách canh lề tối ưu Đây giai đoạn canh lề chéo (phạm vi câu đoạn), trình bày mục 5.5, 5.6, phần thực Xử lý canh lề chéo có nhà nghiên cứu nói đến chưa thực Đây đóng góp luận văn Chương trình cải tiến để canh lề chéo cho câu toàn văn Để canh lề từ xác mịn (chi tiết nhất), chương trình có sử dụng giải thuật Porter để cắt lấy gốc từ tiếng Anh (stemming) Với nhận xét lúc danh từ tiếng Anh dịch thành danh từ tiếng Việt, động từ tiếng Anh dịch thành động từ tiếng Việt Việc stemming giúp cho việc nhận dạng cặp từ giống đầy đủ Đây điểm áp dụng vào canh lề từ Anh – Việt Trong trình canh lề từ, chương trình loại điểm tương ứng ngẫu nhiên cách lọc bỏ từ khơng có giá trị canh lề (stopword) Ngoài ra, giải thuật LSS nhận dạng đoạn canh lề chéo C-4 PHỤ LỤC C: Tóm tắt, sữa chữa bổ sung luận văn sau báo cáo cho chuỗi từ canh lề dài Ý tưởng chi tiết giải thuật LSS trình bày mục 4.5, phần phân tích giải thuật mục 5.7, phần thực 6) Kết thực Dữ liệu đầu vào để kiểm tra chương trình 60 văn Anh-Việt (khoảng 10.000 cặp câu) thuộc hai lĩnh vực: (1)Kinh tế: văn đại sứ quán Hoa Kỳ Hà Nội (website: http://usinfo.state.gov/products/pubs/oecon/ http://usembassy.state.gov/posts/vn1/) (2)Tin học: sưu tập từ nhiều nguồn khác mạng Internet Ngoài ra, để chạy thử nghiệm văn có mức độ nhiễu cao (dịch khơng sát nghĩa mà dịch lấy ý), văn sử dụng dịch sinh viên làm việc trung tâm BR&T Kho liệu ban đầu gồm từ điển Anh Việt (5.500 từ tác giả Trần Giang Sơn [3] nhập tay dựa từ điển Lạc Việt), từ điển từ ghép tiếng Việt (13.100 từ thu thập tự động từ từ điển Việt Anh), từ điển cụm từ tiếng Anh (10.400 từ thu thập tự động điều chỉnh tay dựa vào từ điển Anh Việt 100.000 từ) Ngồi ra, phần có thu thập từ điển Anh-Việt 100.000 từ dựa từ điển miễn phí StarDict tải từ địa chỉ: http://stardict.sourceforge.net/Dictionaries_dictdwww.freedict.de.php Tuy nhiên, sử dụng từ điển để canh lề, tốc độ giải thuật chậm nhiều, không tăng hiệu canh lề Sau bước canh lề theo chiều dài câu, chương trình cho danh sách khối (block) canh lề Kết tương đối thuyết phục văn dịch chuẩn văn đại sứ quán Hoa Kỳ, kết canh lề đạt xác đến 98%, mức độ hoàn toàn 100% C-5 PHỤ LỤC C: Tóm tắt, sữa chữa bổ sung luận văn sau báo cáo So sánh 10 văn mà tác giả Trần Giang Sơn chạy thử nghiệm (Kết tác giả đạt đến 99.4%): STT Tên văn song ngữ Số cặp câu Toàn cầu hoá đạt đươc phát triển lâu dài Diễn văn ngài Đại sứ Michael W Marine Hà Nội NATO liên minh chủ chốt Tiếp cận với tồ án: cơng lý bình đẳng cho người Số cặp câu sai Kết 43 100% 100 100% 72 100% 95 100% Tóm tắt lịch sử kinh tế Mỹ 310 (-3) 99% Các sách thương mại kinh tế toàn cầu 225 99% Một nước gồm nhiều sắc tộc 137 99% Nước Mỹ thời lập quốc 327 (-4) 98% 109 (–5) 93% 47 96% 1465 25 (-12) 10 Các định hướng vận tải hàng không kỷ 21 Bài phát biểu phụ trách thương mại Hoa Kỳ Tổng kết 98.29% (99.11%) Trong đó, có 12 lỗi sai khắc phục trình bày trang 73,74 luận văn Như tính lại, độ xác đạt 99.11% (so với 99.4%) Tuy nhiên, thực canh lề câu, giải thuật canh lề theo chiều dài câu thực thi nhanh nhiều lần so với SIRM & GSA độ phức tạp giải thuật Giai đoạn canh lề chéo, chương trình nhận biết phép canh lề chéo canh lề lại xác đến 70% tình đưa Áp dụng giải thuật LSS vào phép canh lề từ cho khối song ngữ Anh – Việt, kết khơng tốt Vì LSS cho chuỗi từ canh lề dài theo thứ tự xếp, tiếng Việt tiếng Anh có điểm khác biệt lớn Ví dụ tính từ tiếng Anh đứng trước danh từ Trong đó, tính từ tiếng Việt đứng sau danh từ Chương trình bỏ số điểm canh lề tốt Tuy nhiên, kết chấp nhận C-6 PHỤ LỤC C: Tóm tắt, sữa chữa bổ sung luận văn sau báo cáo Chương trình tạo khoảng điểm tương ứng xác cho block có chiều dài trung bình 10 từ Như mức độ hồn tồn 40%, độ xác 94,88% 7) Đóng góp luận văn Các phương pháp canh lề văn song ngữ trước thường bỏ qua số ngoại lệ ngơn ngữ dịch thuật, ví dụ phân đoạn không tương ứng, dấu chấm từ viết tắt dấu kết thúc câu, trường hợp canh lề chéo, hay trường hợp chuyển đổi từ loại (danh từ, động từ,…) dịch thuật Điều làm cho kết canh lề chấp nhận gặp trường hợp đặc biệt, thường xảy văn song ngữ Anh –Việt Luận văn giải số ngoại lệ cách sử dụng giải thuật Porter để cắt lấy gốc từ tiếng Anh, sử dụng danh sách từ viết tắt để giảm bớt số nhập nhằng nhận dạng ký hiệu kết thúc câu Ngoài ra, cụm từ, thành ngữ tách thành từ hồn tồn khơng có ý nghĩa, tiếng Anh tiếng Việt Giải thuật nhận dạng từ ghép tiếng Việt cụm từ tiếng Anh dựa vào từ điển (giải thuật Longest Matching) Điểm luận văn xử lý trường hợp đặc biệt dịch thuật thường xảy dịch chéo Khi đó, chương trình phải xử lý trường hợp canh lề chéo, mà hầu hết giải thuật trước bỏ qua trường hợp Tổng kết lại, luận văn phân tích số điểm yếu cịn tồn giải thuật trước (trình bày phần – Phân tích giải thuật) đưa hướng khắc phục Bên cạnh đó, chương trình áp dụng giải thuật LSS, lần đầu áp dụng vào canh lề từ cho văn Anh – Việt Mặc dù giải thuật chưa thật phù hợp, giúp rút kinh nghiệm nghiên cứu canh lề Ngoài ra, mục tiêu chương trình ứng dụng canh lề văn song ngữ vào mục đích khác Đó xây dựng kho ngữ liệu gồm 10.000 cặp câu canh lề phân loại theo lĩnh vực với độ xác 98% đánh dấu điểm mốc canh lề câu (lưu trữ hệ quản trị sở liệu Microsoft SQL Server 2000 dễ tìm kiếm truy xuất) Nó tập liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành kho ngữ liệu đủ lớn mang tính đại diện C-7 PHỤ LỤC C: Tóm tắt, sữa chữa bổ sung luận văn sau báo cáo 8) Hướng mở rộng phát triển 1.1.3 Hoàn chỉnh luận văn Các thơng số chương trình cần chạy thử nghiệm nhiều lần đánh giá xem với thông số chương trình chạy hiệu Giai đoạn chưa có nhiều thời gian để thực Cần tìm kiếm tài liệu mà chất lượng dịch thuật có nhiều chỗ dịch chéo để đánh giá kết canh lề phương pháp 1.1.4 Phát triển theo hướng nghiên cứu Thông thường, canh lề theo chiều: từ dịch thành nhiều từ Ví dụ: từ tiếng Anh dịch thành 1.55 từ tiếng Việt Ỉ chiều canh lề: Anh - Việt Nếu canh lề theo chiều ngược lại nào? Một số phương pháp gặp cố Tuy nhiên, phương pháp có xác định từ ghép tiếng Việt cụm từ tiếng Anh nên thực theo chiều ngược lại: Viêt – Anh Điều có ý nghĩa canh lề văn song ngữ mà hai ngơn ngữ có từ ghép 1.1.5 Phát triển theo hướng ứng dụng Sản phẩm canh lề văn song ngữ kho ngữ liệu cặp câu canh lề xác Đó nguồn liệu q giá, sử dụng nhiều ứng dụng như: dịch máy, giải nhập nhằng từ, rút trích thơng tin… Cụ thể, hướng phát triển luận văn sau: Thu thập thêm văn song ngữ canh lề để bổ sung vào kho ngữ liệu Xây dựng từ điển chuyên ngành: Khi kho ngữ liệu đủ lớn, xây dựng nên từ điển Anh Việt, xây dựng danh sách cụm từ (collocation) lĩnh vực chuyên mơn (domain) Khi đó, cập nhật tự động danh sách từ ghép cụm từ tiếng Anh Việc hồn tồn thực địi hỏi phải có kho ngữ liệu (corpus) đủ lớn mang tính đại diện Để xây dựng từ điển chuyên ngành hiệu quả, cần phân loại xác lĩnh vực văn lưu C-8 PHỤ LỤC C: Tóm tắt, sữa chữa bổ sung luận văn sau báo cáo vào kho Trong luận văn có nói đến việc phân loại tự động văn đưa vào canh lề Việc giúp cho ứng dụng hoàn chỉnh Hiện nay, trung tâm BR&T xây dựng kho tri thức (Casebase) tình kinh doanh giải pháp Một số tình lưu trữ tiếng Việt, số tiếng Anh, số song ngữ Khi có tình tiếng Việt, sử dụng lại tình trước Kết luận văn hỗ trợ việc tìm kiếm xây dựng thuộc tính cho lĩnh vực để số hố tình C-9 LÝ LỊCH TRÍCH NGANG Họ tên : LÊ NGỌC SƠN Giới tính : Nam Ngày sinh : 28/05/1981 Nơi sinh : Tiền Giang Chỗ : 451/36C Hai Bà Trưng, Phường 8, Quận 3, Tp Hồ Chí Minh Dân tộc : Kinh Tơn giáo : Khơng Ngày vào Đồn : 28/03/1996 Ngày vào Đảng : Điện thoại : 0908 46 47 50 (di động) E-mail : ngocsoncntt@yahoo.com 08-848 3310(nhà) QUÁ TRÌNH ĐÀO TẠO 1999 – 2004 : sinh viên khoa Công Nghệ Thông Tin, trường Đại Học Bách Khoa TP Hồ Chí Minh 2004 – 2006 : học viên cao học ngành Khoa Học Máy Tính, khoa Cơng Nghệ Thơng Tin, Đại Học Bách Khoa TP Hồ Chí Minh QUÁ TRÌNH CƠNG TÁC 2005 đến nay: nhân viên IT, Trung tâm nghiên cứu hỗ trợ đào tạo quản trị doanh nghiệp (BR&T), khoa Quản Lý Công Nghiệp, trường Đại học Bách Khoa, Tp Hồ Chí Minh ... chúng nhỏ Các phép canh lề bao gồm: Phép canh lề một-không ( 1-0 ) Phép canh lề không-một ( 0-1 ) Phép canh lề một-một ( 1-1 ) Phép canh lề một-hai ( 1-2 ) Phép canh lề hai-một ( 2-1 ) Ngoài ra, tác... luận văn .71 Bảng 6-2 Phát phép canh lề 1-2 71 Bảng 6-3 Phát phép canh lề 1-2 , 2-1 72 Bảng 6-4 Ví dụ trường hợp phân đoạn câu sai, canh lề 73 Bảng 6-5 Canh lề 1-0 xác... Hướng dẫn sử dụng chương trình canh lề văn song ngữ Anh- Việt - Phụ lục B: Cài đặt phục hồi Cơ sở liệu SQL Server Trang Canh lề văn song ngữ ứng dụng giải trường hợp đặc thù ngôn ngữ Anh – Việt