1. Trang chủ
  2. » Luận Văn - Báo Cáo

CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc

103 827 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 103
Dung lượng 1,73 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA oOo NGỌC SƠN CANH LỀ VĂN BẢN SONG NGỮ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT Chuyên ngành : Công Nghệ Thông Tin Mã số ngành : 01.02.10 LUẬN VĂN TỐT NGHIỆP TP. HỒ CHÍ MINH, THÁNG 12 NĂM 2006 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH Cán bộ hướng dẫn khoa học: Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI Cán bộ chấm nhận xét 1: Cán bộ chấm nhận xét 2: Luận văn thạc sĩ được bảo vệ tại: HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA Ngày . . . . . tháng . . . . . năm 2006 ĐẠI HỌC QUỐC GIA TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc oOo oOo Tp. Hồ Chí Minh, ngày … tháng … năm 2006 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Ngọc Sơn Phái : Nam Ngày sinh : 28/05/1981 Nơi sinh : Tiền Giang Chuyên ngành : Công Nghệ Thông Tin MSHV : 00704179 I. TÊN ĐỀ TÀI: Canh lề văn bản song ngữ ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh - Việt. II. NHIỆM VỤ NỘI DUNG:  Tìm hiểu các công trình nghiên cứu trước đây về canh lề văn bản song ngữ.  Nghiên cứu giải thuật phân đoạn từ, phân đoạn câu, canh lề theo chiều dài câu LSSA.  Ứng dụng các giải thuật này để giải quyết những trường hợp đặc thù trong canh lề văn bản song ngữ Anh - Việt.  Xây dựng một kho ngữ liệu (corpus) chứa các cặp câu song ngữ Anh - Việt phân loại theo lĩnh vực. III. NGÀY GIAO NHIỆM VỤ : / / 2006 IV. NGÀY HOÀN THÀNH NHIỆM VỤ : / / 2006 V. HỌ TÊN CÁN BỘ HƯỚNG DẪN : PGS., TS. Phan Thị Tươi CÁN BỘ HƯỚNG DẪN PGS., TS. Phan Thị Tươi Nội dung đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua. Ngày … tháng … năm 2006 PHÒNG ĐÀO TẠO SAU ĐẠI HỌC KHOA QUẢN LÝ NGÀNH LỜI CẢM ƠN Tôi xin được gửi lời cảm ơn chân thành đến: PGS., TS. Phan Thị Tươi đã tận tình chỉ bảo, hướng dẫn tôi nghiên cứu thực hiện luận văn này. Cám ơn Cô đã theo dõi, hỗ trợ động viên tôi trong những lúc khó khăn nhất. Các thầy cô của Khoa Công Nghệ Thông Tin trường đại học Bách khoa TP. Hồ Chí Minh đã tận tâm giảng dạy trong suốt quá trình học, trang bị cho tôi những kiến thức nền tảng khả năng nghiên cứu. Thầy TS. Võ Văn Huy, cô ThS. Huỳnh Ngọc Liễu, KS. Nguyễn Hoàng Thanh Nhàn, KS. Nguyễn Ngọc Bình Phương, CN. Thái Kim Phụng, các anh chị em trong Trung tâm nghiên cứu hỗ trợ đào tạo Quản trị doanh nghiệp (BR&T) đã hỗ trợ tôi trong suốt thời gian thực hiện luận văn. Gia đình những bạn bè thân thiết đã luôn động viên khuyến khích tôi học tập phấn đấu. TÓM TẮT Văn bản song ngữ (parallel text) là một văn bản được thể hiện ở một ngôn ngữ bản dịch (translation) của nó ở một ngôn ngữ khác. Để khai thác được tính hữu dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ. Gần đây, canh lề văn bản đã đang được quan tâm rất nhiều. Nhiều phương pháp giải thuật được đưa ra, áp dụng, cũng đạt được những kết quả tương đối chính xác. Tuy nhiên, mỗi cặp ngôn ngữnhững đặc điểm riêng. Việc áp dụng vào canh lề văn bản song ngữ AnhViệt cần được điều chỉnh cho phù hợp với đặc điểm của ngôn ngữ tiếng Việt. Trong đề tài này, tôi xây dựng một qui trình canh lề mới, áp dụng giải thuật canh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển giải thuật Longest Sorted Sequence (LSSA). Điểm mới trong luận văn là xử lý một trường hợp đặc biệt trong dịch thuật cũng rất thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý trường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này. Độ chính xác của giải thuật tương đối cao. Nó tạo ra một kho ngữ liệu gồm các cặp câu được canh lề được phân chia theo lĩnh vực của văn bản. Ngoài ra, chương trình cũng đánh dấu các điểm tương ứng giữa các từ trong câu. Nó sẽ là một tập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ lớn. Trong quyển luận văn này, tôi trình bày chi tiết các giải thuật sử dụng cách hiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt. ABSTRACT Bitext (- parallel text) is a text in one language and its translation in another language. They are available sources of information for bilingual lexicography, machine translation. In order to achieve this, they must be aligned first, i.e. the various pieces of the text must be put into correspondence. Recently, text alignment has been taken interest in very much. Many methods and algorithm have been brought out into open and applied. The result were relatively accurate. However, any pair of languages have their characteristics, the application of Vietnamese- English bittext alignment needs to be adjusted in accordance with the Vietnamese characteristics. In this study, I am constructing a new alignment procedure which applied the algorithm of length- based alignment, dictionary- based word alignment and Longest Sorted Sequence Algorithm (LSSA). The interesting thing in this composition is taking the notice of a commonly special problem- cross translation. Then, the algorithm must solve the cross translation problem which is often bypassed by many previous algorithms. The degree of accuracy is relatively high. It creates a corpus inncluding aligned pairs of sentences and devided in the field of text. In addition, the algorithm will mark map points between words in sentences. It will be an useful data file for machine translation and automically create a specialist dictionary when the data warehouse is large enough. In this composition, I present in detail algorithms using and the realization of applied algorithms in Vietnamese- English bitext alignment. MỤC LỤC Giới thiệu 1 1 Bối cảnh thực hiện luận văn: 1 2 Thực trạng – Vấn đề: 1 3 Hướng giải quyết vấn đề: 2 4 Mục tiêu của luận văn: 2 5 Đóng góp của luận văn: 2 6 Hướng phát triển: 5 7 Cấu trúc của luận văn: Luận văn chia làm 7 phần 5 Các công trình nghiên cứu liên quan 7 1 Phương pháp canh lề văn bản dựa vào chiều dài câu: 7 1.1 Phương pháp của William A.Gale Kenneth W.Church [16]: 8 1.2 Phương pháp của Peter F.Brown [17]: 9 2 Phương pháp canh lề dựa vào từ vựng: 10 2.1 Phương pháp của Michel Simard, George F. Foster, Pierre Isabelle [15]: 10 2.2 Phương pháp của Martin Kay Martin Roscheisen [11]: 11 2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre [9]: 12 2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]: 13 2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes Joao Mexia:[8] 14 2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]: 15 3 Kết hợp các phương pháp: 16 3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2] 16 3.2 Phương pháp của Stanley F.Chen:[14] 17 3.3 Phương pháp canh lề theo giải thuật SIMR GSA. Nghiên cứu của tác giả I. Dan Melamed [10] : 18 4 Nghiên cứu của các tác giả trong nước: 20 4.1 Nghiên cứu của tác giả Hoài Nhân (2004): 20 4.2 Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]: Canh lề văn bản Anh- Việt dựa trên giải thuật SIMR GSA 20 Phần 3 22 Cơ sở lý thuyết 22 1 Các định nghĩa: 22 1.1 Phép canh lề: 22 1.2 Phép canh lề chéo 23 2 Đánh giá mức độ chính xác của phép canh lề 23 3 Hệ số Dice (D): 24 4 Xác suất có điều kiện: 24 5 Phân tích hồi qui tuyến tính: 25 Phân tích giải thuật 28 1 Giải thuật Stemming: 28 2 Giải thuật phân đoạn câu: 32 3 Giải thuật canh lề văn bản theo chiều dài câu [16]: 34 3.1 Khung lập trình động (A Dynamic Programming Framework): 34 3.2 Thuật toán lập trình động (A Dynamic Programming Algorithm): 37 4 Phương pháp canh lề sử dụng dãy giới hạn (Confidence Bands Algorithm - CBA) [8]: 37 5 Phương pháp canh lề sử dụng “chuỗi được sắp xếp dài nhất” (Longest Sorted Sequence Algorithm - LSSA) [1]: 40 6 So sánh phương pháp LSSA với CBA: 41 7 Những khó khăn gặp phải khi áp dụng SIRM (Smooth Injective Map Recognizer) GSA [10] 46 8 Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn): 50 Hiện thực 52 1 Stemming: Dùng giải thuật Porter 54 2 Xác định từ ghép tiếng Việt cụm từ tiếng Anh: 55 3 Phân đoạn câu: 57 4 Canh lề câu theo chiều dài câu: 58 5 Kiểm tra tính hợp lệ của phép canh lề 62 6 Canh lề chéo: 65 7 Canh lề từ: 66 8 Phân loại văn bản: 68 Kết quả thực nghiệm 69 1 Giới thiệu chương trình: 69 2 Kết quả sau bước canh lề câu (Bước 1): 70 3 Kết quả sau bước canh lề chéo (Bước 2): 74 4 Kết quả canh lề từ: 76 5 Các chức năng khác: 79 5.1 Lưu kết quả canh lề: 79 5.2 Mở lại một qui trình canh lề: 79 5.3 Chạy từng bước giải thuật: 80 Kết luận 81 1 Tổng kết: 81 2 Hướng mở rộng phát triển đề tài: 83 2.1 Hoàn chỉnh luận văn: 83 2.2 Phát triển theo hướng nghiên cứu: 83 2.3 Phát triển theo hướng ứng dụng: 83 BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT 85 BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH 87 TÀI LIỆU THAM KHẢO 89 DANH MỤC HÌNH Hình 2-1 Ví dụ trong mô hình (1) của phương pháp [6] 13 Hình 2-2 Ví dụ trong mô hình (2) của phương pháp [6] 13 Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8] 14 Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8] 15 Hình 2-5 Không gian văn bản song ngữ 18 Hình 3-6 Canh lề chéo trong văn bản song ngữ 23 Hình 4-7 Đồ thị tương quan chiều dài giữa tiếng Anh tiếng Đức 34 Hình 4-8 Đường thẳng hồi qui tuyến tính 38 Hình 4-9 Biểu đồ khoảng cách 39 Hình 4-10 Dãy giới hạn (CB) 39 Hình 4-11. Kết quả thu được khi sử dụng CBA 42 Hình 4-12. Kết quả thu được khi sử dụng LSSA 42 Hình 4-13. Tính khoảng cách trong CBA 43 Hình 4-14. Kết quả canh lề sử dụng CBA 43 Hình 4-15. Kết quả canh lề sử dụng CBA 44 Hình 4-16. Kết quả canh lề dùng CBA 44 Hình 4-17. Kết quả canh lề dùng LSSA 45 [...]... rất tiện dụng  Độ chính xác cao: 99,4%  Tạo ra một corpus khoảng 10000 cặp câu song ngữ Anh- Việt Trang 20 Canh lề văn bản song ngữ ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ AnhViệt GVHD: PGS., TS Phan Thị Tươi  HV: Ngọc Sơn Canh lề từ, tạo ra từ điển song ngữ Anh- Việt Trang 21 Canh lề văn bản song ngữ ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ AnhViệt GVHD:... 1-0 được xác định trong canh lề 2-1 74 Bảng 6-1 7 Một ví dụ canh lề câu sai do xuất hiện dịch chéo câu 75 Bảng 6-1 8 Ví dụ minh họa - Kết quả canh lề chéo .76 Bảng 6-1 9 Ví dụ kết quả canh lề từ sau khi áp dụng LSSA 77 Bảng 6-2 0 Ví dụ kết quả canh lề chéo cụm từ .78 Canh lề văn bản song ngữứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ AnhViệt GVHD: PGS., TS Phan... 15 Canh lề văn bản song ngữ ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ AnhViệt GVHD: PGS., TS Phan Thị Tươi HV: Ngọc Sơn giải thuật Longest Sorted Sequence (LSSA) là cải tiến của tác giả Giải thuật dựa trên ý tưởng chọn phép canh lề có số lượng những từ được canh lề là lớn nhất trong các phép canh lề Với sự thay thế này, ứng dụng vào canh lề văn bản song ngữ Bồ Đào NhaPháp, giải. .. bước canh lề thứ 2, sử dụng cognates để chọn ra phép canh lề tốt nhất Kết quả so sánh khi áp dụng canh lề theo chiều dài câu, canh lề theo chiều dài câu, canh lề kết hợp 2 bước như sau: Trang 10 Canh lề văn bản song ngữứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ AnhViệt GVHD: PGS., TS Phan Thị Tươi Số cặp câu không canh lề Phần trăm lỗi Thời gian xử lý HV: Ngọc Sơn Canh lề theo... tổ hợp các phép canh lề khả dĩ sao cho tổng khoảng cách của chúng là nhỏ nhất Các phép canh lề khả dĩ bao gồm:  Phép canh lề một-không ( 1-0 )  Phép canh lề không-một ( 0-1 )  Phép canh lề một-một ( 1-1 )  Phép canh lề một-hai ( 1-2 )  Phép canh lề hai-một ( 2-1 ) Ngoài ra, tác giả giả thiết rằng không có phép canh lề chéo Khi đó, nếu phép canh lề thứ k là phép canh lề giữa câu thứ i của S câu thứ j của. .. 1 Canh lề văn bản song ngữứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ AnhViệt GVHD: PGS., TS Phan Thị Tươi HV: Ngọc Sơn nước cũng đã có những nghiên cứu về vấn đề này Các giải thuật được áp dụng gồm phương pháp canh lề dựa vào chiều dài câu phương pháp canh lề dựa vào từ vựng Giải thuật SIRM GSA là sự kết hợp ưu điểm của 2 xu hướng canh lề dựa vào chiều dài câu dựa vào... khi áp dụng vào canh lề từ AnhViệt Trong quá trình canh lề từ, chương trình cũng loại ra những điểm tương ứng ngẫu nhiên bằng cách lọc bỏ những từ không có giá trị canh lề Trang 3 Canh lề văn bản song ngữứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ AnhViệt GVHD: PGS., TS Phan Thị Tươi HV: Ngọc Sơn (stopword) Ngoài ra, giải thuật LSSA cũng nhận dạng được những đoạn canh lề chéo... lớn nhất trong các phép canh lề Trang 22 Canh lề văn bản song ngữ ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ AnhViệt GVHD: PGS., TS Phan Thị Tươi HV: Ngọc Sơn Nếu một câu tiếng Anh được dịch ra hai câu tiếng Việt thì ta gọi phép canh lề này là phép canh lề một-hai ( 1-2 ) Trường hợp ngược lại gọi là phép canh lề hai-một ( 2-1 ) Cũng có khi một câu tiếng Anh vì lý do gì đó không... Anh cũng như trong tiếng Việt Trường hợp đặc biệt phổ biến nhất là từ ghép tiếng Việt Trang 2 Canh lề văn bản song ngữ ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ AnhViệt GVHD: PGS., TS Phan Thị Tươi HV: Ngọc Sơn Để giải quyết những vấn đề nêu trên, trong luận văn đưa ra những giải pháp tương ứng: Trước hết, chương trình sử dụng phương pháp canh lề theo chiều dài câu để canh. .. canh lề toàn bộ văn bản mà không được canh lề đoạn trước Trang 9 Canh lề văn bản song ngữ ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ AnhViệt GVHD: PGS., TS Phan Thị Tươi 2 HV: Ngọc Sơn Phương pháp canh lề dựa vào từ vựng: Với phương pháp canh lề theo chiều dài câu thì cần thiết phải canh lề đoạn trước thì giải thuật mới cho ra kết quả tốt Trong khi đó, phương pháp canh lề theo . 76 Bảng 6-1 9. Ví dụ kết quả canh lề từ sau khi áp dụng LSSA 77 Bảng 6-2 0. Ví dụ kết quả canh lề chéo cụm từ 78 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ. TÀI: Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh - Việt. II. NHIỆM VỤ VÀ NỘI DUNG:  Tìm hiểu các công trình nghiên cứu trước đây về canh lề văn bản. tiếng Anh cũng như trong tiếng Việt. Trường hợp đặc biệt và phổ biến nhất là từ ghép tiếng Việt. Trang 2 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh

Ngày đăng: 27/06/2014, 03:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Tiago Ildefonso and Gabriel Pereira Lopes, Longest Sorted Sequence Algorithm for Parallel Text Alignment, CITI, 2005 Khác
[2] Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang, Bilingual Sentence Alignment Based on Punctual Statistical and Lexicon, 224-232, 2005 Khác
[3] Ismael Garcia Varea, Daniel Ortiz, Francisco Nevado, Pedro A.Gomez, and Francisco Casacuberta, Automatic Segmentation of Bilingual Corpora: A Comparison of Different Techniques, pp. 614-621, 2005 Khác
[4] Trần Giang Sơn, Canh lề văn bản song ngữ Anh Việt và ứng dụng, trường Đại học Bách Khoa Tp. Hố Chí Minh, 06/2005 Khác
[6] Seonho Kim, Juntae Yoon, Dong-Yul Ra, Two-Level Alignment by Words and Phrases Based on Syntactic Information, Springer-Verlag Berlin Heidelberge 2004, 2004 Khác
[7] Chirstopher D.Manning, Hinrich Schutze, Foundations of Statistical Natural Language Processing, The MIT Pres, Cambridge, Massachusetts, London, England, 2000 Khác
[8] Antonio Ribeiro, Gabriel Lopes, and Joao Mexia, A Self_Learning Method of Parallel Texts Alignment, Quinta da Torre, Portual, 2000 Khác
[9] Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre, An Algorithm for Aligning Sentences in Bilingual Corpora Using Lexical Information, International Institue of Information Technology, Hyderabad Khác
[10] I. Dan Melamed, Bitext maps and Alignment via Pattern Recognition, Association for Computational Linguistics, 1999 Khác
[11] Martin Kay, Martin Roscheisen, Text-Translation Alignment, Computational Linguistics Volume 19, 1996 Khác
[12] James Allen, Natural Language Understanding, The Benjamin/Cummings Publishing Company, Inc, 1995 Khác
[13] Mark W.Davis, Ted E.Dunningand Willim C.Ogden, Text Alignment in the Real Work: Improving Alignments of Noisy Translations Using Common Lexical Feature, String Matching Strategies and N-Gram Comparisons, New Mexico State University, 1994 Khác
[14] Stanley F.Chen, Alignment Sentences in Bilingual Corporal Using Lexical Information, Proceeding of the 31 st Annual Meeting of the Association for Computation Linguistics, 1993 Khác
[15] Michel Simard, George F. Foster, Pierre Isabelle, Using cognates to align sentences in bilingual corpora, 1993 Khác
[16] William A.Gale, Kenneth W.Church, A Program for aligning sentences in biligual corpora, 1991 Khác
[17] Peter F.Brown, Jennifer C.Lai, Robert L.Mercer, Aligning sentences in parallel corpora, 1991 Khác
[18] Nguyễn Thị Thu Hương, Lê Ngọc Minh Trị, Phát triển động cơ thu thập tự động các bài báo khoa học trên www, Luận văn tốt nghiệp đại học, ĐH Bách Khoa Tp. HCM, 2004 Khác

HÌNH ẢNH LIÊN QUAN

Hình 2-1 Ví dụ  trong mô hình (1) của phương pháp [6] - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 2 1 Ví dụ trong mô hình (1) của phương pháp [6] (Trang 26)
Hình 2-2 Ví dụ  trong mô hình (2) của phương pháp [6] - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 2 2 Ví dụ trong mô hình (2) của phương pháp [6] (Trang 26)
Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8] - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 2 3 Biểu đồ khoảng cách trong phương pháp [8] (Trang 27)
Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8] - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 2 4 Dãy giới hạn (CB) trong phương pháp [8] (Trang 28)
Bảng 2-4. Kết quả của phương pháp [2] - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Bảng 2 4. Kết quả của phương pháp [2] (Trang 30)
Hình 3-6 Canh lề chéo trong văn bản song ngữ - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 3 6 Canh lề chéo trong văn bản song ngữ (Trang 36)
Hình 4-7 Đồ thị tương quan chiều dài giữa tiếng Anh và tiếng Đức - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 4 7 Đồ thị tương quan chiều dài giữa tiếng Anh và tiếng Đức (Trang 47)
Hình 4-8 Đường thẳng hồi qui tuyến tính - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 4 8 Đường thẳng hồi qui tuyến tính (Trang 51)
Hình 4-9 Biểu đồ khoảng cách - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 4 9 Biểu đồ khoảng cách (Trang 52)
Hình 4-10 Dãy giới hạn (CB) - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 4 10 Dãy giới hạn (CB) (Trang 52)
Hình 4-15. Kết quả canh lề sử dụng CBA - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 4 15. Kết quả canh lề sử dụng CBA (Trang 57)
Hình 4-17. Kết quả canh lề dùng LSSA - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 4 17. Kết quả canh lề dùng LSSA (Trang 58)
Hình chữ nhật đầu tiên mà SIMR chọn có một đỉnh trùng với điểm gốc, trong quá trình tìm kiếm tiếp theo thì hình chữ nhật kế tiếp sẽ có đỉnh nằm trên góc trên bên phải của chuỗi vừa tìm thấy (hình 4-2). - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình ch ữ nhật đầu tiên mà SIMR chọn có một đỉnh trùng với điểm gốc, trong quá trình tìm kiếm tiếp theo thì hình chữ nhật kế tiếp sẽ có đỉnh nằm trên góc trên bên phải của chuỗi vừa tìm thấy (hình 4-2) (Trang 60)
Hình 4-19. Phát hiện những đoạn canh lề sót trong giải thuật SIRM. - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 4 19. Phát hiện những đoạn canh lề sót trong giải thuật SIRM (Trang 61)
Hình 4-20. Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM. - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 4 20. Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM (Trang 62)
Hình 5-21 Sơ đồ khối cho quá trình canh lề. - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 5 21 Sơ đồ khối cho quá trình canh lề (Trang 66)
Hình 5-22. Cấu trúc CSDL từ điển song ngữ Anh-Việt - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 5 22. Cấu trúc CSDL từ điển song ngữ Anh-Việt (Trang 67)
Hình 5-23. Từ điển từ ghép tiếng Việt - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 5 23. Từ điển từ ghép tiếng Việt (Trang 68)
Hình 5-24. Từ điển cụm từ tiếng Anh - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 5 24. Từ điển cụm từ tiếng Anh (Trang 69)
Hình 5-25. Danh sách từ viết tắt trong tiếng Anh - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 5 25. Danh sách từ viết tắt trong tiếng Anh (Trang 71)
Hình 5-26. Tương quan chiều dài câu Anh-Việt - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 5 26. Tương quan chiều dài câu Anh-Việt (Trang 73)
Bảng 5-9. Xác suất của các phép canh lề Anh-Việt - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Bảng 5 9. Xác suất của các phép canh lề Anh-Việt (Trang 74)
Hình 5-27. Kết quả canh lề câu theo chiều dài câu - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 5 27. Kết quả canh lề câu theo chiều dài câu (Trang 75)
Bảng 5-10. Đánh giá trọng số các điểm tương ứng - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Bảng 5 10. Đánh giá trọng số các điểm tương ứng (Trang 76)
Hình 5-28. Danh sách Stopwords - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 5 28. Danh sách Stopwords (Trang 77)
Hình 6-29. Giao diện chính của chương trình - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 6 29. Giao diện chính của chương trình (Trang 82)
Bảng 6-13. Phát hiện các phép canh lề 1-2 - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Bảng 6 13. Phát hiện các phép canh lề 1-2 (Trang 84)
Hình 6-30. Giao diện hiển thị kết quả. - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
Hình 6 30. Giao diện hiển thị kết quả (Trang 92)
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT (Trang 98)
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH - CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH (Trang 100)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w