DSpace at VNU: Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh-Việt 2015

12 151 0
DSpace at VNU: Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh-Việt 2015

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

DSpace at VNU: Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh-Việt 2015 tài liệu, giáo án, bài...

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LƯU TIẾN TRUNG ÁP DỤNG MƠ HÌNH DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH VIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LƯU TIẾN TRUNG ÁP DỤNG MƠ HÌNH DỊCH DỰA VÀO CỤM TỪ KHƠNG LIÊN TỤC CHO CẶP NGƠN NGỮ ANH VIỆT Ngành: Cơng nghệ thơng tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC : TS NGUYỄN VĂN VINH HÀ NỘI – 2015 LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn TS Nguyễn Văn Vinh Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, xin chịu hoàn toàn trách nhiệm Học viên Lưu Tiến Trung LỜI CẢM ƠN Tôi xin chân thành cảm ơn thày cô khoa Công nghệ thông tin, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội giúp đỡ tơi nhiều q trình học tập, nghiên cứu, truyền đạt cho kiến thức quý báu năm học vừa qua Tôi xin bày tỏ lòng biết ơn sâu sắc đến giáo viên hướng dẫn - TS Nguyễn Văn Vinh, người tận tình bảo tơi, định hướng cho tơi q trình nghiên cứu, giúp đỡ tơi mặt phương pháp luận kiểm tra cuối luận văn Tôi muốn gửi lời cám ơn tới ThS Trần Hồng Việt chia sẻ với nhiều kinh nghiệm, truyền đạt cho nhiều kiến thức trình thực luận văn Cuối gửi lời cảm ơn chân thành tới tất người thân bạn bè giúp đỡ, động viên tơi nhiều q trình học tập thực đề tài Học viên Lưu Tiến Trung MỞ ĐẦU Theo điều tra báo cáo UNESCO Liên Hiệp Quốc giới có 2750 thứ tiếng Với nhu cầu trao đổi thông tin thường xuyên liên tục, người gặp phải khơng khó khăn bất đồng ngơn ngữ Người ta phải dùng đến đội ngũ phiên dịch khổng lồ, để dịch văn bản, tài liệu, lời nói từ tiếng nước sang tiếng nước khác Để khắc phục nhược điểm người nghĩ đến việc thiết kế mơ hình dịch tự động Cơng việc đưa mơ hình dịch tự động phát triển trở thành đề tài nghiên cứu nhiều nhà khoa học quan tâm Trên giới có nhiều nước cơng bố nghiên cứu mơ hình ngơn ngữ áp dụng cho ngôn ngữ họ Việt Nam, việc nghiên cứu xây dựng mơ hình ngơn ngữ chuẩn cho tiếng Việt mẻ gặp nhiều khó khăn Mơ hình dịch thành phần quan trọng hệ thống dịch máy Cải thiện mơ hình dịch tăng hiệu lớn hệ thống dịch máy Vì vậy, giới có nhiều nghiên cứu cơng bố mơ hình dịch đem lại hiệu tích cực Ở Việt Nam, dịch máy trở thành đề tài số nhóm tập trung nghiên cứu nhiên chất lượng phạm vi ứng dụng hệ dịch nhiều hạn chế Những khó khăn đến từ cách thức tiếp cận, cấu trúc ngữ pháp nhập nhằng ngữ nghĩa tiếng Việt Dịch máy dựa cụm từ mơ hình dịch đem lại hiệu cao sử dụng rộng rãi (Google, Bing, ) Mặc dù vậy, dịch cụm từ có hạn chế mà dịch cụm từ thông thường không đem lại kết cao liệu huấn luyện chứa thành phần dịch mà khơng nằm cạnh lại có liên kết tới Khi thành phần bị dịch riêng rẽ đưa kết không xác Chính điều gợi ý thúc đẩy lựa chọn tập trung nghiên cứu vấn đề Dựa vào báo Michel Galley and Christopher D Manning [3], tiến hành nghiên cứu đề tài “Áp dụng mơ hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh Việt” Tôi tin đề tài nghiên cứu thành cơng, kết đề tài ứng dụng tốt phục vụ công tác giảng dạy áp dụng thực tiễn để xây dựng hệ thống dịch tự động Bố cục luận văn gồm chương: Chƣơng 1: Giới thiệu tổng quan Nội dung chương giới thiệu tổng quan toán dịch tự động, hệ thống dịch máy, dịch máy thống kê Chương giới thiệu nguyên lý hoạt động, thành phần phương pháp đánh giá hệ thống dịch máy thống kê Chƣơng 2: Mơ hình dịch dựa vào cụm từ khơng liên tục Nội dung chương giới thiệu mơ hình dịch máy dựa cụm từ khơng liên tục Trong chương này, giới thiệu mơ hình dịch máy, phân loại mơ hình dịch máy Cùng với đó, chúng tơi trình bày cách tiếp cận, sâu vào mơ hình dịch máy dựa cụm từ không liên tục Chƣơng 3: Áp dụng mơ hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh-Việt Nội dung chương mơ tả việc áp dụng mơ hình học máy dựa cụm từ khơng liên tục cho toán dịch máy Chương tày mô tả công cụ Phrasal thực nghiệm sử dụng công cụ này, đưa kết thu đánh giá Cuối chương đưa hướng nghiên cứu đề tài CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN Nội dung chương giới thiệu tổng quan toán dịch tự động, hệ thống dịch máy, dịch máy thống kê Chương giới thiệu nguyên lý hoạt động, thành phần phương pháp đánh giá hệ thống dịch máy thống kê Dịch máy Các hệ dịch máy (machine translation system-MT) hệ thống sử dụng máy tính để dịch từ thứ tiếng (trong ngôn ngữ tự nhiên) sang vài thứ tiếng khác Đầu vào hệ dịch máy văn viết ngôn ngữ nguồn Văn thu từ hệ soạn thảo hay hệ nhận dạng chữ viết, lời nói Sau văn chỉnh sửa lại nhờ khối soạn thảo, kiểm tra tả, trước đưa vào máy dịch Phần dịch máy chuyển văn nguồn thành văn viết ngơn ngữ đích Và qua chỉnh để cuối thu văn tương đối hoàn chỉnh Dịch máy có lịch sử lâu đời từ thập kỷ 50 phát triển mạnh mẽ từ thập kỷ 80 Hiện tại, giới có nhiều hệ dịch máy thương mại tiếng giới Systrans, Kant, … hay hệ dịch máy mở tiêu biểu hệ dịch Google, hỗ trợ hàng chục cặp ngôn ngữ phổ biến AnhPháp, Anh-Trung, Anh-Nhật, Hoa-Nhật,… Các cách tiếp cận dịch máy chủ yếu dựa vào luật chuyển đổi, dịch liên ngữ dịch dựa vào liệu Các hệ dịch máy đạt kết tốt với cặp ngôn ngữ tương đồng cú pháp cặp ngôn ngữ AnhPháp, Anh-Tây Ban Nha, … gặp nhiều hạn chế cặp ngơn ngữ có cú pháp khác Anh-Trung, Anh5 Nhật, … Và Việt Nam, dịch Anh-Việt, Việt-Anh vấp phải khó khăn tương tự khác biệt mặt cấu trúc ngữ pháp tính nhập nhằng ngữ nghĩa hệ thống dịch Anh-Việt dựa luật chuyển đổi thương mại hóa Việt Nam EVTran, MTD Lạc Việt Hiện nay, nhiều nghiên cứu với mong muốn tăng chất lượng dịch thực thích nghi với đặc điểm cặp ngơn ngữ khác Hiện nay, nghiên cứu để làm tăng chất lượng hệ dịch tiến hành phù hợp với đặc điểm cặp ngôn ngữ Trong đó, phương pháp dịch dựa thống kê hướng tiếp cận phát triển mạnh từ năm thập kỷ 90, xem cách tiếp cận khả thi hiệu việc dịch tự động với nhiều bước đột phá Dịch máy thống kê a) Giới thiệu tổng quan Dịch máy thống kê (SMT) phương pháp dịch máy, dịch tạo sở mơ hình thống kê có tham số bắt nguồn từ việc phân tích cặp câu song ngữ Các phương pháp tiếp cận thống kê tương phản với phương pháp tiếp cận dựa luật dịch máy với dịch máy dựa ví dụ Những ý tưởng dịch máy thống kê giới thiệu Warren Weaver vào năm 1949, bao gồm ý tưởng việc áp dụng lý thuyết thông tin Claude Shannon Dịch máy thống kê tái giới thiệu vào năm 1991 nhà nghiên cứu làm việc Trung tâm nghiên cứu Thomas J Watson IBM góp phần đáng kể hồi sinh việc quan tâm đến dịch máy năm gần Ngày phương pháp dịch máy nghiên cứu nhiều Để thực dịch máy, thiết phải kết hợp nhiều nguồn trí thức Trong dịch thống kê, dựa vào toán học để thực kết hợp tối ưu nguồn trí thức Trong dịch máy thống kê, trí thức dịch học cách tự động từ liệu huấn luyện Với kết vậy, việc phát triển hệ dịch dựa vào thống kê nhanh so với hệ dịch dựa vào luật Thật vậy, việc đưa khái niệm “chính xác” mối quan hệ ngữ pháp, ngữ nghĩa, văn phong khó khăn nhiều khơng nói khơng thể Thay vào đó, cách tiếp cận thống kê, giả định mô hình kiểm định thực nghiệm dựa vào liệu huấn luyện Một ưu điểm khác dịch máy thống kê phương pháp phù hợp với ứng dụng nhúng mà dịch máy phần ứng dụng lớn Dịch máy dựa phương pháp thống kê tìm câu ngơn ngữ đích e phù hợp (có xác suất cao nhất) cho trước câu ngôn ngữ nguồn f Một hệ dịch máy dựa phương pháp thống kê mơ hình hố hình sau: TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đào Ngọc Tú (2012), “Nghiên cứu dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt” Luận văn Thạc sĩ, Học viện cơng nghệ bưu viễn thơng [2] Nguyễn Văn Vinh (2005) “Xây dựng chương trình dịch tự động Anh Việt phương pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN Tiếng Anh [3] Michel Galley, Christopher D Manning, “Accurate Non-Hierarchical Phrase-Based Translation”, Computer Science Department, Stanford University [4] Percy Liang, Ben Taskar, Dan Klein, “Alignment By Agreement”, NAACL, 2006 [5] John DeNero, Dan Klein, “Tailoring Word Alignments to Syntactic Machine Translation”, ACL, 2007 [6] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 2008 [7] Kenneth Heafield, Faster and Smaller Language Model Querie, WMT EMNLP, Edinburgh, Scotland, Vương quốc Anh, 2011 [8] Cer, D., Galley, M., Jurafsky, D., and Manning, C D, “Phrasal: A Statistical Machine Translation Toolkit for Exploring New Model Features”, In Proceedings of the NAACL HLT 2010 Demonstration Session, pages 9–12, Los Angeles, CA, USA, 2010 [9] Phrasal: A Toolkit for New Directions in Statistical Machine Translation 2014 Spence Green, Daniel Cer, and Christopher D Manning In WMT [10] Spence Green, Daniel Cer, and Christopher D Manning, “Phrasal: A Toolkit for New Directions in Statistical Machine Translation”, Computer Science Department, Stanford University [11] D Chiang (2005), “A Hierarchical Phrase-Based Model for Statistical Machine Translation”, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) [12] Chris Callison-Burch, Miles Osborne and Philipp Koehn (2006), “Reevaluating the Role of Bleuin Machine Translation Research” [13] Koehn, P (2004), “Pharaoh: a beam search decoder for phrasebased”, 2004 [14] Koehn, P, H Hoang, A Birch, C Callison-Burch, M Federico, N Bertoldi, B Cowan, W Shen, C Moran, R Zens, C Dyer, O Bojar, A Constantin, E Herbst (2007), “Moses: Open Source Toolkit for Statistical Machine Translation”, ACL 2007, Demonstration Session, Prague, Czech Republic [15] Koehn, P., et al (2006), “Moses: Open Source Toolkit for Statistical Machine Translation” [16] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), “Statistical Phrase-Based Translation”, In proceedings of NAACL [17] Brown, P F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J D., Mercer R L., and Roossin P S (1990), “A statistical approach to machine translation.”, Computational Linguistics Website [12] http://www.statmt.org/ [13] http://nlp.stanford.edu/ [14] http://viet.jnlp.org/ [15] http://www.systransoft.com 10 ... dựa cụm từ khơng liên tục Chƣơng 3: Áp dụng mơ hình dịch dựa vào cụm từ không liên tục cho cặp ngơn ngữ Anh-Việt Nội dung chương mơ tả việc áp dụng mơ hình học máy dựa cụm từ khơng liên tục cho. .. Các cách tiếp cận dịch máy chủ yếu dựa vào luật chuyển đổi, dịch liên ngữ dịch dựa vào liệu Các hệ dịch máy đạt kết tốt với cặp ngôn ngữ tương đồng cú pháp cặp ngôn ngữ AnhPháp, Anh-Tây Ban Nha,... trung nghiên cứu vấn đề Dựa vào báo Michel Galley and Christopher D Manning [3], tiến hành nghiên cứu đề tài Áp dụng mô hình dịch dựa vào cụm từ khơng liên tục cho cặp ngôn ngữ Anh Việt” Tôi tin

Ngày đăng: 18/12/2017, 10:11

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan