1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tối ưu bảng cụm từ cho dịch máy thống kê dựa vào cụm

11 417 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 485,06 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ DƢƠNG THỊ HƢỜNG TỐI ƢU BẢNG CỤM TỪ CHO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ DƢƠNG THỊ HƢỜNG TỐI ƢU BẢNG CỤM TỪ CHO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: Tiến Sĩ – Nguyễn Văn Vinh Hà nội- 2015 LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn đƣợc đồng ý sử dụng thông tin để xây dựng luận văn không sử dụng tùy ý nội dung luận văn vào mục đích khác; Bên cạnh nội dung luận văn hoàn toàn thực dƣới hƣớng dẫn tận tình TS Nguyễn Văn Vinh – Bộ môn Khoa học máy tính – Khoa Công nghệ thông tin, Trƣờng Đại học công nghệ, Đại học Quốc gia Hà Nội Tôi xin cam đoan nguồn tài liệu tham khảo đƣợc liệt kê sử dụng nguyên tắc Tôi xin chịu trách nhiệm với lời cam đoan trƣớc Hội đồng phản biện./ Học viên Dƣơng Thị Hƣờng MỤC LỤC LỜI CAM ĐOAN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ GIỚI THIỆU CHƢƠNG TỔNG QUAN VỀ DỊCH MÁY VÀ DỊCH MÁY THỐNG KÊ Error! Bookmark not defined 1.1 Tổng quan Dịch máy Error! Bookmark not defined 1.1.1 Định nghĩa Error! Bookmark not defined 1.1.2 Lịch sử dịch máy Error! Bookmark not defined 1.1.3 Vai trò dịch máy Error! Bookmark not defined 1.1.4 Mô hình tổng quát dịch máy Error! Bookmark not defined 1.1.5 Hƣớng tiếp cận dịch máy Error! Bookmark not defined 1.2 Tổng quan Dịch máy thống kê Error! Bookmark not defined 1.2.1 Giới thiệu Error! Bookmark not defined 1.2.2 Chu kỳ phát triển hệ dịch thống kêError! Bookmark not defined 1.2.3 Phân loại dịch máy thống kê Error! Bookmark not defined 1.2.4 Phƣơng pháp tiếp cận Error! Bookmark not defined 1.2.5 Một số công cụ nhóm nghiên cứu SMT Error! Bookmark not defined CHƢƠNG MÔ HÌNH DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ Error! Bookmark not defined 2.1 Giới thiệu mô hình dịch máy dựa cụm từError! Bookmark not defined 2.2 Kiến trúc mô hình dịch máy thống kê dựa cụm từ Error! Bookmark not defined 2.2.1 Mô hình ngôn ngữ (P(e)) Error! Bookmark not defined 2.2.2 Mô hình dịch Error! Bookmark not defined 2.2.3 Mô hình chuyển đổi trật tự từ (reordering model) Error! Bookmark not defined 2.2.4 Mô hình log-tuyến tính áp dụng cho toán dịch máy Error! Bookmark not defined 2.2.5 Giải mã Error! Bookmark not defined CHƢƠNG TỐI ƢU BẢNG CỤM TỪ CHO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ Error! Bookmark not defined 3.1 Giới thiệu Error! Bookmark not defined 3.2 Mô hin ̣ bảng cu ̣m tƣ̀ Error! ̀ h Entropy tƣơng tƣ̣ cho mô hiǹ h dich Bookmark not defined 3.2.1 Că ̣p cu ̣m tƣ̀ nguyên tƣ̉ và că ̣p cu ̣m tƣ̀ tổ ng hơ ̣p Error! Bookmark not defined 3.2.2 Mô hình Entropy cho dich Bookmark not ̣ máyError! defined 3.2.3 Tính toán P(s, t) Error! Bookmark not defined 3.2.4 Tính toán 𝑷𝒑(𝒕|𝒔)𝑷 (𝒕|𝒔) Error! Bookmark not defined 3.3 Ứng dụng cho mô hình dịch máy dựa vào cụmError! Bookmark not defined 3.3.1 Mô hình dich ̣ Error! Bookmark not defined 3.3.2 Xây dƣ̣ng tâ ̣p hỗ trơ ̣ Error! Bookmark not defined 3.3.3 Thuâ ̣t toán Pruning Error! Bookmark not defined CHƢƠNG ĐÁNH GIÁ THỰC NGHIỆM BẰNG HỆ DỊCH MÁY THỐNG KÊ MOSES Error! Bookmark not defined 4.1 Môi trƣờng triển khai Error! Bookmark not defined 4.2 Xây dựng chƣơng trình dịch thực tối ƣu bảng cụm từ Error! Bookmark not defined 4.2.1 Chuẩn bị liệu chuẩn hóa liệuError! Bookmark not defined 4.2.2 Xây dựng mô hình ngôn ngữ, mô hình dịchError! Bookmark not defined 4.2.3 Cắt gọt (Pruning) bảng cụm từ theo mô hình Entropy Error! Bookmark not defined 4.2.4 Đánh giá kết dịch Error! Bookmark not defined 4.3 Thực nghiệm đánh giá kết dịch từ tiếng Anh sang tiếng Việt Error! Bookmark not defined 4.3.1 Đánh giá kết liệu huấn luyện bảng cụm từ Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined THAM KHẢO DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Thuật ngữ/Từ viết tắt Mô tả SMT Statistical Machine Translation MT Machine Transtion ALPAC Automatic Language Processing Advisory Committee - Hội đồng tƣ vấn xử lý ngôn ngữ tự động BLEU BiLingual Evaluation Understudy DANH MỤC CÁC BẢNG Bảng 3.1: Bảng dịch cụm từ với kiện liên kếtError! Bookmark not defined Bảng 4.1: Ngữ liệu tiếng việt Error! Bookmark not defined Bảng 4.2: Ngữ liệu tiếng anh Error! Bookmark not defined Bảng 4.3: Dữ liệu đầu vào Error! Bookmark not defined DANH MỤC CÁC HÌNH VẼ Hình 1.1: Lịch sử dịch máy Error! Bookmark not defined Hình 1.2 Sơ đồ tổng quát hệ dịch máy Error! Bookmark not defined Hình 1.3: Sơ đồ hệ dịch phƣơng pháp thống kêError! Bookmark not defined Hình 1.5: Chu kì phát triển hệ dịch thống kê Error! Bookmark not defined Hình 1.6 Sự tƣơng ứng - một, câu tiếng Anh câu tiếng Pháp Error! Bookmark not defined Hình 1.7 Sự tƣơng ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh Error! Bookmark not defined Hình 1.8 Sự tƣơng ứng - nhiều câu tiếng Anh với câu tiếng Pháp Error! Bookmark not defined Hình 1.9 Sự tƣơng ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp Error! Bookmark not defined Hình 1.10 Mô hình dịch dựa cú pháp Error! Bookmark not defined Hình 1.11 Dịch liên ngữ Error! Bookmark not defined Hình 2.1 Kiến trúc mô hình dịch máy thống kê dựa cụm từ Error! Bookmark not defined Hình 2.1 Một từ tiếng Việt tƣơng ứng với nhiều từ tiếng Anh (1 - n) Error! Bookmark not defined Hình 2.2 Một nhiều từ tiếng Việt tƣơng ứng với từ tiếng Anh (n - 1) Error! Bookmark not defined Hình 2.3 Nhiều từ tiếng Việt tƣơng ứng với nhiều từ tiếng Anh (n – n) Error! Bookmark not defined Hình 2.4 Gióng hàng trƣớc chuyển đổi Error! Bookmark not defined Hình 2.5 Gióng hàng sau chuyển đổi Error! Bookmark not defined Hình 2.6 Mô hình log-tuyến tính Error! Bookmark not defined Hình 2.7: Thuật toán giải mã A* cho dịch máy Error! Bookmark not defined Hình 2.8: Thuật toán beamsearch pruning đánh giá chất lƣợng dịch Error! Bookmark not defined GIỚI THIỆU Trong bối cảnh phát triển giới ngày nay, nhu cầu trao đổi thông tin ngày nhiều, số lƣợng ngôn ngữ sử dụng lớn Tuy nhiên, vấn đề khó khăn gặp phải số lƣợng ngôn ngữ sử dụng lớn cần phải có đội ngũ phiên dịch lớn để dịch văn bản, tài liệu, lời nói từ ngôn ngữ nƣớc sang ngôn ngữ nƣớc khác Do vậy, để cải tiến đƣợc tình trạng cần phải có mô hình tự động công việc dịch để hỗ trợ làm giảm sức lao động ngƣời Từ đó, việc nghiên cứu dịch máy đƣợc tiến hành từ máy tính điện tử đời Công việc đƣa mô hình tự động cho việc dịch đƣợc phát triển, chƣa giải đƣợc triệt để lớp ngôn ngữ tự nhiên Dịch máy giải pháp hỗ trợ cho việc đối thoại ngƣời – máy Trong số hƣớng nghiên cứu dịch máy nay, hƣớng tiếp cận thống kê đƣợc đánh giá hƣớng phát triển tiềm thu hút đƣợc quan tâm nhiều nhà nghiên cứu giới Thay xây dựng từ điển, quy luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa kết thống kê có đƣợc từ kho ngữ liệu Chính vậy, dịch máy thống kê có tính khả chuyển cao áp dụng đƣợc cho cặp ngôn ngữ Cơ sở phƣơng pháp dịch thống kê dịch máy thống kê sở từ, cụm từ cú pháp Trong đó, dịch máy thống kê sở cụm từ có mục đích để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm từ kỹ thuật thƣờng không cụm từ theo nghĩa ngôn ngữ học mà cụm từ đƣợc tìm thấy cách sử dụng phƣơng pháp thống kê để trích rút từ cặp câu Việc sử dụng cụm từ theo nghĩa ngôn ngữ học(tức dựa cú pháp, xem phân loại cú pháp) làm giảm chất lƣợng dịch máy phƣơng pháp Khi kích thƣớc tập văn huấn luyện lớn, số lƣợng cụm n-gram kích thƣớc mô hình ngôn ngữ lớn Nó gây khó khăn việc lƣu trữ, mà làm tốc độ xử lý mô hình ngôn ngữ giảm xuống nhớ máy tính hạn chế Để xây dựng mô hình ngôn ngữ hiệu , phải giảm kích thƣớc mô hình ngôn ngữ mà đảm bảo độ xác Do vâ ̣y , viê ̣c cầ n có mô ̣t kỹ thuâ ̣t để tố i ƣu bảng cu ̣m tƣ̀ , làm giảm kích thƣớc của mô hình ngôn ngƣ̃ cần thiết Vì mà chọn đề tài hƣớng đến việc giải toàn “Tối ƣu bảng cụm từ cho dịch máy thống kê dựa vào cụm”, phƣơng pháp mang lại tính hiệu cao, phƣơng pháp dịch máy đƣợc nghiên cứu nhiều Trong luận này, trình bày theo bố cục nhƣ sau: - Chƣơng 1: Tôi tìm hiểu trình bày khái quát dịch máy dịch máy thống kê - Chƣơng 2: Trình bày chi tiết mô hình dịch máy thống kê dựa vào cụm từ - Chƣơng 3: Đây nội dung nghiên cứu luận văn Trong chƣơng tập trung nghiên cứu chi tiết phƣơng pháp tối ƣu bảng cụm từ cho dịch máy thống kê dựa vào cụm, cụ thể mô hiǹ h “Entropy-based Pruning” đƣơ ̣c đề xuấ t bởi Wang Ling[7] - Chƣơng 4: Tôi tập trung vào việc mô tả thực nghiệm, bao gồm công việc xây dựng cài đặt chƣơng trình hỗ trợ việc xây dựng đƣợc mô hình ngôn ngữ, mô hình dịch máy thống kê kết thực nghiệm đạt đƣợc - Phần cuối kết luận danh mục tài liệu, báo tham khảo 1 THAM KHẢO Tài liệu tiếng Việt [1] Đào Ngọc Tú (2012), “Nghiên cứu vào dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngôn ngữ Anh – Việt” Luận văn Thạc sỹ, Học viện Công nghệ Bƣu Viễn thông [2] Nguyễn Văn Vinh (2005), “Xây dựng chƣơng trình dịch tự động AnhViệt phƣơng pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, Đại học Quốc gia Hà Nội Tài liệu tiếng Anh [3] Daniel Jurafsky and James H Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, chapter 6, February 2000 [4] Och F.J and Ney H., “Discriminative training and maximum entropy models for statistical machine translation” In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pages 295-302, Philadelphia, PA, July 2002 [5] Kenji Yamada and Kevin Knight, A Syntax-based Statistical Translation Model, Information Sciences Institute, University of Southern California [6] Philipp Koehn and Kevin Knight, “Introduction to Statistical Machine [7] WangLing, JoaoGrac, Isabel, Trancoso, AlanBlack, “Entropy-based Pruning for Phrase-based Machine Translation” [8] Papineni, Kishore, Salim Roukos, Todd Ward and Wei-Jing Zhu (2002), BLEU: a method for automatic evaluation of machine translation In Proceedings of the 40th Annual Meeting of the ACL, pages 311-318, Philadelphia, PA [...]...1 THAM KHẢO Tài liệu tiếng Việt [1] Đào Ngọc Tú (2012), “Nghiên cứu vào dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ Anh – Việt” Luận văn Thạc sỹ, Học viện Công nghệ Bƣu chính Viễn thông [2] Nguyễn Văn Vinh (2005), “Xây dựng chƣơng trình dịch tự động AnhViệt bằng phƣơng pháp dịch thống kê Luận văn Thạc sĩ, Đại học Công nghệ, Đại học Quốc gia Hà Nội Tài liệu tiếng Anh

Ngày đăng: 27/08/2016, 23:01

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w