1. Trang chủ
  2. » Tất cả

(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê

62 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê(Luận văn thạc sĩ) Tối ưu bảng cụm từ để cái tiến dịch máy thống kê

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - - KIỀU CƠNG CHÍNH TỐI ƢU BẢNG CỤM TỪ ĐỂ CẢI TIẾN DỊCH MÁY THỐNG KÊ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii MỤC LỤC MỞ ĐẦU CHƢƠNG I: DỊCH MÁY THỐNG KÊ TRÊN CƠ SỞ CỤM TỪ 1.1 Ngôn ngữ tự nhiên 1.2 Dịch máy 1.3 Dịch máy thống kê dựa vào cụm từ 1.3.1 Cơ sở phương pháp dịch máy thống kê 1.3.2 Gióng hàng từ, gióng hàng thống kê 1.3.3 Dịch máy thống kê dựa sở cụm từ 1.3.4 Mục đích việc dịch máy thống kê sở cụm từ 11 1.3.5 Đảo cụm từ dịch máy thống kê 13 1.3.6 Bảng cụm từ dịch máy thống kê 13 1.4 Mơ hình ngơn ngữ 14 CHƢƠNG II: PHƢƠNG PHÁP TỐI ƢU BẢNG CỤM TỪ 16 2.1 Quy trình sinh bảng cụm từ 16 2.2 Phƣơng pháp tối ƣu bảng cụm từ 19 2.2.1 Chỉ số cụm từ nguồn 19 2.2.2 Lưu trữ cụm từ mục tiêu 20 2.2.3 Nén ngữ liệu song ngữ 22 2.2.4 Nén bảng cụm từ 27 2.2.5 Mã hóa cụm từ 31 2.2.6 Giải mã cụm từ 33 CHƢƠNG III: ĐÁNH GIÁ THỰC NGHIỆM BẰNG HỆ DỊCH MÁY THỐNG KÊ MOSES 36 3.1 Môi trƣờng triển khai 36 3.2 Xây dựng chƣơng trình dịch thực nén bảng cụm từ 36 3.2.1 Chuẩn hóa liệu 36 3.2.2 Xây dựng mơ hình ngơn ngữ, mơ hình dịch 37 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii 3.2.3 Nén bảng cụm từ 37 3.2.4 Đánh giá kết dịch 38 3.3 Thực nghiệm đánh giá kết dịch tiếng Anh sang tiếng Việt 39 3.3.1 Thực nghiệm dịch với câu đơn giản 43 3.3.2 Thực nghiệm dịch đoạn văn từ tiếng Anh-Tiếng Việt 44 3.3.3 Đánh giá kết liệu huấn luyện bảng cụm từ 44 3.3.4 Đánh giá kết theo cỡ liệu huấn luyện 46 3.3.5 Đánh giá kết theo thời gian tải bảng cụm từ 47 PHỤ LỤC 50 Kết dịch máy câu đơn giản 50 Kết dịch máy liệu 51 Một số công cụ tiền xử lý thường hay sử dụng hệ dịch 52 Tài liệu tham khảo 54 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv DANH MỤC HÌNH Hình 1.1: Sơ đồ hệ dịch phương pháp thống kê Hình 1.2: Gióng hàng với từ tiếng anh độc lập Hình 1.3: Gióng hàng với từ tiếng việt độc lập Hình 1.4: Gióng hàng tổng quát Hình 1.5: Mơ hình dịch từ Tiếng Anh- Tiếng Việt Hình 1.6: Mơ tả việc giải mã 12 Hình 2.1: Sơ đồ đơn giản hóa bảng cụm từ 19 Hình 2.2: Mơ tả q trình tạo Huffman 26 Hình 3.1: Dịch câu đơn giản với bảng cụm từ gốc 51 Hình 3.2: Dịch câu đơn giản với bảng cụm tối ưu 51 Hình 3.3: Điểm Bleu liệu bảng cụm từ gốc 52 Hình 3.4: Điểm Bleu liệu bảng cụm từ tối ưu 52 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v DANH MỤC BẢNG Bảng 2.1 : Một số phần tử bảng cụm từ 18 Bảng 2.2: Bảng mã hóa huffman 27 Bảng 2.3: Bảng tùy chọn mã Simple 28 Bảng 3.1: Ngữ liệu tiếng việt 40 Bảng 3.2: Ngữ liệu tiếng anh 40 Bảng 3.5: Dữ liệu đầu vào 42 Bảng 3.3: So sánh kết dịch máy với câu đơn 43 Bảng 3.4: So sánh hai phương pháp dịch với đầu vào văn 44 Bảng 3.5: So sánh liệu bảng cụm từ gốc bảng cụm sau nén 45 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC BIỂU ĐỒ Biểu đồ 3.1: Biểu đồ so sánh 1………………………………………………… 45 Biểu đồ 3.2: Biểu đồ so sánh …………………………………………………46 Biểu đồ 3.3: Biểu đồ so sánh ……………………………………………………48 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH SÁCH CÁC TỪ VIẾT TẮT Viết tắt Đầy đủ PB-SMT Cụm từ base Statistical Machine Translation SMT Statistical Machine Translation PR-Enc Cụm từ Rank Encoding Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU Hiện giới có khoảng 5650 ngôn ngữ khác nhau, với số lượng ngôn ngữ lớn gây nhiều khó khăn việc trao đổi thông tin, giao tiếp, đồng thời ngăn cản phát triển thương mại mậu dịch quốc tế Mặt khác, với việc bùng nổ Internet nay, có khối lượng văn khổng lồ Internet mà phần lớn tiếng Anh Do tính đa dạng mà việc hiểu văn hồn tồn khơng dễ chút Do việc có hệ dịch tự động Anh-Việt cần thiết Với khó khăn người ta phải dùng đến đội ngũ phiên dịch khổng lồ, để dịch văn bản, tài liệu, lời nói từ tiếng nước sang tiếng nước khác Những cơng việc mang tính chất thủ cơng, nặng nhọc khối lượng văn cần dịch ngày nhiều Để khắc phục nhược điểm có nhiều hệ thống tự động dịch miễn phí mạng như: systran, google translate, vietgle, vdict Những hệ thống cho phép dịch tự động văn với cặp ngôn ngữ chọn trước (ví dụ dịch từ tiếng Anh sang tiếng Việt) [1] Điều cho thấy phát triển dịch máy ngày tiến gần đến ngôn ngữ tự nhiên người Ngay từ xuất máy tính điện tử người ta tiến hành nghiên cứu dịch máy Công việc đưa mơ hình tự động cho việc dịch phát triển, chưa giải triệt để lớp ngôn ngữ tự nhiên Nhưng đời chúng khẳng định ích lợi to lớn mặt chiến luợc kinh tế, đồng thời vấn đề liên quan đến dịch máy chủ đề quan trọng ngành khoa học máy tính, chúng liên quan đến vấn đề xử lí ngơn ngữ tự nhiên, vấn đề có ý nghĩa mà trí tuệ nhân tạo có khả giải Người ta tin việc xử lí ngơn ngữ tự nhiên có dịch máy giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc người khơng phải tiếp xúc với Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn máy qua dòng lệnh cứng nhắc mà giao tiếp cách trực tiếp với máy Với phát triển mạnh mẽ dịch máy tự động dịch máy thống kê (Statistical Machine Translation) chứng tỏ hướng tiếp cận đầy tiềm ưu điểm vượt trội so với phương pháp dịch máy dựa cú pháp truyền thống Kết thực tế hệ thống dịch máy thống kê tốt hơn, ngôn ngữ dịch ngày gần với ngôn ngữ người, giúp người trao đổi thông tin dễ dàng hơn, tốc độ nhanh với nhiều ngôn ngữ Hiện nay, phương pháp dịch thống kê dựa cụm từ phương pháp cho kết dịch tốt Để dịch hiệu bảng cụm từ phải lớn việc lưu trữ tìm kiếm bảng cụm từ quan trọng Chính thế, luận văn tơi lựa chọn thực đề tài “Tối ƣu bảng cụm từ để tiến dịch máy thống kê” Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn CHƢƠNG I: DỊCH MÁY THỐNG KÊ TRÊN CƠ SỞ CỤM TỪ Hiện dịch máy thông kê dựa sở cụm từ hướng phát triển nhiều người quan tâm Dịch máy thống kê dựa cụm từ nhằm mục đích dịch văn từ ngơn ngữ nguồn sang ngơn ngữ đích dựa vào bảng ngữ cụm từ sau thực việc gióng hàng từ, gióng hàng thống kê, đảo cụm từ… kết hợp với mơ hình ngơn ngữ 1.1 Ngơn ngữ tự nhiên Ngôn ngữ tự nhiên ngôn ngữ người sử dụng giao tiếp hàng ngày nghe, nói, đọc, viết Mặc dù người dễ dàng hiểu học ngôn ngữ tự nhiên, việc làm cho máy hiểu ngôn ngữ tự nhiên khơng phải chuyện dễ dàng Sở dĩ có khó khăn ngơn ngữ tự nhiên có luật, cấu trúc ngữ pháp phong phú nhiều ngơn ngữ máy tính, để hiểu nội dung giao tiếp, văn ngôn ngữ tự nhiên cần phải nắm ngữ cảnh nội dung Do vậy, để xây dựng ngữ pháp, từ vựng hồn chỉnh, xác để máy hiểu ngơn ngữ tự nhiên việc tốn cơng sức địi hỏi người thực phải có hiểu biết sâu ngơn ngữ học Do cần phải tìm phương pháp dịch tư động tối ưu để làm giảm công sức vấn đề dịch ngơn ngữ nói chung 1.2 Dịch máy Dịch tự động hay gọi dịch máy ứng dụng quan trọng xử lý ngôn ngữ tự nhiên, kết hợp ngơn ngữ, dịch thuật khoa học máy tính Như tên gọi dịch tự động việc thực dịch ngôn ngữ đầu vào (ngôn ngữ gọi ngôn ngữ nguồn) sang nhiều ngôn ngữ khác (gọi ngơn ngữ đích) cơng cụ, phần mềm máy tính lập trình sẵn mà khơng cần có can thiệp người Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ngày đăng: 24/01/2023, 17:40

Xem thêm: