Luận vănxây dựng mô hình ngôn ngữ cho tiếng việt

Mơ hình ngơn ngữ Ngram - Cao Văn Việt K51KHMT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Cao Văn Việt XÂY DỰNG MƠ HÌNH NGƠN NGỮ CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính HÀ NỘI – 2010 LỜI CẢM ƠN Đầu tiên, cho phép gửi lời cảm ơn sâu sắc tới TS Lê Anh Cường, người trực tiếp hướng dẫn, bảo tạo điều kiện cho tơi q trình hồn thành luận văn Đồng thời xin gửi lời cảm ơn chân thành tới thầy cô giáo trường Đại học Công Nghệ, đặc biệt thầy cô mơn Khoa học Máy tính , người trực tiếp giảng dạy, hướng dẫn tạo điều kiện cho tơi q trình học tập thực hành trường Cuối cùng, xin gửi gời cảm ơn tới tất bạn đồng học gia đình ủng hộ, giúp đỡ tơi hồn thành luận văn TĨM TẮT Mơ hình ngơn ngữ phận quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên Có nhiều lĩnh vực xử lý ngơn ngữ tự nhiên sử dụng mơ hình ngơn ngữ như: kiểm lỗi tả, dịch máy hay phân đoạn từ Trên giới có nhiều nước cơng bố nghiên cứu mơ hình ngơn ngữ áp dụng cho ngôn ngữ họ Việt Nam, việc nghiên cứu xây dựng mơ hình ngơn ngữ chuẩn cho tiếng Việt mẻ gặp nhiều khó khăn Chính điều gợi ý thúc đẩy lựa chọn tập trung nghiên cứu vấn đề để tạo điều kiện cho việc xử lý ngôn ngữ tiếng Việt vốn vô phong phú Luận văn trình bày khái qt mơ hình ngơn ngữ, đồng thời khó khăn tồn để đưa phương pháp khắc phục, trọng tâm nghiên cứu phương pháp làm mịn Trong luận văn này, sử dụng chủ yếu công cụ mã nguồn mở SRILIM để xây dựng mô hình ngơn ngữ cho tiếng Việt, sau áp dụng mơ hình ngơn ngữ tạo để tính tốn độ hỗn loạn thông tin văn dịch máy thống kê Kết có sở để chúng tơi phương pháp làm mịn tốt sử dụng việc xây dựng mơ hình ngơn ngữ tiếng Việt MỤC LỤC Chương Giới thiệu vấn đề 1.1 Đặt vấn đề: 1.2 Mục tiêu: 1.3 Cấu trúc luận văn: Chương Mơ hình ngơn ngữ Ngram: 2.1 Khái quát: 2.2 Công thức tính “xác suất thơ”: 2.3 Khó khăn xây dựng mơ hình ngơn ngữ N-gram 2.3.1 Phân bố không đều: 2.3.2 Kích thước nhớ mơ hình ngơn ngữ 2.4 Các phương pháp làm mịn 2.4.1 Các thuật toán chiết khấu (discounting): 2.4.2 Phương pháp truy hồi: 2.4.3 Phương pháp nội suy: 10 2.4.4 Phương pháp làm mịn Kneser - Ney: .10 2.4.5 Phương pháp làm mịn Kneser - Ney cải tiến Chen - GoodMan: .12 2.5 Kỹ thuật làm giảm kích thước liệu: 13 2.5.1 Loại bỏ (pruning): 13 2.5.2 Đồng hóa (Quantization): .15 2.5.3 Nén (Compression): .16 2.6 Độ đo: 16 2.6.1 Entropy – Độ đo thông tin: 16 2.6.2 Perplexity – Độ hỗn loạn thông tin: 18 2.6.3 Error rate – Tỉ lệ lỗi: 18 Chương 3.1 Ứng dụng mơ hình ngơn ngữ mơ hình dịch máy thống kê: 19 Dịch máy: 19 3.2 Dịch máy thống kê: 19 3.2.1 Giới thiệu: .19 3.2.2 Nguyên lý thành phần: 19 3.2.3 Mơ hình dịch: 21 3.2.4 Bộ giải mã: 25 3.3 Các phương pháp đánh giá dịch: 25 3.3.1 Đánh giá trực tiếp người: 25 3.3.2 Đánh giá tự động: phương pháp BLEU 26 Chương 4.1 Thực nghiệm: 28 Công cụ: 28 4.1.1 Bộ công cụ trợ giúp xây dựng tập văn huấn luyện: 28 4.1.2 Công cụ tách từ cho tiếng Việt - vnTokenizer: .28 4.1.3 Bộ cơng cụ xây dựng mơ hình ngơn ngữ - SRILM: 29 4.1.4 Bộ cơng cụ xây dựng mơ hình dịch máy thống kê – MOSES: 32 4.2 Dữ liệu huấn luyện: 34 4.3 Kết quả: 34 4.3.1 Số lượng cụm ngram: .34 4.3.2 Tần số tần số: 36 4.3.3 Cut-off (loại bỏ): 39 4.3.4 Các phương pháp làm mịn: 40 4.3.5 Áp dụng vào mơ hình dịch máy thống kê: 41 Chương Kết luận 43 Tài liệu tham khảo 44 Danh sách bảng sử dụng luận văn: Bảng 4-1: số lượng cụm Ngram văn huấn luyện với âm tiết 35 Bảng 4-2: số lượng cụm Ngram văn huấn luyện với từ .36 Bảng 4-3: tần số tần số cụm Ngram áp dụng cho âm tiết .37 Bảng 4-4: tần số tần số cụm Ngram với từ 38 Bảng 4-5: nhớ độ hỗn loạn thông tin áp dụng loại bỏ âm tiết .39 Bảng 4-6: nhớ độ hỗn loạn thông tin áp dụng loại bỏ với từ .40 Bảng 4-7: độ hỗn loạn thông tin phương pháp làm mịn cho âm tiết .40 Bảng 4-8: độ hỗn loạn thông tin phương pháp làm mịn cho từ .41 Bảng 4-9: điểm BLEU dịch máy với mơ hình ngơn ngữ sử dụng liệu huấn luyện có kích thước nhỏ (50Mb) 41 Bảng 4-10: điểm BLEU dịch máy với mơ hình Ngram sử dụng liệu huấn luyện có kích thước lớn (300Mb) .42 Danh sách hình sử dụng luận văn: Hình 3-1: mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 20 Hình 3-3: tương ứng - câu tiếng Anh câu tiếng Pháp 21 Hình 3-4: tương ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh .22 Hình 3-5: tương ứng - nhiều câu tiếng Anh với câu tiếng Pháp .22 Hình 3-6: tương ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp .22 Hình 3-7: mơ hình dịch dựa cú pháp 25 Hình 3-8: trùng khớp dịch máy với dịch mẫu .26 Hình 4-1: số lượng cụm Ngram với âm tiết tăng kích thước liệu .35 Hình 4-2: số lượng cụm Ngram với từ tăng kích thước liệu .36 Hình 4-3: số lượng cụm Ngram (âm tiết) có tần số từ đến 10 37 Hình 4-4: số lượng cụm Ngram (từ) có tần số từ đến 10 38 Chương Giới thiệu vấn đề 1.1 Đặt vấn đề: Ngôn ngữ tự nhiên ngôn ngữ người sử dụng giao tiếp hàng ngày: nghe, nói, đọc, viết [10] Mặc dù người dễ dàng hiểu học ngôn ngữ tự nhiên; việc làm cho máy hiểu ngôn ngữ tự nhiên khơng phải chuyện dễ dàng Sở dĩ có khó khăn ngơn ngữ tự nhiên có luật, cấu trúc ngữ pháp phong phú nhiều ngôn ng�ần hai trường hợp là: âm tiết từ 34 4.3.1.1 Số lượng cụm Ngram với tiếng Việt dựa âm tiết: Số âm tiết văn huấn Số lượng cụm Ngram luyện unigram bigram trigram 687.003 4.567 155.297 86.069 1.203.440 4.953 299.039 178.001 2.177.198 5.549 318.888 264.599 3.778.983 5.796 358.262 432.089 4.071.536 5.814 631.253 375.105 9.765.347 6.360 666.968 954.041 17.420.051 6.706 850.333 1.613.000 58.854.325 7.712 1.835.726 13.162.180 Bảng 4-1: số lượng cụm Ngram văn huấn luyện với âm tiết Số lượng cụm N-gram 2-gram 3-gram 16000000 14000000 12000000 10000000 8000000 6000000 4000000 2000000 Hình 4-1: số lượng cụm Ngram với âm tiết tăng kích thước liệu 35 4.3.1.2 Số lượng cụm Ngram với tiếng Việt dựa từ: Số từ văn huấn luyện Số lượng cụm Ngram unigram bigram trigram 940.032 15.627 268.019 93.194 1.687.023 19.057 406.975 167.114 2.334.297 20.452 517.773 238.531 3.303.231 20.683 535.861 588.976 7.778.893 26.920 1.116.428 790.995 13.814.890 27.798 1.554.965 1.255.119 15.286.851 31.609 1.794.882 1.613.000 24.366.642 36.279 3.780.751 17.410.504 Bảng 4-2: số lượng cụm Ngram văn huấn luyện với từ Số lượng cụm N-gram 2-gram 3-gram 25000000 20000000 15000000 10000000 5000000 Hình 4-2: số lượng cụm Ngram với từ tăng kích thước liệu 4.3.2 Tần số tần số: Trong xây dưng mơ hình ngơn ngữ, chúng tơi thống kê tần số tần số cụm Ngram với kích thước tập văn huấn luyện lớn (hơn 54 triệu 36 ...ôi trường Linux Window  Sử dụng công cụ mã nguồn mở SRILM để xây dựng mơ hình ngơn ngữ cho tiếng Việt  Sử dụng công cụ Moses để xây dựng mơ hình dịch máy thống kê, áp dụng mơ hình ngơn ngữ v... nhiều nước cơng bố nghiên cứu mơ hình ngơn ngữ áp dụng cho ngôn ngữ họ Việt Nam, việc nghiên cứu xây dựng mơ hình ngơn ngữ chuẩn cho tiếng Việt mẻ gặp nhiều khó khăn Chính điều gợi ý thúc đẩy lựa...o thời gian có hạn, nên luận văn nghiên cứu độ tin cậy phương pháp làm mịn mơ hình ngơn ngữ áp dụng cho tiếng Việt mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt Trong tương lai, tập t

Định dạng
Số trang	51
Dung lượng	0,99 MB