Đang tải... (xem toàn văn)
Tài liệu tham khảo công nghệ thông tin Xây dựng mô hình ngôn ngữ cho tiếng việt
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Cao Văn Việt XÂY DỰNG MƠ HÌNH NGƠN NGỮ CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính HÀ NỘI – 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Cao Văn Việt XÂY DỰNG MƠ HÌNH NGƠN NGỮ CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính Cán hướng dẫn: Tiến sĩ Lê Anh Cường HÀ NỘI - 2010 Mơ hình ngơn ngữ Ngram - Cao Văn Việt K51KHMT LỜI CẢM ƠN Đầu tiên, cho phép gửi lời cảm ơn sâu sắc tới TS Lê Anh Cường, người trực tiếp hướng dẫn, bảo tạo điều kiện cho tơi q trình hồn thành luận văn Đồng thời xin gửi lời cảm ơn chân thành tới thầy cô giáo trường Đại học Công Nghệ, đặc biệt thầy cô mơn Khoa học Máy tính , người trực tiếp giảng dạy, hướng dẫn tạo điều kiện cho tơi q trình học tập thực hành trường Cuối cùng, xin gửi gời cảm ơn tới tất bạn đồng học gia đình ủng hộ, giúp đỡ tơi hồn thành luận văn TĨM TẮT Mơ hình ngơn ngữ phận quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên Có nhiều lĩnh vực xử lý ngơn ngữ tự nhiên sử dụng mơ hình ngơn ngữ như: kiểm lỗi tả, dịch máy hay phân đoạn từ Trên giới có nhiều nước cơng bố nghiên cứu mơ hình ngơn ngữ áp dụng cho ngôn ngữ họ Việt Nam, việc nghiên cứu xây dựng mơ hình ngơn ngữ chuẩn cho tiếng Việt mẻ gặp nhiều khó khăn Chính điều gợi ý thúc đẩy lựa chọn tập trung nghiên cứu vấn đề để tạo điều kiện cho việc xử lý ngôn ngữ tiếng Việt vốn vô phong phú Luận văn trình bày khái qt mơ hình ngơn ngữ, đồng thời khó khăn cịn tồn để đưa phương pháp khắc phục, trọng tâm nghiên cứu phương pháp làm mịn Trong luận văn này, sử dụng chủ yếu công cụ mã nguồn mở SRILIM để xây dựng mô hình ngơn ngữ cho tiếng Việt, sau áp dụng mơ hình ngơn ngữ tạo để tính tốn độ hỗn loạn thông tin văn dịch máy thống kê Kết có sở để chúng tơi phương pháp làm mịn tốt sử dụng việc xây dựng mơ hình ngơn ngữ tiếng Việt MỤC LỤC Chương Giới thiệu vấn đề 1.1 Đặt vấn đề: 1.2 Mục tiêu: 1.3 Cấu trúc luận văn: Chương Mơ hình ngơn ngữ Ngram: 2.1 Khái quát: 2.2 Cơng thức tính “xác suất thô”: 2.3 Khó khăn xây dựng mơ hình ngôn ngữ N-gram 2.3.1 Phân bố không đều: 2.3.2 Kích thước nhớ mơ hình ngơn ngữ 2.4 Các phương pháp làm mịn 2.4.1 Các thuật toán chiết khấu (discounting): 2.4.2 Phương pháp truy hồi: .8 2.4.3 Phương pháp nội suy: 10 2.4.4 Phương pháp làm mịn Kneser - Ney: 10 2.4.5 Phương pháp làm mịn Kneser - Ney cải tiến Chen - GoodMan: .12 2.5 Kỹ thuật làm giảm kích thước liệu: 13 2.5.1 Loại bỏ (pruning): 13 2.5.2 Đồng hóa (Quantization): 15 2.5.3 Nén (Compression): 16 2.6 Độ đo: 16 2.6.1 Entropy – Độ đo thông tin: 16 2.6.2 Perplexity – Độ hỗn loạn thông tin: 18 2.6.3 Error rate – Tỉ lệ lỗi: 18 Chương 19 3.1 Ứng dụng mơ hình ngơn ngữ mơ hình dịch máy thống kê: Dịch máy: 19 3.2 Dịch máy thống kê: 19 3.2.1 Giới thiệu: 19 3.2.2 Nguyên lý thành phần: 19 3.2.3 Mơ hình dịch: 21 3.2.4 Bộ giải mã: .25 3.3 Các phương pháp đánh giá dịch: 25 3.3.1 Đánh giá trực tiếp người: 25 3.3.2 Đánh giá tự động: phương pháp BLEU 25 Chương 4.1 Thực nghiệm: 28 Công cụ: 28 4.1.1 Bộ công cụ trợ giúp xây dựng tập văn huấn luyện: 28 4.1.2 Công cụ tách từ cho tiếng Việt - vnTokenizer: 28 4.1.3 Bộ cơng cụ xây dựng mơ hình ngơn ngữ - SRILM: 29 4.1.4 Bộ cơng cụ xây dựng mơ hình dịch máy thống kê – MOSES: 32 4.2 Dữ liệu huấn luyện: 34 4.3 Kết quả: 34 4.3.1 Số lượng cụm ngram: 34 4.3.2 Tần số tần số: 36 4.3.3 Cut-off (loại bỏ): 39 4.3.4 Các phương pháp làm mịn: 40 4.3.5 Áp dụng vào mơ hình dịch máy thống kê: .41 Chương Kết luận .43 Tài liệu tham khảo 44 Danh sách bảng sử dụng luận văn: Bảng 4-1: số lượng cụm Ngram văn huấn luyện với âm tiết 35 Bảng 4-2: số lượng cụm Ngram văn huấn luyện với từ .36 Bảng 4-3: tần số tần số cụm Ngram áp dụng cho âm tiết 37 Bảng 4-4: tần số tần số cụm Ngram với từ 38 Bảng 4-5: nhớ độ hỗn loạn thông tin áp dụng loại bỏ âm tiết 39 Bảng 4-6: nhớ độ hỗn loạn thông tin áp dụng loại bỏ với từ 40 Bảng 4-7: độ hỗn loạn thông tin phương pháp làm mịn cho âm tiết 40 Bảng 4-8: độ hỗn loạn thông tin phương pháp làm mịn cho từ .41 Bảng 4-9: điểm BLEU dịch máy với mơ hình ngơn ngữ sử dụng liệu huấn luyện có kích thước nhỏ (50Mb) 41 Bảng 4-10: điểm BLEU dịch máy với mơ hình Ngram sử dụng liệu huấn luyện có kích thước lớn (300Mb) .42 Danh sách hình sử dụng luận văn: Hình 3-1: mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 20 Hình 3-3: tương ứng - câu tiếng Anh câu tiếng Pháp 21 Hình 3-4: tương ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh .22 Hình 3-5: tương ứng - nhiều câu tiếng Anh với câu tiếng Pháp .22 Hình 3-6: tương ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp 22 Hình 3-7: mơ hình dịch dựa cú pháp 25 Hình 3-8: trùng khớp dịch máy với dịch mẫu 26 Hình 4-1: số lượng cụm Ngram với âm tiết tăng kích thước liệu 35 Hình 4-2: số lượng cụm Ngram với từ tăng kích thước liệu .36 Hình 4-3: số lượng cụm Ngram (âm tiết) có tần số từ đến 10 37 Hình 4-4: số lượng cụm Ngram (từ) có tần số từ đến 10 38 Chương Giới thiệu vấn đề 1.1 Đặt vấn đề: Ngôn ngữ tự nhiên ngôn ngữ người sử dụng giao tiếp hàng ngày: nghe, nói, đọc, viết [10] Mặc dù người dễ dàng hiểu học ngơn ngữ tự nhiên; việc làm cho máy hiểu ngôn ngữ tự nhiên chuyện dễ dàng Sở dĩ có khó khăn ngơn ngữ tự nhiên có luật, cấu trúc ngữ pháp phong phú nhiều ngơn ngữ máy tính, để hiểu nội dung giao tiếp, văn ngôn ngữ tự nhiên cần phải nắm ngữ cảnh nội dung Do vậy, để xây dựng ngữ pháp, từ vựng hồn chỉnh, xác để máy hiểu ngơn ngữ tự nhiên việc tốn cơng sức địi hỏi người thực phải có hiểu biết sâu ngơn ngữ học Các phương pháp xử lý ngôn ngữ tự nhiên dựa thống kê không nhắm tới việc người tự xây dựng mơ hình ngữ pháp mà lập chương trình cho máy tính “học” nhờ vào việc thống kê từ cụm từ có văn Cốt lõi phương pháp xử lý ngôn ngữ tự nhiên dựa thống kê việc xây dựng mơ hình ngơn ngữ Mơ hình ngơn ngữ phân bố xác suất tập văn [2][10] Nói đơn giản, mơ hình ngơn ngữ cho biết xác suất câu (hoặc cụm từ) thuộc ngôn ngữ Ví dụ: áp dụng mơ hình ngơn ngữ cho tiếng Việt: P[“hôm qua thứ năm”] = 0.001 P[“năm thứ hơm qua”] = Mơ hình ngơn ngữ áp dụng nhiều lĩnh vực xử lý ngơn ngữ tự nhiên như: kiểm lỗi tả, dịch máy hay phân đoạn từ Chính vậy, nghiên cứu mơ hình ngơn ngữ tiền đề để nghiên cứu lĩnh vực Mơ hình ngơn ngữ có nhiều hướng tiếp cận, chủ yếu xây dựng theo mơ hình Ngram Vấn đề trình bày rõ ràng chương 1.2 Mục tiêu: Mục tiêu luận văn tìm hiểu lý thuyết mơ hình Ngram vấn đề đó, đặc biệt phương pháp làm mịn Về thực nghiệm, luận văn có sử dụng ... giúp xây dựng tập văn huấn luyện: 28 4.1.2 Công cụ tách từ cho tiếng Việt - vnTokenizer: 28 4.1.3 Bộ cơng cụ xây dựng mơ hình ngơn ngữ - SRILM: 29 4.1.4 Bộ cơng cụ xây dựng mơ hình. .. nhiều nước cơng bố nghiên cứu mơ hình ngơn ngữ áp dụng cho ngôn ngữ họ Việt Nam, việc nghiên cứu xây dựng mơ hình ngơn ngữ chuẩn cho tiếng Việt mẻ gặp nhiều khó khăn Chính điều gợi ý thúc đẩy lựa... giản, mơ hình ngơn ngữ cho biết xác suất câu (hoặc cụm từ) thuộc ngơn ngữ Ví dụ: áp dụng mơ hình ngơn ngữ cho tiếng Việt: P[“hôm qua thứ năm”] = 0.001 P[“năm thứ hôm qua”] = Mơ hình ngơn ngữ áp