Slide trình chiếu trình bày báo cáo tại hội nghị bảo vệ luận văn tốt nghiệp thạc sĩ khoa học máy tính: Đề tài sử dụng mô hình ngôn ngữ trong dịch máy thống kê. Slide trình chiếu trình bày báo cáo tại hội nghị bảo vệ luận văn tốt nghiệp thạc sĩ khoa học máy tính: Đề tài sử dụng mô hình ngôn ngữ trong dịch máy thống kê. Slide trình chiếu trình bày báo cáo tại hội nghị bảo vệ luận văn tốt nghiệp thạc sĩ khoa học máy tính: Đề tài sử dụng mô hình ngôn ngữ trong dịch máy thống kê.
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG BÁO CÁO LUẬN VĂN TỐT NGHIỆP TÊN ĐỀ TÀI SỬ DỤNG MƠ HÌNH NGƠN NGỮ BLOOM FILTER TRONG CẢI TIẾN DỊCH MÁY THỐNG KÊ Học viên: Trần Tiến Thành Giáo viên hướng dẫn: TS Nguyễn Văn Vinh Thái nguyên - 2015 NỘI DUNG Đặt vấn đề Kết luận Mơ hình ngơn ngữ (LM), LM Bloom Filter Dịch máy thống kê dựa vào cụm Ứng dụng LM-BF vào dịch máy thống kê Thử nghiệm 2/28 ĐẶT VẤN ĐỀ Mơ hình ngơn ngữ (Language Model - LM) thành phần quan trọng xử lý ngơn ngữ Mơ hình ngơn ngữ lớn cho ứng dụng tốt Lựa chọn đề tài: Sử dụng mơ hình ngơn ngữ Bloom Filter cải tiến dịch máy thống kê 3/28 MÔ HÌNH NGÔN NGƯ Mơ hình ngơn ngữ: Mơ hình ngơn ngữ một phân bố xác suất tập văn bản Ví dụ: Khi áp dụng mơ hình ngơn ngữ cho tiếng Việt: P[“hôm qua thứ sáu”] = 0,8 P[“sáu thứ hơm qua”] = 0,001 4/28 MƠ HÌNH NGƠN NGƯ Mơ hình ngơn ngữ: Nhiệm vụ: Mơ hình ngơn ngữ cho biết xác suất xuất của một câu w1w2…wn ngôn ngữ xét 5/28 MƠ HÌNH NGƠN NGƯ Mơ hình ngơn ngữ: Ứng dụng: Mơ hình ngơn ngữ được ứng dụng xử lý ngôn ngữ: - Kiểm lỗi chính tả - Dịch máy hay phân đoạn từ… 6/28 MƠ HÌNH NGƠN NGƯ Mơ hình ngơn ngữ: Những khó khăn xây dựng mơ hình ngơn ngữ: Phân bố khơng 7/28 MƠ HÌNH NGƠN NGƯ Ví dụ: Tiếng Việt có khoảng >5.000 âm tiết khác nhau, ta có tổng số cụm 3gram có thể là: 125.000.000.000 Tuy nhiên, số cụm 3-gram thống kê được chỉ ≈ 1.500.000 Như vậy, có nhiều cụm 3-gram không xuất chỉ xuất ít 8/28 MƠ HÌNH NGƠN NGƯ Mơ hình ngơn ngữ: Những khó khăn xây dựng mơ hình ngơn ngữ: Phân bố không Kích thước bộ nhớ của mơ hình ngơn ngữ 9/28 MƠ HÌNH NGƠN NGƯ BLOOM FILTER Bloom Filter bản: Bloom Filter bản một cấu trúc liệu xác suất, hỗ trợ truy vấn, kiểm tra một đối tượng có thuộc tập hợp hay không 10/28 THỬ NGHIỆM Xây - dựng LM với RandLM SRILM Ngữ liệu Thống kê tập ngữ liệu tiếng Việt được sử dụng để xây dựng LM (Set 1->3) Số lượng câu Số lượng từ Đợ dài trung bình câu Từ vựng Dung lượng Set Set 442,453 642,452 7,013,558 11,894,513 15.85 18.51 161,376 255,115 56 MB 95.9 MB Set 842,452 16,369,034 19.43 315,092 131.9 MB 19/28 THỬ NGHIỆM Xây - dựng LM với RandLM SRILM Ngữ liệu Thống kê số lượng n-gram tập ngữ liệu 1-gram 2-gram 3-gram 4-gram Set 161,379 1,727,176 691,281 452,241 Set 255,118 2,659,220 1,194,095 854,777 Set 315,095 3,342,615 1,784,125 1,441,396 20/28 THỬ NGHIỆM Xây dựng LM với RandLM SRILM Kích thước loại LM khác tập ngữ liệu Set Set Set Log-Freq BF 21.21 MB 32.73 MB 45.28 MB SRILM 97.3 MB 164 MB 235 MB 21/28 THỬ NGHIỆM Xây dựng LM với RandLM SRILM MB Biểu đồ 1: Dung lượng LM tạo từ RandLM SRILM 22/28 THỬ NGHIỆM Xây dựng LM với RandLM SRILM Biểu đồ xây dựng LM bậc 2, từ bộ ngữ liệu tiếng Việt: 23/28 THỬ NGHIỆM Sử dụng mơ hình ngơn ngữ Bloom Filter cho Hệ dịch máy mã nguồn mở Moses Dữ liệu đầu vào: Dữ liệu Ngôn ngữ Tiếng Anh Dữ liệu huấn luyện Tiếng Việt Câu Từ Độ dài trung bình 44,638 498,041 11.15 44,638 463,795 10.39 24/28 THỬ NGHIỆM Dữ liệu đầu vào: Ngôn ngữ Câu Từ Độ dài trung bình Tiếng Anh Dữ liệu điều chỉnh Tiếng Việt tham số 201 2,403 11.95 201 2,221 11.04 Tiếng Anh 500 5,620 11.24 Tiếng Việt 500 5,264 10.52 Dữ liệu Dữ liệu đánh giá 25/28 THỬ NGHIỆM Thực nghiệm dịch 1000 câu tiếng Anh sử dụng loại LM khác Loại LM gram Thời gian dịch (giây) SRI-LM LF-BF-LM 830 1,079 Điểm BLEU cho kết quả dịch với LM khác Cỡ LM Điểm BLEU SRI-LM 3-gram 173 MB 31.25 LF-BF-LM 3-gram 35.17 MB 27.46 LF-BF-LM 4-gram 58.46 MB 32.16 26/28 KẾT LUẬN Luận văn trình bày lý thuyết thử nghiệm mơ hình ngơn ngữ Luận văn tập trung phân tích ưu điểm nổi bật khả tiết kiệm đáng kể bợ nhớ Xây dựng mơ hình ngôn ngữ Randlm tích hợp vào hệ thống dịch máy thống kê Moses, nhằm tiết kiệm đáng kể không gian lưu trữ 27/28 XIN TRÂN TRỌNG CẢM ƠN! 28/28 BASELINE SYSTEM Chúng xây dựng hệ thống dịch sử dụng GIZA++ 2.0, SRILM bộ huấn luyện cực tiểu hóa tỉ lệ lỗi (Minimum Error Rate Training – MERT) để gióng hàng từ, xây dựng mơ hình ngơn ngữ, tối ưu hóa trọng số sử dụng q trình dịch Mơ hình ngơn ngữ sử dụng huấn luyện mợt mơ hình 3gram với thuật tốn làm mịn Kneser-Ney cải tiến 29/nn BASELINE SYSTEM Trong trình xây dựng thử nghiệm hệ thống dịch này, có sử dụng một số script hỗ trợ bao gồm: Bộ tách từ tokenizer.perl Script chủn tồn bợ văn bản sang chữ thường lowercase.perl SGML-Wrapper có nhiệm vụ đóng gói liệu theo định dạng XML của hệ thống tính điểm NIST BLEU : wrap-xml.perl Script NIST MTeval version 11b mteval-v11b.pl dùng để tính điểm BLEU 30/nn MÔ HÌNH NGÔN NGƯ Dữ liệu thưa (data sparseness problem) tập ngữ liệu dùng để xây dựng LM dù lớn đến mấy, tập hữu hạn câu vơ số câu ngôn ngữ tự nhiên 31/nn HÀM BĂM Hàm băm (h) một hàm ánh xạ phần tử từ tập sang tập khác thường nhỏ Phần tử cần được băm từ tập S (cỡ n) nằm tập ban đầu U Đại diện của phần tử đó có miền b gọi chữ ký (dấu ấn) của liệu Tính ổn định: Cùng liệu qua hàm h nhiều lần cho kết quả Nếu đầu của hai phần tử qua hàm h khác hai phần tử đó khác 32/nn ĐẶT VẤN ĐỀ MÔ HÌNH DỊCH MÁY BẰNG PHƯƠNG PHÁP THỐNG KÊ DỊCH MÁY THỐNG KÊ NGƠN NGỮ ĐÍCH NGƠN NGỮ NGUỒN MƠ HÌNH DỊCH MƠ HÌNH NGƠN NGỮ 33/nn ... Thời gian dịch (giây) SRI-LM LF-BF-LM 830 1,079 Điểm BLEU cho kết quả dịch với LM khác Cỡ LM Điểm BLEU SRI-LM 3-gram 173 MB 31.25 LF-BF-LM 3-gram 35.17 MB 27.46 LF-BF-LM 4-gram 58.46 MB 32.16 26/28... 16,369,034 19.43 315,092 131.9 MB 19/28 THỬ NGHIỆM Xây - dựng LM với RandLM SRILM Ngữ liệu Thống kê số lượng n-gram tập ngữ liệu 1-gram 2-gram 3-gram 4-gram Set 161,379 1,727,176 691,281 452,241 Set... - dựng LM với RandLM SRILM Ngữ liệu Dung lượng Số lượng câu Số lượng từ Đợ dài trung bình câu 1-gram 2-gram 3-gram 4-gram Thống kê chung 131.9 MB 842,452 16,369,034 19.43 Thống kê n-gram