Xây dựng mô hình ngôn ngữ cho tiếng việt

1 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy, cô khoa Công nghệ Thông tin Trường Đại học Dân lập Hải Phịng tận tình dạy d kiến thức quý báu suốt bốn năm học vừa qua Em xin tỏ lòng biết ơn sâu sắc đến Ths Nguyễn Thị Xuân Hương, người tận tình giúp đỡ truyền đạt nhiều kinh nghiệm để đề tài thực hồn thành Cuối em xin gửi lời cảm ơn chân thành tới tất người thân bạn bè giúp đỡ, động viên em nhiều trình học tập thực đề tài Em xin trân thành cảm ơn! Hải Phòng, tháng 07 năm 2011 Sinh viên Lưu Văn Sơn Sinh viên: Lƣu Văn Sơn - CT1102 MỤC LỤC DANH MỤC CHỮ VIẾT TẮT DANH MỤC BẢNG M CHƢƠNG 1: TỔNG QUAN VỀ MƠ HÌNH NGÔN NGỮ 1.1 N-gram 1.2 Xây dựng mơ hình ngơn ngữ 1.2.1 Ước lượng cực đại hóa khả (MLE) 1.2.2 Các phương pháp làm mịn 1.3 Kỹ thuật làm giảm kích thước liệu 16 1.3.1 Loại bỏ (pruning): 17 1.3.2 Đồng hóa (Quantization) 19 1.3.3 Nén (Compression) 19 1.4 Đánh giá mơ hình ngơn ngữ 19 1.4.1 Entropy – Độ đo thông tin 19 1.4.2 Perplexity – Độ hỗn loạn thông tin 21 1.4.3 MSE - Lỗi trung bình bình phương 22 CHƢƠNG 2: NG DỤNG CỦA MƠ HÌNH NGƠN NGỮ TRONG DỊCH MÁY THỐNG KÊ…… 23 2.1 Dịch máy 23 2.2 Dịch máy thống kê 24 2.2.1 Giới thiệu 24 2.2.2 Nguyên lý thành phần 26 2.2.3 Mơ hình dịch 27 2.2.4 Bộ giải mã 32 2.3 Các phương pháp đánh giá dịch 33 2.3.1 Đánh giá trực tiếp người 33 2.3.2 Đánh giá tự động: phương pháp BLEU 33 CHƢƠNG 3: THỰC NGHIỆM 35 3.1 Cài đặt hệ thống 35 Sinh viên: Lƣu Văn Sơn - CT1102 3.1.1 Cấu hình hệ điều hành 35 3.1.2 Các công cụ sử dụng 35 3.1.3 Các bước huấn luyện dich kiểm tra 36 3.1.4 Chuẩn hóa liệu 36 3.1.5 Xây dựng mô hình ngơn ngữ 36 3.1.6 Xây dựng mơ hình dịch 36 3.1.7 Hiệu chỉnh trọng số 37 3.1.8 Dịch máy 37 3.1.9 Đánh giá kết dịch 37 3.2 Bộ cơng cụ xây dựng mơ hình ngôn ngữ - SRILM: 38 3.2.1 Ngram-count: 38 3.2.2 Ngram: 40 3.3 Bộ công cụ xây dựng mơ hình dịch máy thống kê – MOSES: 41 3.4 Kết thực nghiệm đánh giá N-gram ứng dụng SMT 43 KẾT LUẬN 45 TÀI LIỆU THAM KHẢO 46 Sinh viên: Lƣu Văn Sơn - CT1102 DANH MỤC CHỮ VIẾT TẮT LM: Mô hình ngơn ngữ MKN: Phương pháp làm mịn Kneser-Ney cải tiến MLE: Ước lượng cực đại hóa khả MSE: Lỗi trung bình bình phương MT: Dịch máy SMT: Dịch máy phương pháp thống kê DANH MỤC HÌNH Hình 1.1: Mơ hình Markov bậc 23 Hình 2.2 : Tăng kích cỡ LM cải thiện điểm BLEU 25 Hình 2.3 : Kiến trúc hệ thống SMT 26 Hình 2.4 : Mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 27 Hình 2.5: Sự tương ứng - câu tiếng Anh câu tiếng Pháp 28 Hình 2.6: Sự tương ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh 28 Hình 2.7 : Sự tương ứng - nhiều câu tiếng Anh với câu tiếng Pháp 29 Hình 2.8 : Sự tương ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp 29 Hình 2.9: Minh họa dịch máy thống kê dựa vào cụm từ 30 Hình 2.10: Mơ hình dịch dựa cú pháp 32 Hình 2.11: Sự trùng khớp dịch máy với dịch mẫu 34 DANH MỤC BẢNG Bảng 3.1:Thống kê cụm N-gram với phương pháp làm mịn 43 Bảng 3.2: Kết theo độ đo BLEU đánh giá SMT với mơ hình Ngram khác 43 Sinh viên: Lƣu Văn Sơn - CT1102 Mơ hình ngơn ngữ thành phần quan trọng ứng dụng nhận dạng tiếng nói, phân đoạn từ, dịch thống kê, … Và chúng thường mơ hình hóa sử dụng n-gram Trên giới có nhiều nước cơng bố nghiên cứu mơ hình ngơn ngữ áp dụng cho ngôn ngữ họ Việt Nam, việc nghiên cứu xây dựng mơ hình ngơn ngữ chuẩn cho tiếng Việt mẻ gặp nhiều khó khăn Chính điều gợi ý thúc đẩy lựa chọn tập trung nghiên cứu vấn đề để tạo điều kiện cho việc xử lý ngôn ngữ tiếng Việt vốn vô phong phú chương: Chương 1: : trình bày khái qt lý thuyết mơ hình ngơn ngữ, khó khăn cịn tồn phương pháp khắc phục, trọng tâm nghiên cứu phương pháp làm mịn, Chương 2: kê, , công cụ mã nguồn mở SRILIM để xây dựng mơ hình ngơn ngữ cho tiếng Việt MOSES để dịch máy thống kê, Sinh viên: Lƣu Văn Sơn - CT1102 CHƢƠNG 1: TỔNG QUAN VỀ MƠ HÌNH NGƠN NGỮ Mơ hình ngơn ngữ (Language Model - LM) phân phối xác suất ngữ liệu đơn ngữ, sử dụng nhiều toán khác xử lý ngơn ngữ tự nhiên, ví dụ như: dịch máy phương pháp thống kê, nhận dạng giọng nói, nhận dạng chữ viết tay, sửa lỗi tả, … Thực chất, LM hàm chức có đầu vào chuỗi từ đầu điểm đánh giá xác suất người ngữ nói chuỗi Chính vậy, mơ hình ngơn ngữ tốt đánh giá câu ngữ pháp, trơi chảy cao chuỗi từ có thứ tự ngẫu nhiên, ví dụ sau: P(“hơm trời nắng”) > P(“trời nắng hôm”) 1.1 N-gram Cách thơng dụng dùng để mơ hình hóa ngơn ngữ vào LM thông qua n-gram Với mơ hình n-gram, coi văn bản, đoạn văn chuỗi từ liền kề nhau, w1, w2, …, wn-1, wn, sau phân tích xác suất chuỗi với công thức xác suất kết hợp: P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm|w1w2…wm-1) từ liên quan có điều kiện tới tồn từ trước (ta gọi lịch sử kiện từ đó) Tuy nhiên, việc sử dụng toàn từ trước để đốn nhận từ khơng thể thực hai nguyên nhân sau Đầu tiên phương pháp khơng khả thi mặt tính toán tốn nhiều thời gian, tài nguyên hệ thống cho lần dự đoán Hai là, nhiều trường hợp, sau duyệt vài từ lịch sử, ta nhận thấy câu chưa gặp trước Bởi kể biết toàn lịch sử từ, xác suất khơng biết Thay vào đó, mơ hình ngơn ngữ thường ước lượng tương đối xác suất dựa giả định Markov (hay mơ hình Markov ẩn), từ chịu ảnh hưởng từ vài từ trước Một mơ hình Markov bậc n giả định n từ trước có liên hệ ngữ cảnh với từ cần xác định Việc định từ trước mà LM quan tâm gọi bậc n (order) LM, thường gọi 1-gram (unigram), 2-gram (bigram), 3-gram (trigram), 4-gram (fourgram) tương ứng với mơ hình Markov bậc một, hai, ba, bốn Sinh viên: Lƣu Văn Sơn - CT1102 Ví dụ, muốn ước lượng xác suất 2-gram từ wi với mơ hình Markov bậc dựa hai từ trước đó:P(w1,w2,…,wi)=P(wi/wi2,wi-1) wi-3 wi-2 wi-1 wi wi+1 Hình 1.1: Mơ hình Markov bậc Một cách tổng quát, xác suất xuất từ (wm) coi phụ thuộc vào n từ đứng liền trước (wm-nwm-n+1…wm-1) khơng phải phụ thuộc vào toàn dãy từ đứng trước (w1w2…wm-1) Như vậy, cơng thức tính xác suất văn tính lại theo công thức: P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm-1|wm-n-1wm-n …wm-2)* P(wm|wm-nwm-n+1…wm-1) 1.2 Xây dựng mơ hình ngơn ngữ Để xây dựng (huấn luyện) mơ hình ngôn ngữ ta cần ngữ liệu đơn ngữ (corpus) có kích thước tương đối ước lượng thống kê có nhiệm vụ mơ hình hóa lượng xác suất ngữ liệu Các ước lượng mà LM sử dụng, theo cách khác nhau, cần đến tần suất n-gram, cần phải đếm số lần xuất n-gram từ 1-gram số bậc mơ hình huấn luyện 1.2.1 Ƣớc lƣợng cực đại hóa khả (MLE) Chúng ta sử dụng kết đếm n-gram để xây dựng mơ hình ước lượng cực đại hóa khả (Maximium Likelihood Estimation - MLE) với tần suất tương đối n-gram ngữ liệu Với MLE, xác suất unigram định xuất đơn giản tần suất xuất ngữ liệu c(wi‟) = |wi‟| số lần xuất từ wi‟ ngữ liệu Phương pháp gọi cực đại hóa giá trị đầu để mơ hình hóa ngữ liệu huấn luyện Ví dụ, ngữ liệu Brown, ngữ liệu với triệu Sinh viên: Lƣu Văn Sơn - CT1102 từ, từ khóa “Chinese” xuất 400 lần Vậy xác suất mà mơ hình ngơn ngữ dùng MLE gán cho unigram “Chinese” Xác suất điều kiện n-gram tổng quát với bậc > là: tức tần suất từ thường xuyên xuất sau lịch sử có bậc n-1 Để minh họa, ta tiếp tục ví dụ trên, xác suất bigram “Chinese food” xuất số lần từ “food” xuất sau từ “Chinese” chia cho c(Chinese) = 400 Trong ngữ liệu Brown, cụm từ “Chinese food” xuất 120 lần, nên: PMLE(food|Chinese) = 0.3 1.2.2 Các phƣơng pháp làm mịn Tuy MLE phương pháp dễ hiểu, dễ sử dụng để ước lượng xác suất cho mơ hình, thực tế ta gặp phải vấn đề liệu thưa (data sparseness problem) Tức tập ngữ liệu dùng để xây dựng LM dù lớn đến mấy, tập hữu hạn câu vô số câu ngơn ngữ tự nhiên Do LM sử dụng MLE gán xác suất cho nhiều n-gram tốt Để giảm thiểu vấn đề này, người ta thường không sử dụng MLE mà thay vào phương pháp ước lượng xác suất thống kê phức tạp Các phương pháp gọi làm mịn (smoothing) hay trừ hao (discounting), mà phần xác suất từ kiện mơ hình dành cho kiện chưa xuất Việc lấy từ trừ hao đề tài nghiên cứu nhiều Ví dụ, cách cổ điển làm mịn phương pháp Add-one smoothing, phương pháp này, ta thêm lượng l vào kết đếm số lần xuất từ vựng ngữ liệu Hai khái niệm quan trọng sử dụng q trình làm mịn mơ hình ngơn ngữ backoff interpolation Khi LM gặp n-gram chưa biết, việc tính xác suất sử dụng thông tin từ (n-1)-gram, kiện (n-1)-gram chưa xuất trình huấn luyện LM lại sử dụng thông tin xác suất từ (n-2)gram, … Và tiếp tục tính xác suất n-gram Q trình gọi backoff định nghĩa sau: Sinh viên: Lƣu Văn Sơn - CT1102 i Trong hệ số trừ hao dựa tần suất xuất w i n lịch sử tham số backoff Khi số lượng từ vựng đủ lớn, cần gán xác suất cho số từ từ điển (out of vocabulary - OOV) mức unigram Chẳng hạn ta có từ điển chuyên ngành không muốn chia sẻ lượng xác suất từ vựng (các danh từ chung, số thực đặc biệt, …) cho OOV Một cách khác làm mịn LM dành lượng xác suất nhỏ gán cho từ từ điển mức unigram Phương pháp Interpolation kết hợp thông tin thống kê n-gram qua tất bậc LM Nếu bậc LM n cơng thức đệ quy interpolation sau: P(wi|wi-n+1 wi-1) = P(wi|wi-n+1 wi-1) + (1- )P(wi|wi-n+2 wi-1) Trong trọng số định bậc LM có ảnh hưởng lớn đến giá trị đầu Tổng trọng số sử dụng cho tất bậc n-gram Có nhiều cách để xác định giá trị cho trọng số này, phương pháp interpolation đơn giản giá trị giảm theo số bậc n-gram Tuy nhiên thường chúng tính tốn tùy theo điều kiện ngữ cảnh cụ thể, tức theo tần suất bậc n-gram lịch sử Các trọng số khơng tính tốn từ liệu huấn luyện, mà sử dụng tập liệu held-out riêng biệt – tập dùng để huấn luyện tham số, mà trường hợp giá trị Cần phải nhận thấy khác biệt hai phương pháp interpolation sử dụng thông tin từ bậc thấp liệu xác suất n-gram cần tính khác 0; backoff lại tìm kiếm đến liệu khác gần Những tiểu mục phần trình bày số phương pháp làm mịn phổ biến Chiết khấu (Discounting): giảm (lượng nhỏ) xác suất cụm Ngram có xác suất lớn để bù cho cụm Ngram không xuất tập huấn luyện Truy hồi (Back-off) : tính tốn xác suất cụm Ngram không xuất tập huấn luyện dựa vào cụm Ngram ngắn có xác suất lớn Nội suy (Interpolation): tính tốn xác suất tất cụm Ngram dựa vào xác suất cụm Ngram ngắn Sinh viên: Lƣu Văn Sơn - CT1102 10 1.2.2.1 Các thuật toán chiết khấu (Discounting) Nguyên lý thuật toán chiết khấu giảm xác suất cụm Ngram có xác suất lớn để bù cho cụm Ngram chưa xuất tập huấn luyện Các thuật toán trực tiếp làm thay đổi tần số xuất tất cụm Ngram Ở đề cập đến thuật toán chiết khấu phổ biến: Thuật toán Add-one Phương pháp làm mịn add-one cộng thêm vào tần số xuất tất cụm N-gram nhân với phân số chuẩn hóa (để bảo tồn tổng xác suất) P(wi|wi-n+1 wi-1) = C(wi-n+1 wi-1wi) + C(wi-n+1 wi-1) + V Trong V kích thước từ vựng Chúng ta thấy thuật tốn làm thay đổi đáng kể xác suất cụm Ngram xuất tập huấn luyện kích thước từ điển V lớn Trong thực nghiệm, vài cụm Ngram có xác suất giảm gần 10 lần, kích thước từ điển lớn tần số xuất cụm Ngram khơng cao Để thuật tốn thêm hiệu quả, người ta sử dụng công thức sau: P(w1w2 wn) = Trong C(w1w2 wn) + C(w1w2 wn-1) + M chọn khoảng [0, 1], với số giá trị thông dụng sau: = 0: không làm mịn (MLE) = 1: phương pháp add-one = : gọi phương pháp Jeffreys – Perks Và M cụm N-gram có VN Thuật tốn Witten-Bell Thuật toán Witten-Bell hoạt động dựa nguyên tắc: Khi gặp cụm N-gram có tần số 0, ta coi lần cụm từ xuất Như vậy, xác suất cụm N-gram có tần số tính dựa vào xác suất gặp cụm N-gram lần Với unigram, gọi T số cụm unigram khác xuất hiện, M tổng số cụm unigram thống kê, tổng số kiện (T+M), xác suất để Sinh viên: Lƣu Văn Sơn - CT1102 32 Hình 2.10: Mơ hình dịch dựa cú pháp 2.2.4 Bộ giải mã Như trình bày phần trên, nhiệm vụ giải mã là: cho trước câu ngơn ngữ nguồn f, tìm câu ngơn ngữ đích e tốt dịch từ f Câu ngơn ngữ đích e tốt câu làm cho giá trị P(f|e)*P(e) lớn Bộ giải mã phát triển cho mơ hình dịch cụm từ giới thiệu Marcu Wong, sử dụng phương pháp leo đồi Do khơng gian tìm kiếm lớn, nên giải mã mơ hình dịch máy thống kê thường áp dụng thuật toán tìm kiếm tối ưu Thuật tốn mà giải mã thường áp dụng có tên A*, phương pháp tìm kiếm tốt - đầu tiên.Giải thuật A* tóm tắt sau: bước mở rộng khơng gian tìm kiếm, ta sử dụng hàm ước lượng, đánh giá trọng số để kết tìm ln tốt kết tìm thấy Ngữ liệu sau qua mơ hình ngơn ngữ mơ hình dịch ta bảng xác suất cho thông số tương ứng Vấn đề tìm tích số P(e)P(v|e) lớn Có hai thuật giải thuật tốn tối ưu cho mơ hình tìm kiếm: thuật giải tìm kiếm tham lam, thuật giải tìm kiếm dựa ngăn xếp, thuật tốn tìm kiếm Sinh viên: Lƣu Văn Sơn - CT1102 33 theo chu trình Hamilton tối ưu Hai thuật giải có thời gian nhanh xử lý nhanh thuật toán kết thấp thuật toán Bộ giải mã thực tìm kiếm theo chùm (beam search) tương tự công việc Tillmann Och Bắt đầu việc định nghĩa khái niệm lựa chọn dịch mô tả chế hoạt động beam search thành phần cần thiết ước lượng giá trị tương lai khái niệm sinh danh sách n-best 2.3 Các phƣơng pháp đánh giá dịch Đánh giá độ xác hệ thống dịch máy nhiệm vụ vất vả khó khăn Để đánh giá độ xác dịch, ta đánh giá trực tiếp thông qua người dùng đánh giá tự động máy tính 2.3.1 Đánh giá trực tiếp ngƣời Để đánh giá độ xác hệ thống dịch máy, ta để người trực tiếp đánh giá Chúng ta đưa thước đo cho độ trôi chảy dịch (ví dụ từ đến hay từ đến 10 tùy thuộc vào độ trôi chảy dịch), sau cho người tham gia đánh giá đánh giá câu dịch theo thang điểm Như vậy, văn có điểm trung bình cao, chất lượng dịch tốt Ngồi ra, đánh giá độ trơi chảy, độ xác dịch thơng qua thời gian mà người đọc đọc hiểu dịch Rõ ràng, dịch mà người đọc đọc hiểu nhanh, dịch xác Phương án đánh giá dịch người dễ thực hiện, chi phí lớn, dịch có kích thước lớn phương pháp hiệu Ngày nay, mô hình dịch máy áp dụng phương pháp đánh giá tự động, chi phí thấp hiệu cao 2.3.2 Đánh giá tự động: phƣơng pháp BLEU BLEU(Bilingual Evaluation Understudy) thuật toán để đánh giá chất lượng văn máy dịch từ ngơn ngữ tự nhiên khác Ý tưởng phương pháp so sánh kết dịch tự động máy với dịch mẫu người, dịch máy giống với dịch mẫu người dịch xác Việc so sánh thực thông qua việc thống kê trùng khớp từ hai dịch có tính đến thứ tự chúng câu (phương pháp n-grams theo từ) Sinh viên: Lƣu Văn Sơn - CT1102 34 Trong ví dụ hình 2.10, có hai dịch máy đem so sánh với ba dịch mẫu người Có thể thấy rằng, dịch thứ máy có nhiều từ chung (đóng khung) với dịch mẫu dịch máy thứ hai, nên theo phương pháp kết luận : dịch máy thứ xác dịch máy thứ hai Hình 2.11: Sự trùng khớp dịch máy với dịch mẫu Với dịch máy dịch mẫu thứ n, phương pháp BLEU trước tiên thống kê số lần tối thiểu cụm Ngram xuất cặp câu (câu dịch máy câu dịch mẫu), sau đem tổng chia cho tổng số cụm Ngram toản dịch máy Tỉ lệ trùng khớp dịch máy dịch mẫu thứ n tính theo cơng thức : Pn = số lượng tối thiểu cụm w có mẫu s dịch máy w s s dịch máy s số lượng cụm n-gram w dịch máy w Trong s câu dịch máy, w cụm ngram có câu s Điểm BLEU đánh giá dịch máy với n dịch mẫu tính theo cơng thức : BLEU = BP * ( N i=N log pi) i=1 Trong : c>r BP = e(1-r/c) với c

Định dạng
Số trang	46
Dung lượng	0,97 MB