Nghiên cứu mô hình ngôn ngữ NGRAM cho tiếng Việt và ứng dụng sửa lỗi dấu thanh trong tiếng Việt

77 38 0
Nghiên cứu mô hình ngôn ngữ NGRAM cho tiếng Việt và ứng dụng sửa lỗi dấu thanh trong tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC ĐẠI CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG VŨ CHÍ HIẾU VŨ CHÍ HIẾU NGHIÊNCỨU CỨUMƠ MƠHÌNH HÌNHNGƠN NGÔNNGỮ NGỮN-GRAM N-GRAMCHO CHOTIẾNG TIẾNG NGHIÊN VIỆTVÀ VÀỨNG ỨNGDỤNG DỤNGSỬA SỬALỖI LỖIDẤU DẤUTHANH THANHTRONG TRONGTIẾNG TIẾNG VIỆT VIỆT VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Giáo viên hướng dẫn: TS VŨ TẤT THẮNG Thái Nguyên - 2016 Thái Nguyên – 2016 LỜI CAM ĐOAN Tôi xin cam đoan, toàn nội dung liên quan tới đề tài trình bày luận văn thân tơi tự tìm hiểu nghiên cứu, hướng dẫn khoa học TS Vũ Tất Thắng Viện công nghệ thông tin thuộc Viện Khoa học Công nghệ Việt Nam Các tài liệu, số liệu tham khảo trích dẫn đầy đủ nguồn gốc Thái Nguyên, ngày 20 tháng năm 2016 Học viên Vũ Chí Hiếu LỜI CẢM ƠN Tôi xin gửi lời cảm ơn tới trường Đại học CNTT&TT – Đại học Thái Nguyên tạo điều kiện tổ chức khóa học để tơi có điều kiện tiếp thu kiến thức có thời gian để hồn thành Luận văn Cao học Tôi xin cảm ơn TS.Vũ Tất Thắng, người tận tình dẫn tơi suốt q trình xây dựng đề cương hồn thành luận văn Tôi xin chân thành cảm ơn thày cô truyền đạt cho em kiến thức quý báu q trình học Cao học làm Luận văn Tơi chân thành cảm ơn bạn bè, anh chị em lớp cao học K13 giúp đỡ, đóng góp ý kiến chia kinh nghiệm học tập, nghiên cứu suốt khóa học Cuối tơi kính gửi thành đến gia đình người thân tơi, người hết lịng chăm sóc, dạy bảo động viên tơi để tơi có kết ngày hơm Mặc dù tơi cố gắng hồn thành Luận văn phạm vi khả cho phép chắn khơng tránh khỏi thiếu sót Xin kính mong nhận cảm thơng tận tình bảo quý Thầy Cô bạn Thái Nguyên, ngày 20 tháng năm 2016 Học viên Vũ Chí Hiếu MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii LỜI NÓI ĐẦU CHƯƠNG I: MƠ HÌNH NGƠN NGỮ N-GRAM 1.1 Giới thiệu chung: 1.2 Cơng thức tính “xác suất thô”: 1.3 Vấn đề khó khăn xây dựng mơ hình ngơn ngữ N-gram: 1.3.1 Phân bố khơng đều: 1.3.2 Kích thước nhớ mơ hình ngơn ngữ: 1.4 Các phương pháp làm mịn: .6 1.4.1 Các thuật toán chiết khấu (discounting): 1.4.1.1 Phương pháp làm mịn Add-One: 1.4.1.2 Phương pháp làm mịn Witten - Bell: 1.4.1.3 Phương pháp làm mịn Good - Turing: .10 1.4.2 Phương pháp truy hồi: .10 1.4.3 Phương pháp nội suy: 12 1.4.4 Phương pháp làm mịn Kneser - Ney: 13 1.4.5 Phương pháp làm mịn Chen - GoodMan: 14 1.5 Kỹ thuật làm giảm kích thước liệu: 15 1.5.1 Đồng hóa (Quantization): .16 1.5.2 Loại bỏ (pruning): 16 1.5.2.1 Cắt bỏ (cut-off): .17 1.5.2.2 Sự khác biệt trọng số (Weighted difference): .18 1.5.3 Nén (Compression): 19 1.6 Độ đo đánh giá mơ hình: .19 1.6.1 Entropy - Độ đo thông tin: .19 1.6.2 Perplexity - Độ hỗn loạn thông tin: .21 1.6.3 Error rate - Tỉ lệ lỗi: 22 CHƯƠNG II: XÂY DỰNG N-GRAM CHO TIẾNG VIỆT 23 2.1 Giới thiệu: 23 2.2 Công cụ tách từ cho tiếng Việt - vnTokenizer: .23 2.3 Bộ công cụ SRILM: .27 2.3.1 N-gram-count: 27 2.3.2 N-gram: 29 2.4 Bộ công cụ trợ giúp xây dựng tập văn huấn luyện: .30 2.5 Phương pháp tách câu, tách từ, gán nhãn từ loại phân tích cú pháp: .31 2.5.1 Tách câu: 31 2.5.2 Tách từ: .33 2.5.3 Gán nhãn từ loại: 36 2.5.4 Phân tích cú pháp: 38 2.6 Dữ liệu huấn luyện: 39 2.7 Kết xây dựng mơ hình: 39 2.7.1 Số lượng cụm N-gram với tiếng Việt dựa âm tiết: 39 2.7.2 Số lượng cụm N-gram với tiếng Việt dựa từ: .41 2.8 Phân bố thống kê tần số cụm N-gram: 42 2.8.1 Với âm tiết 42 2.8.2 Với từ: 43 2.9 Phương pháp loại bỏ (Cut-off ): 44 2.9.1 Với âm tiết 44 2.9.2.Với từ: 45 2.10 Các phương pháp làm mịn: 45 2.10.1 Với âm tiết: .46 2.10.2 Với từ: .46 CHƯƠNG III: ỨNG DỤNG N-GRAM TRONG BÀI TOÁN BÀI TOÁN SỬA LỖI DẤU THANH TRONG TIẾNG VIỆT 48 3.1 Tổng quan: 48 3.2 Bài toán sửa lỗi dấu tiếng Việt: 49 3.2.1 Phát biểu toán: .49 3.2.2 Đặc điểm: 49 3.2.3 Hướng giải quyết: .50 3.3 Các hệ thống thêm dấu ứng dụng N-gram có: 50 3.3.1 Công cụ AMPad: 50 3.3.2 VietPad: .51 3.4 Đề xuất hệ thống: 52 3.5 Cài đặt thử nghiệm đánh giá hệ thống .55 KẾT LUẬN 58 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 60 DANH MỤC Ả Hình - 1: Quy trình tách từ 23 Hình - 2: Số lượng cụm N-gram với âm tiết tăng kích thước liệu 38 Hình - 3: số lượng cụm N-gram với từ tăng kích thước liệu 39 Hình - 4: Số lượng cụm N-gram (âm tiết) có tần số từ đến 10 41 Hình - 5: Số lượng cụm Ngram (từ) có tần số từ đến 10 42Y Hình - 1: Thêm dấu tiếng Việt tự động AMPad 49 Hình - 2: Gõ tiếng Việt khơng dấu VietPad 50 Hình - 3: Lưu đồ thực mơ hình đề xuất 51 Hình - 4: Giao diện chương trình 55 Hình - 5: Chương trình thực văn đầu vào hồn tồn khơng có dấu 56 Hình - 6: Chương trình thực văn đầu vào có từ có dấu xen kẽ 56 DANH MỤC BẢNG BIỂU Bảng 2- 1: Số lượng cụm N-gram văn huấn luyện với âm tiết 37 Bảng 2- 2: Số lượng cụm N-gram văn huấn luyện với từ 39 Bảng 2- 3: Tần số tần số cụm N-gram áp dụng cho âm tiết 40 Bảng 2- 4: Tần số tần số cụm Ngram với từ .41 Bảng 2- 5: Bộ nhớ độ hỗn loạn thông tin áp dụng loại bỏ âm tiết 43 Bảng 2- 6: Bộ nhớ độ hỗn loạn thông tin áp dụng loại bỏ với từ 43 Bảng 2- 7: Độ hỗn loạn thông tin phương pháp làm mịn cho âm tiết 44 Bảng 2- 8: Độ hỗn loạn thông tin phương pháp làm mịn cho từ .44 53 Trong đa số trường hợp, người đọc văn phải nội suy dấu tương ứng đoạn văn không dấu, cố gắng hiểu ý nghĩa chuyển tải đoạn văn dựa theo ngữ cảnh văn Đối với hệ thống xử lí văn tự động nhập nhằng khó giải quyết, đặc biệt hệ thống phân tích cú pháp, hệ thống tìm kiếm, hệ thống dịch tự động, … Để giải toán đặt sử dụng phương pháp nghiên cứu chương để xây dựng ứng dụng thử nghiệm sử dụng mơ hình ngơn ngữ N-gram để tính tốn khả thêm sửa lỗi dấu với xác suất cao nhất, giúp máy tính tự động thêm sửa lỗi dấu cho văn không dấu lỗi dấu tiếng Việt 3.2 Bài toán sửa lỗi dấu tiếng Việt: 3.2.1 Phát biểu toán: Bài toán phát biểu sau: Input: Cho văn tiếng Việt không dấu, sử dụng từ điển từ kho liệu thô làm đầu vào Các văn tiếng Việt có mã Unicode Output: Chuyển văn khơng dấu thành có dấu với độ xác cao 3.2.2 Đặc điểm: Chữ viết tiếng Việt có đặc điểm đặc biệt xuất dấu dấu ký tự từ Tiếng Việt có điệu văn dấu ký tự làm phong phú thêm cho ngôn ngữ tiếng Việt, tăng độ biểu cảm tiếng Việt Dấu thành phần thiếu âm tiết tiếng Việt Khi loại bỏ dấu thanh, việc hiểu nghĩa từ, gồm hay nhiều âm tiết kết hợp với trở nên khó khăn dễ hiểu nhầm nghĩa tiếng Việt Để thêm dấu, trước tiên ta cần phải xác định ranh giới từ Bài toán xác định ranh giới từ văn tiếng Việt có dấu vấn đề khó, điều khơng có dấu việc nhận ranh giới từ trở nên khó 54 khăn hơn.Trong tiếng Việt, tiếng hay gọi âm tiết phân cách khoảng trắng từ Sau nhận ranh giới từ, ta cần phải xác định cho từ có dấu có dạng thể không dấu Việc xác định khơng khó khăn từ khơng dấu có nhiều từ có dấu tương ứng với Ví dụ: Từ khơng dấu “toi” có nhiều từ có dấu tương ứng “tơi”, “tối”, “tới” Do đó, sau giải xong tốn tách từ tiếng Việt không dấu, ta cần phải giải thêm tốn xác định từ có dấu thích hợp với từ khơng dấu Đây hướng giải toán đặt cho luận văn 3.2.3 Hướng giải quyết: Đối với tách từ có dấu, có nhiều mơ hình sử dụng đạt kết tốt MM (Maximum Mactching: forward/backward hay gọi LRMM (Left Right Maximum Matching) mạng chuyển dịch trạng thái hữu hạn có trọng số WFST (Weighted finite-state Transducer); giải thuật dựa nén (compression) Hướng giải đề xuất sử dụng phương pháp tách từ LRMM kết hợp với mơ hình Bi-gram giải hiệu vấn đề toán 3.3 Các hệ thống thêm dấu ứng dụng N-gram có: 3.3.1 Cơng cụ AMPad: AMPad chương trình chuyển đổi loại tiếng Việt khơng dấu sang tiếng Việt có dấu thuộc dạng chuyên nghiệp Thực chất nâng cấp chương trình “AutoMark” tác giả Trần Triết Tâm Cục thống kê Đà Nẵng tung trước AMPad có thể chuyển đổi xác đến khoảng 80% đoạn văn dạng luận xã hội, khoa học thường thức… 55 sách báo “chào thua”, tức đoán sai đến 50% câu văn thuộc dạng chuyên ngành sâu, lĩnh vực văn học, thơ ca… với cấu trúc câu vốn phức tạp ngữ nghĩa Hình - 1: Thêm dấu tiếng Việt tự động AMPad 3.3.2 VietPad: VietPad trình soạn thảo hỗ trợ tiếng Việt Unicode, phát triển Quân Nguyễn nhóm phát triển http://www.VietPad.sourceforge.net Ngoài chức thêm dấu tự động online mà văn nghiên cứu, VietPad trình soạn thảo tiếng Việt hỗ trợ tốt Unicode mã nguồn mở a) Tiền xử lý Chuẩn hóa văn theo định dạng mà VietPad quy định b) Tách token: VietPad không tách câu mà tách token mơ token gồm chuỗi ký tự ký tự (:,.;”@#$ ) hay chuỗi ký tự “chữ” tiếng Việt c) Lấy từ không dấu, chuyển thành có dấu: Với phương pháp tách token đơn giản trên, thêm phương 56 pháp tách từ LRMM (từ có tối đa tiếng), VietPad lấy từ không dấu, sau thơng qua từ điển ánh xạ 1-1 từ khơng dấu từ có dấu (từ điển chuyển đổi) để chuyển từ khơng dấu sang có dấu Hình - 2: Gõ tiếng Việt khơng dấu VietPad Hình 3.3 Văn sau thực chức thêm dấu VietPad 3.4 Đề xuất hệ thống: Căn vào mơ hình N-gram, cụ thể Bigram dựa vào ý tưởng việc thống kê cụm tiếng, luận văn đề xuất mơ hình thêm dấu tự động sau: 57 Bắt đầu Tiền xử lý Tách câu Tách từ Tập từ có khả thêm dấu Từ điển chuyển đổi Chọn từ thích hợp Xuất hình Hình - 3: Lưu đồ thực mơ hình đề xuất * Tiền xử lý: Chuẩn hóa văn theo quy định * Tách câu: Sử dụng phương pháp tách câu Heuristic nêu chương 2, phần 2.5 mục 2.5.1 Qua phương pháp tách câu trên, ta phân biệt số trường hợp đặc biệt dấu chấm câu “.” từ viết tắt (Mr, Mrs, ), địa email (hieuvuhb@gmail.com), địa URL 58 (https://www.google.com.vn), số (1.000.000), đầu bước cho tập câu đầu vào bước sau * Tách từ phương pháp LRMM: Ta dùng phương pháp tách từ LRMM tách từ không dấu câu Theo phương pháp này, ta duyệt câu từ trái sang phải chọn từ có nhiều âm tiết có mặt từ điển, thể tiếp tục cho từ đến hết câu Dạng đơn giản dùng giải nhập nhằng từ đơn Giả sử có chuỗi kí tự (tương đương với chuỗi tiếng tiếng Việt) C1, C2, Ta đầu chuỗi, ta kiểm tra xem C1 có phải từ hay khơng sau kiểm tra xem C1C2 có phải từ hay khơng Tiếp tục tìm tìm từ dài Từ dài từ hợp lí Chọn từ đó, sau tìm tiếp cho từ lại xác định toàn chuỗi từ Dạng phức tạp: Quy tắc dạng phân đoạn, hợp lí đoạn từ với chiều dài tối đa Thuật toán ban đầu dạng đơn giản Nếu phát cách tách từ gây nhập nhằng (ví dụ, C từ C1C2 từ), ta xem chữ để tìm tất đoạn từ có ban đầu với C1 C1C2 Ví dụ, ta đoạn sau: C1 C C C4 C1C2 C3C4C5 C1C2 C3C4C5C6 59 Chuỗi dài chuỗi thứ 3, từ chuỗi thứ (C1C2) chọn Thực lại bước chuỗi từ hoàn chỉnh Ưu điểm: - Với phương pháp này, ta dễ dàng tách xác ngữ/câu “hợp tác xã||mua bán”, “thành lập||nước|| Việt Nam||dân chủ||cộng hòa” - Cách tách từ đơn giản, nhanh, cần dựa vào từ điển Hạn chế: - Độ xác phương pháp phụ thuộc hồn tồn vào tính đủ, tính xác từ điển - Phương pháp tách từ sai trường hợp “học sinh ||học sinh||học”; “một||ông||quan tài||giỏi”; “trước||bàn là||một||ly||nước” * Lý chọn phương pháp là: - Cài đặt phương pháp đơn giản, thời gian khơng gian xử lí ít, lại khơng đòi hỏi kho ngữ liệu huấn luyện gán nhãn ranh giới từ, độ xác LRMM không thấp, sai số tách sai từ chấp nhận tách từ khơng dấu * Chọn từ thích hợp Với từ điển chuyển đổi Map.txt, ta có ánh xạ 1-1 để chuyển từ khơng dấu thành có dấu Mơ hình huấn luyện Như trình bày trên, cốt lõi vấn đề tập tin từ điển huấn luyện N_gramDict.txt Tập tin chứa tần 60 suất nhóm âm tiết xuất văn tiếng việt Ngồi mơ hình huấn luyện sử dụng phương pháp làm mịn khác mơ hình ngơn ngữ N-gram như: Add-one, Witten-Bell, Good-Turing với phương pháp làm trơn hóa mơ hình giúp việc thêm dấu xác 3.5 Cài đặt thử nghiệm đánh giá hệ thống Chương trình xây dựng ngơ ngữ Java, tâp liệu tập văn (.txt) thử nghiệm hệ điều hành Windows 10, máy tính PC core i7 tốc độ 3.40GHz, nhớ 8GB RAM Hình - 4: Giao diện chương trình 61 Hình - 5: Chương trình thực văn đầu vào hồn tồn khơng có dấu Hình - 6: Chương trình thực văn đầu vào có từ có dấu xen kẽ 62 Hình - 7: Mở tệp văn để thêm dấu 63 Hình - 8: Chương trình sửa dấu tập văn Với liệu thử nghiệm văn ngẫu nhiên lấy từ trang báo http://dantri.com.vn, em so sánh kết thêm dấu chương trình với phần mềm VietPad, AMPad thu kết sau: Tổng số tiếng Tổng số tiếng Tỉ lệ 6.828 5.685 83,26% VietPad 6.828 5.810 85,09% AMPad 6.828 5.798 84,92% CT xuất đề 64 KẾT LUẬN Các toán xử lý văn tiếng Việt ln tốn khó hay hữu ích, quan tâm nghiên cứu nhiều nước ta Trong luận văn này, em trình bày vấn đề bản, khó khăn thách thức, bối cảnh tốn thêm dấu vào văn tiếng Việt không dấu Đây tốn hay lĩnh vực Xử lý ngơn ngữ tự nhiên Các kết đạt luận văn: Hiểu vấn đề tổng quan Xử lý ngơn ngữ tự nhiên Tìm hiểu đặc trưng ngôn ngữ tiếng Việt, đặc biệt đặc điểm từ tiếng Việt, từ làm tiền đề cho nghiên cứu định hướng tốn tách từ tiếng Việt Tìm hiểu cụ thể tốn thêm dấu vào văn tiếng Việt khơng dấu, nắm khó khăn việc nhận dạng từ tiếng Việt, bối cảnh toán sửa lỗi dấu Tìm hiểu số phương pháp tách từ tiếng Việt để áp dụng vào toán sửa lỗi dấu cho văn tiếng Việt Xây dựng thành công ứng dụng sửa lỗi dấu cho văn tiếng Việt 65 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Bài toán thêm dấu cho tiếng Việt khơng dấu dựa mơ hình ngơn ngữ tốn Vì thế, tốn cách giải cịn giai đoạn hồn thiện Trong q trình xây dựng mơ hình ngơn ngữ, đặc biệt mơ hình ngơn ngữ N-gram cịn nhiều khó khăn, địi hỏi người lập trình phải đầu tư nhiều thời gian công sức Đây mơ hình ngơn ngữ, thứ nhất, đem lại nhiều ứng dụng thiết thực thực tế, thứ hai, tiếp cận phương pháp phổ biến phương pháp thống kê tần số xuất từ, nên thu hút quan tâm nhiều người Trong trinh tách từ, thực tế không tránh khỏi việc xuất từ (các từ không định nghĩa từ điển) Đây vấn đề bỏ qua ngôn ngữ tự nhiên luôn thay đổi sinh từ mới, từ điển (để xử lí ngơn ngữ tự nhiên) cập nhật hết Các nghiên cứu tiếng Nhật tiếng Trung xử lí vấn đề tốt Với gần gũi ngữ pháp đặc điểm ngơn ngữ, ta ứng dụng nghiên cứu tiếng Việt Như nhiều việc phải làm Trong tương lai, nhiều người khai thác lĩnh vực có mơ hình ngơn ngữ hoàn hảo hơn, sử dụng liệu lớn để tăng độ xác cho chương trình, đóng góp vào kho tàng tri thức nhân loại 66 Tác giả mong muốn tiếp tục nghiên cứu, phát triển để đưa kết ứng dụng vào thực tế… 67 TÀI LIỆU THAM KHẢO Tiếng Việt [1] TS Đinh Điền Giáo trình xử lý ngơn ngữ tự nhiên, Khoa Công nghệ Thông tin Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh, Tháng 12 - 2004 [2] Lưu Tuấn Anh (2015) Vietnamese Natural Language Processing http://viet.jnlp.org/ [3] GS Hoàng Phê (2003) Từ điển tiếng Việt Trung tâm từ điển học, NXB Đà Nẵng Tiếng Anh [4] Entropy-based Pruning of Backoff Language Models, Andreas Stolcke, Speech Technology And Research Laboratory SRI International By http://www.itl.nist.gov/ [5] Daniel Jurafsky &James H Martin (2006) N-gram [6] William A Gale Good-Turing Smoothing Without Tears AT&T Bell Laboratories ... CHÍ HIẾU NGHIÊNCỨU CỨUMƠ MƠHÌNH HÌNHNGƠN NGƠNNGỮ NGỮN-GRAM N-GRAMCHO CHOTIẾNG TIẾNG NGHIÊN VIỆTVÀ V? ?ỨNG ỨNGDỤNG DỤNGSỬA SỬALỖI LỖIDẤU DẤUTHANH THANHTRONG TRONGTIẾNG TIẾNG VIỆT VIỆT VIỆT Chuyên... .46 CHƯƠNG III: ỨNG DỤNG N-GRAM TRONG BÀI TOÁN BÀI TOÁN SỬA LỖI DẤU THANH TRONG TIẾNG VIỆT 48 3.1 Tổng quan: 48 3.2 Bài toán sửa lỗi dấu tiếng Việt: 49 3.2.1 Phát... tới việc đưa ứng dụng cụ thể mơ hình cho tiếng Việt, mà cụ thể toán sửa lỗi dấu tiếng Việt 3 CHƯƠNG I: MƠ HÌNH NGƠN NGỮ N-GRAM 1.1 Giới thiệu chung: Mơ hình ngơn ngữ thống kê cho phép gán (ước

Ngày đăng: 21/12/2021, 15:02

Từ khóa liên quan

Mục lục

  • LỜI CAM ĐOAN

  • LỜI CẢM ƠN

  • DANH MỤC Ả

  • DANH MỤC BẢNG BIỂU

  • LỜI NÓI ĐẦU

  • CHƯƠNG I: MÔ HÌNH NGÔN NGỮ N-GRAM

    • 1.1. Giới thiệu chung:

    • 1.2. Công thức tính “xác suất thô”:

    • 1.3. Vấn đề khó khăn khi xây dựng mô hình ngôn ngữ N-gram:

      • 1.3.1. Phân bố không đều:

      • 1.3.2. Kích thước bộ nhớ của mô hình ngôn ngữ:

      • 1.4. Các phương pháp làm mịn:

        • 1.4.1. Các thuật toán chiết khấu (discounting):

          • 1.4.1.1. Phương pháp làm mịn Add-One:

          • 1.4.1.2. Phương pháp làm mịn Witten - Bell:

          • 1.4.1.3. Phương pháp làm mịn Good - Turing:

          • 1.4.2. Phương pháp truy hồi:

          • 1.4.3. Phương pháp nội suy:

          • 1.4.4. Phương pháp làm mịn Kneser - Ney:

          • 1.4.5. Phương pháp làm mịn Chen - GoodMan:

          • 1.5. Kỹ thuật làm giảm kích thước dữ liệu:

            • 1.5.1. Đồng hóa (Quantization):

            • 1.5.2. Loại bỏ (pruning):

              • 1.5.2.1. Cắt bỏ (cut-off):

              • 1.5.2.2. Sự khác biệt trọng số (Weighted difference):

              • 1.5.3. Nén (Compression):

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan