Nghiên cứu mô hình ngôn ngữ n gram cho tiếng việt và ứng dụng sửa lỗi dấu thanh trong tiếng việt

70 367 0
Nghiên cứu mô hình ngôn ngữ n   gram cho tiếng việt và ứng dụng sửa lỗi dấu thanh trong tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN & TRUYỀN THƠNG VŨ CHÍ HIẾU NGHIÊN CỨU MƠ HÌNH NGƠN NGỮ N-GRAM CHO TIẾNG VIỆT VÀ ỨNG DỤNG SỬA LỖI DẤU THANH TRONG TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2016 ii ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN & TRUYỀN THƠNG VŨ CHÍ HIẾU NGHIÊN CỨU MƠ HÌNH NGƠN NGỮ N-GRAM CHO TIẾNG VIỆT VÀ ỨNG DỤNG SỬA LỖI DẤU THANH TRONG TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Giáo viên hướng dẫn: TS VŨ TẤT THẮNG Thái Nguyên – 2016 iii i LỜI CAM ĐOAN Tơi xin cam đoan, tồn nội dung liên quan tới đề tài trình bày luận văn thân tơi tự tìm hiểu nghiên cứu, hướng dẫn khoa học TS Vũ Tất Thắng Viện công nghệ thông tin thuộc Viện Khoa học Công nghệ Việt Nam Các tài liệu, số liệu tham khảo trích dẫn đầy đủ nguồn gốc Thái Nguyên, ngày 20 tháng năm 2016 Học viên Vũ Chí Hiếu ii LỜI CẢM ƠN Tơi xin gửi lời cảm ơn tới trường Đại học CNTT&TT – Đại học Thái Nguyên tạo điều kiện tổ chức khóa học để tơi có điều kiện tiếp thu kiến thức có thời gian để hồn thành Luận văn Cao học Tơi xin cảm ơn TS.Vũ Tất Thắng, người tận tình dẫn tơi suốt q trình xây dựng đề cương hồn thành luận văn Tơi xin chân thành cảm ơn thày cô truyền đạt cho em kiến thức quý báu trình học Cao học làm Luận văn Tôi chân thành cảm ơn bạn bè, anh chị em lớp cao học K13 giúp đỡ, đóng góp ý kiến chia kinh nghiệm học tập, nghiên cứu suốt khóa học Cuối tơi kính gửi thành đến gia đình người thân tơi, người hết lòng chăm sóc, dạy bảo động viên tơi để tơi có kết ngày hơm Mặc dù tơi cố gắng hồn thành Luận văn phạm vi khả cho phép chắn khơng tránh khỏi thiếu sót Xin kính mong nhận cảm thơng tận tình bảo quý Thầy Cô bạn Thái Nguyên, ngày 20 tháng năm 2016 Học viên Vũ Chí Hiếu iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii LỜI NÓI ĐẦU CHƯƠNG I: MƠ HÌNH NGƠN NGỮ N-GRAM 1.1 Giới thiệu chung: 1.2 Cơng thức tính “xác suất thơ”: 1.3 Vấn đề khó khăn xây dựng mơ hình ngơn ngữ N-gram: 1.3.1 Phân bố không đều: 1.3.2 Kích thước nhớ mơ hình ngơn ngữ: 1.4 Các phương pháp làm mịn: 1.4.1 Các thuật toán chiết khấu (discounting): 1.4.1.1 Phương pháp làm mịn Add-One: 1.4.1.2 Phương pháp làm mịn Witten - Bell: 1.4.1.3 Phương pháp làm mịn Good - Turing: 10 1.4.2 Phương pháp truy hồi: 11 1.4.3 Phương pháp nội suy: 12 1.4.4 Phương pháp làm mịn Kneser - Ney: 13 1.4.5 Phương pháp làm mịn Chen - GoodMan: 14 1.5 Kỹ thuật làm giảm kích thước liệu: 15 1.5.1 Đồng hóa (Quantization): 16 1.5.2 Loại bỏ (pruning): 16 1.5.2.1 Cắt bỏ (cut-off): 17 1.5.2.2 Sự khác biệt trọng số (Weighted difference): 18 1.5.3 Nén (Compression): 19 1.6 Độ đo đánh giá mơ hình: 19 1.6.1 Entropy - Độ đo thông tin: 19 1.6.2 Perplexity - Độ hỗn loạn thông tin: 21 1.6.3 Error rate - Tỉ lệ lỗi: 22 CHƯƠNG II: XÂY DỰNG N-GRAM CHO TIẾNG VIỆT 23 2.1 Giới thiệu: 23 iv 2.2 Công cụ tách từ cho tiếng Việt - vnTokenizer: 23 2.3 Bộ công cụ SRILM: 27 2.3.1 N-gram-count: 27 2.3.2 N-gram: 29 2.4 Bộ công cụ trợ giúp xây dựng tập văn huấn luyện: 30 2.5 Phương pháp tách câu, tách từ, gán nhãn từ loại phân tích cú pháp: 31 2.5.1 Tách câu: 31 2.5.2 Tách từ: 33 2.5.3 Gán nhãn từ loại: 36 2.5.4 Phân tích cú pháp: 38 2.6 Dữ liệu huấn luyện: 39 2.7 Kết xây dựng mô hình: 39 2.7.1 Số lượng cụm N-gram với tiếng Việt dựa âm tiết: 39 2.7.2 Số lượng cụm N-gram với tiếng Việt dựa từ: 40 2.8 Phân bố thống kê tần số cụm N-gram: 41 2.8.1 Với âm tiết 41 2.8.2 Với từ: 42 2.9 Phương pháp loại bỏ (Cut-off ): 44 2.9.1 Với âm tiết 44 2.9.2.Với từ: 44 2.10 Các phương pháp làm mịn: 45 2.10.1 Với âm tiết: 45 2.10.2 Với từ: 45 CHƯƠNG III: ỨNG DỤNG N-GRAM TRONG BÀI TOÁN BÀI TOÁN SỬA LỖI DẤU THANH TRONG TIẾNG VIỆT 47 3.1 Tổng quan: 47 3.2 Bài toán sửa lỗi dấu tiếng Việt: 48 3.2.1 Phát biểu toán: 48 3.2.2 Đặc điểm: 48 3.2.3 Hướng giải quyết: 49 3.3 Các hệ thống thêm dấu ứng dụng N-gram có: 49 3.3.1 Cơng cụ AMPad: 49 v 3.3.2 VietPad: 50 3.4 Đề xuất hệ thống: 51 3.5 Cài đặt thử nghiệm đánh giá hệ thống 54 KẾT LUẬN 58 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 59 vi DANH MỤC ẢNH Hình - 1: Quy trình tách từ .24 Hình - 2: Số lượng cụm N-gram với âm tiết tăng kích thước liệu .40 Hình - 3: số lượng cụm N-gram với từ tăng kích thước liệu 41 Hình - 4: Số lượng cụm N-gram (âm tiết) có tần số từ đến 10 .42 Hình - 5: Số lượng cụm Ngram (từ) có tần số từ đến 10 43 Hình - 1: Thêm dấu tiếng Việt tự động AMPad 50 Hình - 2: Gõ tiếng Việt khơng dấu VietPad 51 Hình - 3: Lưu đồ thực mơ hình đề xuất 52 Hình - 4: Giao diện chương trình 55 Hình - 5: Chương trình thực văn đầu vào hồn tồn khơng có dấu .55 Hình - 6: Chương trình thực văn đầu vào có từ có dấu xen kẽ .56 vii DANH MỤC BẢNG BIỂU Bảng 2- 1: Số lượng cụm N-gram văn huấn luyện với âm tiết 39 Bảng 2- 2: Số lượng cụm N-gram văn huấn luyện với từ 40 Bảng 2- 3: Tần số tần số cụm N-gram áp dụng cho âm tiết 42 Bảng 2- 4: Tần số tần số cụm Ngram với từ 43 Bảng 2- 5: Bộ nhớ độ hỗn loạn thông tin áp dụng loại bỏ âm tiết 44 Bảng 2- 6: Bộ nhớ độ hỗn loạn thông tin áp dụng loại bỏ với từ 45 Bảng 2- 7: Độ hỗn loạn thông tin phương pháp làm mịn cho âm tiết .45 Bảng 2- 8: Độ hỗn loạn thông tin phương pháp làm mịn cho từ 46 46 Bảng 2- 8: Độ hỗn loạn thông tin phương pháp làm mịn cho từ Từ kết bảng 2.7 bảng 2.8 rút hai nhận xét sau: - Trong phương pháp làm mịn phương pháp Good-Turing (so sánh với Add-One , Witten-Bell) cho kết tốt loại Uni-gram, Bigram, Witten-Bell, Good-Turing cho kết gần tương tự Khi thực nghiệm N-gram với N tăng dần từ đến thấy khoảng cách Perplexity đo Witten-Bell, Good-Turing xa so với phương pháp Add-One Điều chứng tỏ dùng N-gram vớii N lớn dùng phương pháp chiết khấu Add-One hiệu nhiều so với phương pháp lại - Phương pháp Kneser-Ney hai cách tiếp cận truy hồi nội suy cho giá trị Perplexity thấp Good-Turing Witten-Bell Trong Nội suy Kneser-Ney cho kết tốt Truy hồi Kneser-Ney So sánh kết 2-gram thấy N-gram có độ dài lớn cách biệt kết cao Tức N lớn phương pháp Nội suy Kneser-Ney chứng tỏ hiệu 47 CHƯƠNG III: ỨNG DỤNG N-GRAM TRONG BÀI TOÁN BÀI TOÁN SỬA LỖI DẤU THANH TRONG TIẾNG VIỆT 3.1 Đặt vấn đề: Hiện tại, dễ dàng tìm thấy ngày nhiều hệ thống dịch tự động miễn phí mạng như: Systran, Reverso, WorldLingo, IBM translator… Những hệ thống cho phép dịch tự động văn với cặp ngơn ngữ chọn trước (ví dụ: dịch văn tiếng Anh tiếng Pháp, tiếng Anh tiếng Việt) Tuy nhiên, chất lượng dịch vấn đề mà người sử dụng quan tâm đa số hệ thống dịch tự động có chất lượng thấp Ví dụ, để dịch văn tiếng Việt tiếng Anh chọn sử dụng hệ thống dịch Google chất lượng dịch theo chiều Việt-Anh thấp so với chiều dịch Anh-Việt, đặt biệt thấp cho dịch Việt-Anh với văn đầu vào tiếng Việt không dấu dấu chưa chuẩn hóa Vấn đề đặt là, để chuẩn hóa văn đầu vào cho hệ thống dịch? Ở thêm dấu, hay chuẩn hóa dấu văn vấn đề quan trọng Dấu thành phần thiếu mang thông tin, nội dung quan trọng văn tiếng Việt Chúng không mẫu tự mà phần mẫu tự Tuy nhiên có nhiều trường hợp mà người sử dụng loại bỏ sử dụng không đầy đủ thành phần này, chẳng hạn tin nhắn SMS qua điện thoại, liên lạc kiểu thư điện tử, chat, … Khái niệm dấu không giới hạn với ký hiệu dấu điệu thể chữ Việt để thể cho sáu loại điệu khác nhau: ngang, huyền, ngã, hỏi, sắc, nặng Mà nữa, bao gồm nhiều dấu phụ trợ cho nguyên âm không dấu: a, i, u, e, o để tạo lập ký tự đủ đa dạng cho việc ký âm nguyên âm tiếng Việt, a ă â e ê i o ơ u y Ngồi chữ Việt có thêm dấu gạch đầu d để ký âm cho phụ âm khác đ 48 Trong đa số trường hợp, người đọc văn phải nội suy dấu tương ứng đoạn văn không dấu, cố gắng hiểu ý nghĩa chuyển tải đoạn văn dựa theo ngữ cảnh văn Đối với hệ thống xử lí văn tự động nhập nhằng khó giải quyết, đặc biệt hệ thống phân tích cú pháp, hệ thống tìm kiếm, hệ thống dịch tự động, … Để giải toán đặt sử dụng phương pháp nghiên cứu chương để xây dựng ứng dụng thử nghiệm sử dụng mơ hình ngơn ngữ N-gram để tính toán khả thêm sửa lỗi dấu với xác suất cao nhất, giúp máy tính tự động thêm sửa lỗi dấu cho văn không dấu lỗi dấu tiếng Việt 3.2 Bài toán sửa lỗi dấu tiếng Việt: 3.2.1 Phát biểu toán: Bài toán phát biểu sau: Input: Cho văn tiếng Việt không dấu, sử dụng từ điển từ kho liệu thô làm đầu vào Các văn tiếng Việt có mã Unicode Output: Chuyển văn khơng dấu thành có dấu với độ xác cao 3.2.2 Đặc điểm: Chữ viết tiếng Việt có đặc điểm đặc biệt xuất dấu dấu ký tự từ Tiếng Việt có điệu văn dấu ký tự làm phong phú thêm cho ngôn ngữ tiếng Việt, tăng độ biểu cảm tiếng Việt Dấu thành phần thiếu âm tiết tiếng Việt Khi loại bỏ dấu thanh, việc hiểu nghĩa từ, gồm hay nhiều âm tiết kết hợp với trở nên khó khăn dễ hiểu nhầm nghĩa tiếng Việt Để thêm dấu, trước tiên ta cần phải xác định ranh giới từ Bài toán xác định ranh giới từ văn tiếng Việt có dấu vấn đề khó, điều khơng có dấu việc nhận ranh giới từ trở nên khó khăn hơn.Trong 49 tiếng Việt, tiếng hay gọi âm tiết phân cách khoảng trắng từ Sau nhận ranh giới từ, ta cần phải xác định cho từ có dấu có dạng thể khơng dấu Việc xác định khơng khó khăn từ khơng dấu có nhiều từ có dấu tương ứng với Ví dụ: Từ khơng dấu “toi” có nhiều từ có dấu tương ứng “tơi”, “tối”, “tới” Do đó, sau giải xong tốn tách từ tiếng Việt khơng dấu, ta cần phải giải thêm tốn xác định từ có dấu thích hợp với từ khơng dấu Đây hướng giải toán đặt cho luận văn 3.2.3 Hướng giải quyết: Đối với tách từ có dấu, có nhiều mơ hình sử dụng đạt kết tốt MM (Maximum Mactching: forward/backward hay gọi LRMM (Left Right Maximum Matching) mạng chuyển dịch trạng thái hữu hạn có trọng số WFST (Weighted finite-state Transducer); giải thuật dựa nén (compression) Hướng giải đề xuất sử dụng phương pháp tách từ LRMM kết hợp với mơ hình Bi-gram giải hiệu vấn đề toán 3.3 Các hệ thống thêm dấu ứng dụng N-gram có: 3.3.1 Cơng cụ AMPad: AMPad chương trình chuyển đổi loại tiếng Việt không dấu sang tiếng Việt có dấu thuộc dạng chuyên nghiệp Thực chất nâng cấp chương trình “AutoMark” tác giả Trần Triết Tâm Cục thống kê Đà Nẵng tung trước AMPad có thể chuyển đổi xác đến khoảng 80% đoạn văn dạng luận xã hội, khoa học thường thức… sách báo “chào thua”, tức đoán sai đến 50% câu văn thuộc 50 dạng chuyên ngành sâu, lĩnh vực văn học, thơ ca… với cấu trúc câu vốn phức tạp ngữ nghĩa Hình - 1: Thêm dấu tiếng Việt tự động AMPad 3.3.2 VietPad: VietPad trình soạn thảo hỗ trợ tiếng Việt Unicode, phát triển Quân Nguyễn nhóm phát triển http://www.VietPad.sourceforge.net Ngồi chức thêm dấu tự động online mà văn nghiên cứu, VietPad trình soạn thảo tiếng Việt hỗ trợ tốt Unicode mã nguồn mở a) Tiền xử lý Chuẩn hóa văn theo định dạng mà VietPad quy định b) Tách token: VietPad không tách câu mà tách token mơ token gồm chuỗi ký tự ký tự (:,.;”@#$ ) hay chuỗi ký tự “chữ” tiếng Việt c) Lấy từ không dấu, chuyển thành có dấu: Với phương pháp tách token đơn giản trên, thêm phương pháp tách từ LRMM (từ có tối đa tiếng), VietPad lấy từ khơng dấu, sau thơng qua từ điển ánh xạ 11 từ khơng dấu từ có dấu (từ điển chuyển đổi) để chuyển từ không dấu sang có dấu 51 Hình - 2: Gõ tiếng Việt khơng dấu VietPad Hình 3.3 Văn sau thực chức thêm dấu VietPad 3.4 Đề xuất hệ thống: Căn vào mơ hình N-gram, cụ thể Bigram dựa vào ý tưởng việc thống kê cụm tiếng, luận văn đề xuất mơ hình thêm dấu tự động sau: 52 Bắt đầu Tiền xử lý Tách câu Tách từ Tập từ có khả thêm dấu Từ điển chuyển đổi Chọn từ thích hợp Xuất hình Hình - 3: Lưu đồ thực mơ hình đề xuất * Tiền xử lý: Chuẩn hóa văn theo quy định * Tách câu: Sử dụng phương pháp tách câu Heuristic nêu chương 2, phần 2.5 mục 2.5.1 Qua phương pháp tách câu trên, ta phân biệt số trường hợp đặc biệt dấu chấm câu “.” từ viết tắt (Mr, Mrs, ), địa email (hieuvuhb@gmail.com), địa URL (https://www.google.com.vn), số (1.000.000), đầu bước cho tập câu đầu vào bước sau * Tách từ phương pháp LRMM: Ta dùng phương pháp tách từ LRMM tách từ không dấu câu Theo phương pháp này, ta duyệt câu từ trái sang phải chọn từ có 53 nhiều âm tiết có mặt từ điển, thể tiếp tục cho từ đến hết câu Dạng đơn giản dùng giải nhập nhằng từ đơn Giả sử có chuỗi kí tự (tương đương với chuỗi tiếng tiếng Việt) C1, C2, Ta đầu chuỗi, ta kiểm tra xem C1 có phải từ hay khơng sau kiểm tra xem C1C2 có phải từ hay khơng Tiếp tục tìm tìm từ dài Từ dài từ hợp lí Chọn từ đó, sau tìm tiếp cho từ lại xác định toàn chuỗi từ Dạng phức tạp: Quy tắc dạng phân đoạn, hợp lí đoạn từ với chiều dài tối đa Thuật toán ban đầu dạng đơn giản Nếu phát cách tách từ gây nhập nhằng (ví dụ, C1 từ C1C2 từ), ta xem chữ để tìm tất đoạn từ có ban đầu với C1 C1C2 Ví dụ, ta đoạn sau: C1 C2 C3C4 C1C2 C3C4C5 C1C2 C3C4C5C6 Chuỗi dài chuỗi thứ 3, từ chuỗi thứ (C1C2) chọn Thực lại bước chuỗi từ hoàn chỉnh Ưu điểm: - Với phương pháp này, ta dễ dàng tách xác ngữ/câu “hợp tác xã||mua bán”, “thành lập||nước||Việt Nam||dân chủ||cộng hòa” - Cách tách từ đơn giản, nhanh, cần dựa vào từ điển Hạn chế: - Độ xác phương pháp phụ thuộc hồn tồn vào tính đủ, tính xác từ điển - Phương pháp tách từ sai trường hợp “học sinh ||học sinh||học”; “một||ông||quan tài||giỏi”; “trước||bàn là||một||ly||nước” 54 * Lý chọn phương pháp là: - Cài đặt phương pháp đơn giản, thời gian khơng gian xử lí ít, lại khơng đòi hỏi kho ngữ liệu huấn luyện gán nhãn ranh giới từ, độ xác LRMM không thấp, sai số tách sai từ chấp nhận tách từ khơng dấu * Chọn từ thích hợp Với từ điển chuyển đổi Map.txt, ta có ánh xạ 1-1 để chuyển từ khơng dấu thành có dấu Mơ hình huấn luyện Như trình bày trên, cốt lõi vấn đề tập tin từ điển huấn luyện N_gramDict.txt Tập tin chứa tần suất nhóm âm tiết xuất văn tiếng việt Ngồi mơ hình huấn luyện sử dụng phương pháp làm mịn khác mơ hình ngơn ngữ N-gram như: Add-one, Witten-Bell, GoodTuring với phương pháp làm trơn hóa mơ hình giúp việc thêm dấu xác 3.5 Cài đặt thử nghiệm đánh giá hệ thống Chương trình xây dựng ngơ ngữ Java, tâp liệu tập văn (.txt) thử nghiệm hệ điều hành Windows 10, máy tính PC core i7 tốc độ 3.40GHz, nhớ 8GB RAM 55 Hình - 4: Giao diện chương trình Hình - 5: Chương trình thực văn đầu vào hồn tồn khơng có dấu 56 Hình - 6: Chương trình thực văn đầu vào có từ có dấu xen kẽ Hình - 7: Mở tệp văn để thêm dấu 57 Hình - 8: Chương trình sửa dấu tập văn Với liệu thử nghiệm văn ngẫu nhiên lấy từ trang báo http://dantri.com.vn, em so sánh kết thêm dấu chương trình với phần mềm VietPad, AMPad thu kết sau: Tổng số tiếng Tổng số tiếng Tỉ lệ CT đề xuất 6.828 5.685 83,26% VietPad 6.828 5.810 85,09% AMPad 6.828 5.798 84,92% 58 KẾT LUẬN Các toán xử lý văn tiếng Việt ln tốn khó hay hữu ích, quan tâm nghiên cứu nhiều nước ta Trong luận văn này, em trình bày vấn đề bản, khó khăn thách thức, bối cảnh toán thêm dấu vào văn tiếng Việt không dấu Đây tốn hay lĩnh vực Xử lý ngơn ngữ tự nhiên Các kết đạt luận văn: Hiểu vấn đề tổng quan Xử lý ngơn ngữ tự nhiên Tìm hiểu đặc trưng ngơn ngữ tiếng Việt, đặc biệt đặc điểm từ tiếng Việt, từ làm tiền đề cho nghiên cứu định hướng toán tách từ tiếng Việt Tìm hiểu cụ thể tốn thêm dấu vào văn tiếng Việt khơng dấu, nắm khó khăn việc nhận dạng từ tiếng Việt, bối cảnh toán sửa lỗi dấu Tìm hiểu số phương pháp tách từ tiếng Việt để áp dụng vào tốn sửa lỗi dấu cho văn tiếng Việt Xây dựng thành công ứng dụng sửa lỗi dấu cho văn tiếng Việt 59 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Bài tốn thêm dấu cho tiếng Việt khơng dấu dựa mơ hình ngơn ngữ tốn Vì thế, tốn cách giải giai đoạn hồn thiện Trong q trình xây dựng mơ hình ngơn ngữ, đặc biệt mơ hình ngơn ngữ N-gram nhiều khó khăn, đòi hỏi người lập trình phải đầu tư nhiều thời gian công sức Đây mơ hình ngơn ngữ, thứ nhất, đem lại nhiều ứng dụng thiết thực thực tế, thứ hai, tiếp cận phương pháp phổ biến phương pháp thống kê tần số xuất từ, nên thu hút quan tâm nhiều người Trong trinh tách từ, thực tế không tránh khỏi việc xuất từ (các từ không định nghĩa từ điển) Đây vấn đề bỏ qua ngôn ngữ tự nhiên luôn thay đổi sinh từ mới, từ điển (để xử lí ngơn ngữ tự nhiên) cập nhật hết Các nghiên cứu tiếng Nhật tiếng Trung xử lí vấn đề tốt Với gần gũi ngữ pháp đặc điểm ngơn ngữ, ta ứng dụng nghiên cứu tiếng Việt Như nhiều việc phải làm Trong tương lai, nhiều người khai thác lĩnh vực có mơ hình ngơn ngữ hoàn hảo hơn, sử dụng liệu lớn để tăng độ xác cho chương trình, đóng góp vào kho tàng tri thức nhân loại Tác giả mong muốn tiếp tục nghiên cứu, phát triển để đưa kết ứng dụng vào thực tế… 60 TÀI LIỆU THAM KHẢO Tiếng Việt [1] TS Đinh Điền Giáo trình xử lý ngơn ngữ tự nhiên, Khoa Công nghệ Thông tin Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh, Tháng 12 - 2004 [2] Lưu Tuấn Anh (2015) Vietnamese Natural Language Processing http://viet.jnlp.org/ [3] GS Hoàng Phê (2003) Từ điển tiếng Việt Trung tâm từ điển học, NXB Đà Nẵng Tiếng Anh [4] Entropy-based Pruning of Backoff Language Models, Andreas Stolcke, Speech Technology And Research Laboratory SRI International By http://www.itl.nist.gov/ [5] Daniel Jurafsky &James H Martin (2006) N-gram [6] William A Gale Good-Turing Smoothing Without Tears AT&T Bell Laboratories ... HỌC THÁI NGUY N TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN & TRUY N THƠNG VŨ CHÍ HIẾU NGHI N CỨU MƠ HÌNH NG N NGỮ N- GRAM CHO TIẾNG VIỆT VÀ ỨNG DỤNG SỬA LỖI DẤU THANH TRONG TIẾNG VIỆT Chuy n ngành: Khoa... từ có v n Trong mơ hình ng n ngữ tiếng n i, N- gram số mơ hình sử dụng rộng rãi Mục tiêu lu n v n, nghi n cứu n m bắt v n đề cốt lõi mơ hình ng n ngữ N- gram, đặc biệt kỹ thuật làm tr n ph n bố xác... (Compression): Mô hình ng n ngữ có cấu trúc liệu Do cấu trúc liệu n n lại thuật t n n n, kích thước mơ hình ng n ngữ tất nhi n giảm Tuy nhi n, mơ hình ng n ngữ bị n n, độ xác tốc độ mơ hình ng n ngữ giảm

Ngày đăng: 21/12/2017, 17:27

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan