Xử lý bài toán thêm dấu cho tiếng việt không dấu dựa trên nghiên cứu mô hình ngôn ngữ n gram

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG DƢƠNG THỊ HÀ XỬ LÍ BÀI TỐN THÊM DẤU CHO TIẾNG VIỆT KHƠNG DẤU DỰA TRÊN NGHIÊN CỨU MƠ HÌNH NGƠN NGỮ N_GRAM CHUN NGHÀNH: KHOA HỌC MÁY TÍNH Học viên thực hiện: Dƣơng Thị Hà Lớp: K9B Giáo viên hƣớng dẫn: TS Vũ Tất Thắng 2012 i LỜI CAM ĐOAN Tôi xin cam đoan, toàn nội dung liên quan tới đề tài trình bày luận văn thân tơi tự tìm hiểu nghiên cứu, hướng dẫn khoa học TS Vũ Tất Thắng Viện công nghệ thông tin thuộc Viện Khoa học Công nghệ Việt Nam Các tài liệu, số liệu tham khảo trích dẫn đầy đủ nguồn gốc Thái Nguyên, ngày 20 tháng năm 2012 Học viên Dương Thị Hà ii LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn tới trường Đại học CNTT&TT – Đại học Thái Nguyên tạo điều kiện tổ chức khóa học để tơi có điều kiện tiếp thu kiến thức có thời gian để hồn thành Luận văn Cao học Tôi xin cảm ơn TS.Vũ Tất Thắng, người tận tình dẫn tơi suốt q trình xây dựng đề cương hồn thành luận văn Tôi xin chân thành cảm ơn thày cô truyền đạt cho kiến thức quý báu trình học Cao học làm Luận văn Tôi chân thành cảm ơn bạn bè, anh chị em lớp cao học K9 giúp đỡ, đóng góp ý kiến chia kinh nghiệm học tập, nghiên cứu suốt khóa học Cuối tơi kính gửi thành đến gia đình người thân tơi, người hết lịng chăm sóc, dạy bảo động viên tơi để tơi có kết ngày hôm Mặc dù cố gắng hoàn thành Luận văn phạm vi khả cho phép chắn không tránh khỏi thiếu sót Xin kính mong nhận cảm thơng tận tình bảo q Thầy Cơ bạn Thái Nguyên, ngày 20 tháng năm 2012 Học viên Dương Thị Hà iii DANH MỤC HÌNH Trang Hình 3.1 Quy trình tách từ 36 Hình 3.2 Số lượng cụm N-gram với âm tiết tăng kích thước liệu 46 Hình 3.3 Số lượng cụm N-gram với từ tăng kích thước liệu 47 Hình 3.4 Lưu đồ thực mơ hình đề xuất 53 Hình 3.5 Mơ hình tổng qt 54 iv DANH MỤC BẢNG Trang Bảng 3.1 Số lượng cụm N-gram văn huấn luyện với âm tiết 46 Bảng 3.2 Số lượng cụm N-gram văn huấn luyện với từ 47 Bảng 3.3 Độ hỗn loạn thông tin phương pháp làm mịn cho âm tiết 48 Bảng 3.4 Độ hỗn loạn thông tin phương pháp làm mịn cho từ 49 v MỤC LỤC Trang LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC HÌNH iii DANH MỤC BẢNG iv MỤC LỤC v MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ CÁC MƠ HÌNH NGÔN NGỮ VÀ CÁC ỨNG DỤNG TRONG LĨNH VỰC XỬ LÍ NGƠN NGỮ TỰ NHIÊN 1.1 MƠ HÌNH NGÔN NGỮ (LANGUAGE MODEL - LM) 1.2 MƠ HÌNH NGƠN NGỮ VĂN PHẠM 1.2.1 Từ vựng tiếng Việt 1.2.2 Tiếng – đơn vị cấu tạo lên từ 1.2.2.1 Khái niệm 1.2.2.2 Phân loại 1.2.2.3 Mơ hình tiếng tiếng Việt thành tố 1.2.3 Cấu tạo từ 1.2.3.1 Từ đơn 1.2.3.2 Từ ghép 1.2.3.3 Từ láy 1.3 CÁC MƠ HÌNH NGÔN NGỮ KHÁC DỰA TRÊN KHÁI NIỆM 11 1.4 MÔ HÌNH NGƠN NGỮ N-GRAM 12 1.4.1 Khái quát 12 1.4.2 Công thức tính “xác suất thơ” 15 1.4.3 Những vấn đề khó khăn xây dựng mơ hình ngơn ngữ N-gram 16 1.4.3.1 Phân bố không 16 1.4.3.2 Kích thước nhớ mơ hình ngơn ngữ 16 CHƯƠNG 2MƠ HÌNH NGƠN NGỮ N-GRAM 17 2.1 CÁC KĨ THUẬT LÀM MỊN HÓA SỰ PHÂN BỐ XÁC SUẤT TRONG MƠ HÌNH N-GRAM ĐỂ TĂNG CHẤT CHẤT LƯỢNG CỦA MƠ HÌNH 17 2.1.1 Các thuật toán chiết khấu (Discounting) 18 vi 2.1.1.1 Kĩ thuật làm mịn theo thuật toán Add-one 18 2.1.1.2 Kĩ thuật làm mịn theo thuật toán Witten-Bell 20 2.1.1.3 Kĩ thuật làm mịn theo thuật toán Good-Turing 21 2.1.2 Kĩ thuật truy hồi (Back-0ff) 21 2.1.3 Kĩ thuật nội suy (Interpolation) 23 2.1.4 Kĩ thuật làm mịn Kneser-Ney 24 2.1.5 Kĩ thuật làm mịn Chen-Goodman 25 2.2 CÁC KĨ THUẬT LÀM GIẢM KÍCH THƯỚC MƠ HÌNH 26 2.2.1 Pruning (loại bỏ) 26 2.2.1.1 Cắt bỏ (cut-off) 27 2.2.1.2 Sự khác biệt trọng số (Weighted difference) 28 2.2.2 Đồng hóa (Quantization) 29 2.2.3 Nén (Compression) 30 2.3 CÁC ĐỘ ĐO ĐỂ ĐÁNH GIÁ CHẤT LƯỢNG CỦA MƠ HÌNH NGRAM 30 2.3.1 Entropy – Độ đo thông tin 30 2.3.2 Perplexity – Độ hỗn loạn thông tin 32 2.3.3 Error rate – Tỉ lệ lỗi 32 CHƯƠNG 3XÂY DỰNG N-GRAM CHO TIẾNG VIỆT VÀ ỨNG DỤNG TRONG BÀI TOÁN THÊM DẤU CHO TIẾNG VIỆT 34 3.1 CƠNG CỤ XỬ LÍ MƠ HÌNH 34 3.1.1 Bộ công cụ SRILM 34 3.1.2 Bộ công cụ trợ giúp xây dựng tập văn huấn luyện 34 3.2 CƠNG CỤ XỬ LÍ VĂN BẢN TIẾNG VIỆT 35 3.2.1 Công cụ tách từ cho tiếng Việt – vnTokenize 35 3.2.2 Phương pháp tách câu, tách từ, gán nhãn từ loại phân tích cú pháp 37 3.2.2.1 Tách câu 37 3.2.2.2 Tách từ 40 3.2.2.3 Gán nhãn từ loại 42 3.2.2.4 Phân tích cú pháp 44 3.3 DỮ LIỆU THỰC NGHIỆM 45 3.3.1 Số lượng cụm N-gram với tiếng Việt dựa âm tiết 46 3.3.2 Số lượng cụm N-gram với tiếng Việt dựa từ 47 vii 3.4 ĐÁNH GIÁ CHẤT LƯỢNG N-GRAM CHO TIẾNG VIỆT TƯƠNG ỨNG CÁC KĨ THUẬT TRONG CHƯƠNG 48 3.4.1.Với âm tiết 48 3.4.2.Với từ 49 3.5 N-GRAM VÀ ỨNG DỤNG ĐỂ THÊM DẤU CHO TIẾNG VIỆT KHÔNG DẤU 50 3.5.1 Bài toán thêm dấu tiếng Việt 50 3.5.1.1 Phát biểu toán 50 3.5.1.2 Đặc điểm 50 3.5.1.3 Hướng giải quyết: 51 3.5.2 Các hệ thống thêm dấu ứng dụng N-gram có 51 3.5.2.1 VietPad 51 3.5.2.2 VnMark – Mơ hình thêm dấu tiếng Việt 51 3.5.3 Đề xuất hệ thống 53 3.5.3.1 Mơ hình 53 3.5.3.2 Mơ hình huấn luyện 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 61 TÀI LIỆU THAM KHẢO 63 MỞ ĐẦU Lí chọn đề tài Ngôn ngữ tự nhiên ngôn ngữ người sử dụng giao tiếp hàng ngày, khác hẳn với ngôn ngữ nhân tạo (ngôn ngữ lập trình, ngơn ngữ máy…) Việc làm cho máy tính hiểu ngôn ngữ tự nhiên dễ dàng Để hiểu nội dung văn viết ngơn ngữ tự nhiên, q trình đọc hay nghe thực tế ta nhận thức ngữ cảnh văn Mặt khác, ngơn ngữ tự nhiên có luật, cấu trúc ngữ pháp phong phú nhiều so với ngơn ngữ máy tính, để xây dựng luật ngữ pháp, từ vựng…, thật hồn chỉnh để máy hiểu ngôn ngữ tự nhiên việc tốn cơng sức địi hỏi người thực phải có hiểu biết sâu sắc ngơn ngữ học Mơ hình ngơn ngữ (Language Model – LM) cho biết xác suất câu (hoặc cụm từ) thuộc ngôn ngữ có xác suất sinh hay nói cách khác LM phản ánh phân bố xác suất từ, cụm từ tập văn Địi hỏi tiên quyết, để máy tính xử lí ngơn ngữ tự nhiên việc xây dựng mơ hình ngơn ngữ, mà ngày mơ hình thống kê thường sử dụng dựa lí thuyết tường minh xác suất thống kê để mơ hình hóa ngơn ngữ, thường đạt độ xác cao hệ thống thực tế Xử lí ngơn ngữ tự nhiên dựa thống kê, khơng nhắm tới việc người xây dựng mơ hình ngữ pháp mà lập chương trình cho máy tính “học” , nhờ vào việc thống kê từ cụm từ có văn Trong mơ hình ngơn ngữ tiếng nói N-gram số mơ hình sử dụng rộng rãi Mơ hình ngơn ngữ phận quan trọng lĩnh vực xử lí ngơn ngữ tự nhiên Có nhiều lĩnh vực xử lí ngơn ngữ tự nhiên sử dụng LM như: kiểm lỗi tả, phát sinh câu ngẫu nhiên, dịch máy hay phân đoạn từ… Trên giới, có nhiều nước cơng bố nghiên cứu LM áp dụng cho ngôn ngữ họ Việt Nam, việc nghiên cứu xây dựng LM chuẩn cho tiếng Việt mẻ gặp nhiều khó khăn Trong thực tế, sử dụng tiếng Việt khơng dấu trở thành thói quen khơng tốt nhiều người Việt Nam Internet Vì để gõ tiếng Việt có dấu địi hỏi phải cơng sức, phải có font chữ, gõ Việc tự động thêm dấu phân tích từ vấn đề cần thiết thú vị Chính điều thúc đẩy lựa chọn tập trung “Nghiên cứu mơ hình ngơn ngữ N-gram ứng dụng thêm dấu cho tiếng Việt khơng dấu”, để tạo kết xử lí ngơn ngữ nói chung, có ích cho việc xử lí ngơn ngữ tiếng Việt vốn vơ phong phú nói riêng Ứng dụng phương pháp thêm dấu nhiều như: Thêm dấu cho mail; cho quản trị web, trang web yêu cầu viết tiếng Việt người dùng sẵn gõ; thêm dấu cho tin nhắn điện thoại… Mục tiêu nhiệm vụ a) Mục tiêu: Do phạm vi toán lớn thời gian làm luận văn có giới hạn nên mục tiêu nghiên cứu luận văn tập trung điểm sau: Về học thuật: Đề tài tập trung vào việc ứng dụng số phương pháp tách từ, tiếng, phương pháp làm mịn mơ hình ngơn ngữ N-gram nhằm tăng hiệu thêm dấu cho tiếng Việt không dấu Về phát triển triển khai ứng dụng: Kết đề tài ứng dụng việc hỗ trợ việc thêm dấu cho tiếng Việt không dấu 50 3.5 N-GRAM VÀ ỨNG DỤNG ĐỂ THÊM DẤU CHO TIẾNG VIỆT KHƠNG DẤU 3.5.1 Bài tốn thêm dấu tiếng Việt 3.5.1.1 Phát biểu toán Cho văn tiếng Việt không dấu Chuyển văn không dấu thành có dấu với độ xác cao u cầu khác: Chỉ sử dụng từ điển từ kho liệu thô làm đầu vào Chỉ xử lý văn tiếng Việt có mã Unicode, TCVN3 3.5.1.2 Đặc điểm Chữ viết tiếng Việt có đặc điểm đặc biệt xuất dấu dấu ký tự Tiếng Việt có điệu văn dấu ký tự làm phong phú thêm cho ngôn ngữ tiếng Việt, tăng độ biểu cảm tiếng Việt Dấu thành phần thiếu âm tiết tiếng Việt Khi loại bỏ dấu thanh, việc hiểu nghĩa từ, gồm hay nhiều âm tiết kết hợp với trở nên khó khăn dễ hiểu nhầm nghĩa tiếng Việt Để thêm dấu, trước tiên ta cần phải xác định ranh giới từ Bài toán xác định ranh giới từ văn tiếng Việt có dấu vấn đề khó, điều khơng có dấu việc nhận ranh giới từ trở nên khó khăn hơn.Trong tiếng Việt, tiếng hay gọi âm tiết phân cách khoảng trắng từ Vậy sau nhận ranh giới từ, ta cần phải xác định cho từ có dấu có dạng thể khơng dấu Việc xác định khơng khó khăn Ví dụ 3.4: Từ khơng dấu “bo” có tới từ có dấu tương ứng “bơ”, “bố”, “bỏ”… 51 Do đó, sau giải xong tốn tách từ tiếng Việt khơng dấu, ta cần phải giải thêm tốn xác định từ có dấu thích hợp với từ khơng dấu Đây hướng giải toán đặt cho luận văn 3.5.1.3 Hướng giải Đối với tách từ có dấu, có nhiều mơ hình sử dụng đạt kết tốt MM (Maximum Mactching: forward/backward hay gọi LRMM:Left Right Maximum Matching; mạng chuyển dịch trạng thái hữu hạn có trọng số WFST (Weighted finite-state Transducer); giải thuật dựa nén(compression) Hướng giải đề xuất sử dụng phương pháp tách từ LRMM kết hợp với mơ hình Bigram giải hiệu vấn đề toán 3.5.2 Các hệ thống thêm dấu ứng dụng N-gram có 3.5.2.1 VietPad VietPad trình soạn thảo hỗ trợ tiếng Việt Unicode, phát triển Quân Nguyễn nhóm phát triển http://www.VietPad.sourceforge.net Ngoài chức thêm dấu tự động online mà văn nghiên cứu, VietPad trình soạn thảo tiếng Việt hỗ trợ tốt Unicode mã nguồn mở a) Tiền xử lý Chuẩn hóa văn theo định dạng mà VietPad quy định b) Tách token VietPad không tách câu mà tách token mơ token gồm chuỗi ký tự ký tự (:,.;”@#$ ) hay chuỗi ký tự “chữ” tiếng Việt 3.5.2.2 VnMark – Mơ hình thêm dấu tiếng Việt a) Tiền xử lý Xóa khoảng trắng thừa Thực cơng việc chuẩn hóa liệu nhập vào thay ký tự tương tự 52 Người ta sử dụng việc đánh chữ việt không dấu người ta đánh ký tự viết hoa danh từ riêng Do đó, từ viết hoa khơng “thường hóa” (lowercase) từ viết hoa để nhận dạng danh từ riêng b) Tách câu Căn vào đặc điểm ngôn ngữ tiếng Việt: từ cách ký tự “.”, “,”, “:”… để tách thành câu Mỗi câu đơn vị xử lý chương trình Việc định câu đơn vị nhiều nghĩa câu định lựa chọn dấu câu 53 3.5.3 Đề xuất hệ thống 3.5.3.1 Mơ hình Căn vào mơ hình N-gram, cụ thể Bigram dựa vào ý tưởng việc thống kê cụm tiếng, luận văn đề xuất mơ hình thêm dấu tự động sau: Bắt đầu Tiền xử lí Tách cụm tiếng Tập từ khả thêm dấu Từ điển chuyển đổi sử dụng N-gram Chọn khả thêm dấu theo xác suất N-gram Xuất hình Hình 3.4 Lưu đồ thực mơ hình đề xuất Hay mơ sơ đồ hệ thống sau (Do khối hậu xử lí khơng quan trọng nên khơng minh họa sơ đồ này): 54 Bắt đầu Tách cụm tiếng Tách tiếng LRMM kết hợp với Heuristic Người dùng Đ Tách tiếng S Có ứng viên? Lọc nhiễu Đ Tiếng có từ điển? S Phát sinh gợi ý Đ S Tiếng hợp lệ? Đ Kết thúc Hình 3.5 Mơ hình tổng qt Mơ hình gồm phần: Tiền xử lí, xử lí hậu xử lí Chức phần tóm tắt sau: * Khối tiền xử lí: - Tách văn đầu vào thành “cụm tiếng” – chuỗi liên tục tiếng mà chúng khơng có ngắt câu, ngắt đoạn - Tách cụm tiếng thành tiếng riêng biệt - Lọc cụm tiếng Anh, tên riêng, từ phiêm âm tiếng nước ngoài, tiếng viết tắt, chữ số, kí hiệu đặc biệt, để xử lí riêng * Khối xử lí chính: 55 - Đối chiếu từ điển tần số bigram với tiếng tách, tiếng mà khơng có từ điển báo cho người dùng biết để định - Dựa vào bigram tiếng kết hợp phương pháp Heuristic LRMM, phát tiếng không phù hợp với ngữ cảnh, tạo tiếng sai tả (nhưng tiếng có từ điển) báo cho người dùng định - Chọn khả thêm dấu chấp nhận theo xác suất bigram xây dựng * Khối hậu xử lí: - Kết hợp câu đầu vào phương án sửa lỗi để tái tạo văn tả, với định dạng văn đầu vào - Ngồi ra, khối cịn xử lí thêm số chức phụ như: tổng kết tập khả thêm dấu, thông báo cho người dùng xem xét để phục hồi lại cần, lưu trình kiểm lỗi vào file log, để tăng tính thực tế, giúp chương trình thân thiện với người dùng Chi tiết hóa cơng việc khối sau: a) Tiền xử lí * Tách cụm tiếng: - Do đầu vào tập tin văn có định dạng, cơng việc loại bỏ đối tượng “lạ” hình ảnh, tham chiếu, mục lục, giữ lại phần text để xử lí - Việc tách thành cụm tiếng có hai mục đích Mục đích thứ tạo tiền đề cho bước tách tiếng Mục đích thứ hai, quan trọng hơn, để tính xác suất N-gram Do tiếng bị ngăn cách dấu câu xem khơng có mối liên hệ với nhau, việc tính xác suất N-gram cụm tiếng vừa làm giảm không gian xử lí, vừa khơng làm giảm tính liên kết tương quan tiếng với văn Tuy nhiên, việc tách cụm có nhược điểm khơng xử lí lỗi dấu câu Đây khơng phải mục tiêu đề tài 56 * Tách tiếng: Do phần cụm tiếng tách chuỗi liên tục kí tự nên chương trình cần phải tách thành tiếng riêng biệt để tiện xử lí Q trình tách văn đầu vào thành tiếng phải qua giai đoạn sau: - Tách văn thành đoạn - Tách đoạn thành “cụm tiếng” Cụm tiếng chuỗi kí tự chữ cái, khoảng trắng, dấu gạch nối, Việc nhận tiếng Anh, lọc cụm toàn tiếng Anh, từ viết tắt, tên riêng, phiên âm, giải Heuristic - Các cụm tiếng Việt tách thành chuỗi riêng biệt Mỗi chuỗi tiếng gồm kí tự chữ (có dấu khơng dấu) * Lọc nhiễu: Sau có cụm tiếng, bước lọc từ tiếng Anh, phiên âm, viết tắt, kí tự lạ, chữ số, - Nhận diện tiếng Anh: + Trong văn tiếng Việt, việc xuất từ tiếng Anh điều thường xảy ra, văn khoa học Việc nhận đâu từ tiếng Anh để thêm dấu quan trọng + Để nhận tiếng Anh lẫn câu tiếng Việt, hệ thống phải khử nhập nhằng gặp từ mà thứ tiếng có VD: the, to, hi, Việc nhìn phức tạp Tuy nhiên, thực tế, tiếng Anh lẫn vào tiếng Việt thường có loại: tên riêng thuật ngữ Hai loại gây nhập nhằng nên vấn đề đơn giản Chỉ cần dùng từ điển tiếng Anh Heuristic giải - Nhận diện từ viết tắt: Từ viết tắt nhận danh sách từ viết tắt Heuristic Thông thường, từ viết tắt chữ hoa, phụ âm chiếm tỉ lệ lớn, kèm dấu chấm VD: CHXHCN, TS , TW, ĐNA 57 - Nhận diện phiên âm: Cho đến nay, chưa có chuẩn thống cách phiên âm tiếng nước ngoài, nên việc nhận đâu tiếng phiên âm đâu tiếng sai tả gặp trở ngại Trong đề tài, sử dụng Heuristic để xử lí phiên âm dạng xxx-yyy-zzz Có nghĩa tiếng phiên âm ngăn cách dấu gạch nối, khơng có khoảng trắng chúng VD: Trê-bưsép, Lê-nin, công-tắc, Với từ phiên âm thơng dụng như: axit, bazo, vecto dùng từ điển để nhận chúng b) Chọn khả thêm dấu theo xác suất N-gram: Với từ điển chuyển đổi initial.txt để chuyển từ khơng dấu thành có dấu Ngồi để tăng độ linh hoạt xác phương pháp, ta thêm từ điển phụ, gọi từ điển cụm từ Cumtu.txt, lưu cụm từ thường xuyên xuất * Phương pháp LRMM (Left Right Maximum Matching) Theo phương pháp này, ta duyệt câu từ trái sang phải chọn từ có nhiều âm tiết có mặt từ điển, thể tiếp tục cho từ đến hết câu Thuật toán trình bày [Chih-Hao Tsai, 2000] Dạng đơn giản dùng giải nhập nhằng từ đơn Giả sử có chuỗi kí tự (tương đương với chuỗi tiếng tiếng Việt) C1, C2, Ta đầu chuỗi, ta kiểm tra xem C1 có phải từ hay khơng sau kiểm tra xem C1C2 có phải từ hay khơng Tiếp tục tìm tìm từ dài Từ dài từ hợp lí Chọn từ đó, sau tìm tiếp cho từ cịn lại xác định toàn chuỗi từ Dạng phức tạp: Quy tắc dạng phân đoạn, hợp lí đoạn từ với chiều dài tối đa Thuật toán ban đầu dạng đơn giản Nếu phát cách tách từ gây nhập nhằng (ví dụ, C1 từ C1C2 từ), ta xem chữ để tìm tất đoạn từ có ban đầu với C1 C1C2 Ví dụ, ta đoạn sau: C1 C2 C3C4 58 C1C2 C3C4C5 C1C2 C3C4C5C6 Chuỗi dài chuỗi thứ 3, từ chuỗi thứ (C1C2) chọn Thực lại bước chuỗi từ hoàn chỉnh Ưu điểm: - Với phương pháp này, ta dễ dàng tách xác ngữ/câu “hợp tác xã||mua bán”, “thành lập||nước||Việt Nam||dân chủ||cộng hòa” - Cách tách từ đơn giản, nhanh, cần dựa vào từ điển - Trong tiếng Hoa, cách đạt độ xác 98,41% [Chinh-Hao Tsai, 2000] Hạn chế: - Độ xác phương pháp phụ thuộc hồn tồn vào tính đủ, tính xác từ điển - Phương pháp tách từ sai trường hợp “học sinh ||học sinh||học”; “một||ông||quan tài||giỏi”; “trước||bàn là||một||ly||nước” * Lý chọn phương pháp là: - Cài đặt phương pháp đơn giản, thời gian không gian xử lí ít, lại khơng địi hỏi kho ngữ liệu huấn luyện gán nhãn ranh giới từ, độ xác LRMM khơng thấp, sai số tách sai từ chấp nhận tách từ khơng dấu Thuật tốn sau: Bước 1: Tách tiếng theo thứ tự từ trái qua phải Điều kiện tách tiếng tạo thành từ có từ điển gần giống với từ có từ điển Sau chuyển sang bước Bước 2: Nếu tiếng tạo thành từ từ điển, dịch tới tiếng trở lại bước 1, ngược lại sang bước Bước 3: Tính xác suất N-gram cho tiếng lấy được, xác suất lớn ngưỡng, dịch tới tiếng trở lại bước 1, ngược lại sang bước 59 Bước 4: Phát sinh ứng viên thay thế, tính xác suất N-gram cho ứng viên Nếu khơng tìm ứng viên tốt hơn, dịch tới tiếng trở lại bước 1, ngược lại sang bước Bước 5: Báo lỗi, nhận định người dùng, cập nhật lại xác suất N-gram, dịch tới tiếng trở lại bước Nhận xét: Ở thuật tốn này, có hai điểm khác biệt với LRMM chuẩn, là: - Điểm khác thứ nhất: tách từ theo thứ tự từ trái qua phải, hệ thống không lấy tiếng tạo thành từ có từ điển, mà lấy thêm tiếng tạo thành chuỗi gần giống với từ từ điển - Điểm khác thứ hai: sau tách xong từ, thuật tốn khơng chuyển đến tiếng liền sau từ cụm, mà dịch tới nấc Có nghĩa là, tiếng thứ hai từ xét trở thành tiếng thứ từ xem xét Điều giúp hệ thống khơng bị bỏ sót trường hợp tối ưu sau thêm dấu Ví dụ 3.5: Ta có cách tách từ câu có dấu câu không dấu sau (các từ phân cách dấu /)  “Học sinh / học / sinh học”  “Học sinh / học sinh / học” -> chuyển thành câu có dấu tạo câu “ Học sinh / học sinh / học” -> sai tách từ chấp nhận phạm vi Khi tách từ phương pháp LRMM, ta có ý đến việc nhận diện tách từ tên riêng dựa từ điển tên riêng Việc xác định tên riêng dựa chữ viết hoa đầu từ, cụm tên riêng cần viết hoa tiếng Ví dụ 3.6: Câu “Nhung van de lien quan toi nguoi dong tinh luyen duoc ban bac soi noi buoi hop nhom toi hom qua” chuyển thành câu có dấu qua bước sau: 60  Tách cụm tiếng: Tạo cụm tiếng “ Nhung van de lien quan toi nguoi dong tinh luyen duoc ban bac soi noi buoi hop nhom toi hom qua”  Tách từ ( Các từ phân cách dấu / ): “Nhung / van de / lien quan / toi / nguoi / dong tinh luyen / duoc / ban bac / soi noi / / buoi / hop / nhom / toi / hom qua” 3.5.3.2 Mơ hình huấn luyện Như trình bày trên, cốt lõi vấn đề tập tin từ điển huấn luyện initial.txt Tập tin chứa xác suất nhóm âm tiết xuất văn tiếng việt Ngồi mơ hình huấn luyện sử dụng phương pháp làm mịn khác mô hình ngơn ngữ N-gram như: Add-one, Witten-Bell, Good-Turing với phương pháp làm trơn hóa mơ hình giúp việc thêm dấu xác Khác với mơ hình thêm dấu tiếng Việt trước đây, tập tin từ điển lưu từ tiếng Việt mà lưu dãy âm tiết Tiếng Việt Điều giúp cho mơ hình “vét cạn” thơng tin giúp cho việc thêm dấu xác 61 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI KẾT LUẬN Luận văn đề cập kĩ thuật làm mịn phân bố xác suất cụm từ tập liệu huấn luyện, để làm giảm kích thước nhớ mơ hình ngơn ngữ nâng cao chất lượng mơ hình Dựa sở lý thuyết đó, luận văn đề xuất mơ hình thêm dấu cho tiếng Việt khơng dấu dựa phân tích cụm Bigram Luận văn áp dụng mơ hình thống kê tần số xuất từ, kèm theo phương pháp tách từ không dấu LRMM sử dụng thêm từ điển cụm từ nên đạt độ xác chấp nhận HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Bài toán thêm dấu cho tiếng Việt không dấu dựa mô hình ngơn ngữ tốn Vì thế, tốn cách giải cịn giai đoạn hồn thiện Trong q trình xây dựng mơ hình ngơn ngữ, đặc biệt mơ hình ngơn ngữ N-gram cịn nhiều khó khăn, địi hỏi người lập trình phải đầu tư nhiều thời gian cơng sức Đây mơ hình ngơn ngữ, thứ nhất, đem lại nhiều ứng dụng thiết thực thực tế, thứ hai, tiếp cận phương pháp phổ biến phương pháp thống kê tần số xuất từ, nên thu hút quan tâm nhiều người Trong trinh tách từ, thực tế không tránh khỏi việc xuất từ (các từ không định nghĩa từ điển) Đây vấn đề bỏ qua ngôn ngữ tự nhiên luôn thay đổi sinh từ mới, từ điển (để xử lí ngơn ngữ tự nhiên) khơng thể cập nhật hết Các nghiên cứu tiếng Nhật tiếng Trung xử lí vấn đề tốt Với gần gũi ngữ pháp đặc điểm ngơn ngữ, ta ứng 62 dụng nghiên cứu tiếng Việt Như nhiều việc phải làm Trong tương lai, nhiều người khai thác lĩnh vực có mơ hình ngơn ngữ hồn hảo hơn, sử dụng liệu lớn để tăng độ xác cho chương trình, đóng góp vào kho tàng tri thức nhân loại Tác giả mong muốn tiếp tục nghiên cứu, phát triển để đưa kết ứng dụng vào thực tế… 63 TÀI LIỆU THAM KHẢO Tiếng việt [1] TS Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên, Khoa Công nghệ Thông tin, Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh, Tháng 122004 Tiếng anh [2] Andreas stolcke, “Entropy-based pruning of backoff language models”, Proceedings of the ARPA Workshop on human language technology, 1998 [3] Andreas stolcke, SRILM – an extensible language modeling toolkit, Conference on spoken language processing, 2002 [4] Boulos Harb, Ciprian Chelba, Jeffrey Dean, Sanjay Ghemawat, “BackOff Language Model Compression”, Proceedings of Interspeech 2009, pp 325-355 [5] Chris Manning and Hinrich Schutze, Foundations of Statistical Natural Language Processing, MIT Press Cambridge, May 1999 [6] Daniel Jurafsky and James H Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, chapter 6, February 2000 [7] R Kneser and H Ney, “Improved backing-off for M-gram language modeling”, Acoustics, Speech, and Signal Processing, 1995 ICASSP-95., 1995 International Conference on [8] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM T J Watson Research Center, Proceedings of the 40th Annual Meeting of the Associaon for Computational Linguistics (ACL), Philadelphia, July 2002 [9] Đoàn Xuân Kiên, “Bàn chuyện đánh dấu tiếng Việt”, đăng trang http://home.tiscali.be/centre.vietnam/ 64 [10] Đoàn Xuân Kiên, “xem lại số vấn đề ngữ âm tiếng Việt: cấu trúc âm tiết”, đăng trang http://home.tiscali.be/centre.vietnam/ [11] Tài liệu phần mềm VietPad công bố trang web http://vietpad.sourceforge.net [12] Tài liệu phần mềm AMPad công bố trang web: http://www.echip.com.vn/echiproot/weblh/qcbg/duynghi/automark [13] Tô Hồng Thắng, Building language model for vietnamese and its application, graduation thesis, 2008 ... ? ?Nghi? ?n cứu mơ hình ng? ?n ngữ N- gram ứng dụng thêm dấu cho tiếng Việt khơng dấu? ??, để tạo kết xử lí ng? ?n ngữ n? ?i chung, có ích cho việc xử lí ng? ?n ngữ tiếng Việt v? ?n vô phong phú n? ?i riêng Ứng dụng... nghi? ?n cứu: Nghi? ?n cứu mơ hình ng? ?n ngữ N- gram, kỹ thuật li? ?n quan tới việc làm tr? ?n hóa ph? ?n bố xác suất mơ hình - Phạm vi nghi? ?n cứu: Nghi? ?n cứu mơ hình ng? ?n ngữ N- gram, ứng dụng t? ?n thêm dấu. .. 3.5 N- gram ứng dụng để thêm dấu cho tiếng Việt không dấu Kết lu? ?n hướng phát tri? ?n đề tài CHƯƠNG TỔNG QUAN VỀ CÁC MƠ HÌNH NG? ?N NGỮ VÀ CÁC ỨNG DỤNG TRONG LĨNH VỰC XỬ LÍ NG? ?N NGỮ TỰ NHI? ?N Ng? ?n ngữ

Định dạng
Số trang	72
Dung lượng	814,25 KB