1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng khmer

50 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 1,57 MB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA SƠN PHÚ QUÝ ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ TRONG VĂN BẢN TIẾNG KHMER LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA SƠN PHÚ QUÝ ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ TRONG VĂN BẢN TIẾNG KHMER Chuyên ngành : Khoa học máy tính Mã số : 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS TS PHAN HUY KHÁNH Đà Nẵng - Năm 2017 i LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn SƠN PHÚ QUÝ ii TÓM TẮT LUẬN VĂN ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ TRONG VĂN BẢN TIẾNG KHMER Học viên: Sơn Phú Quý - Chuyên ngành: Khoa học máy tính Mã số: 60480101 - Trường Đại học Bách khoa Tóm tắt – Luận văn đề cập việc ứng dụng tiền tố nhận diện từ văn tiếng Khmer Cây tiền tố (một cấu trúc liệu dùng để lưu trữ mảng liên kết xâu ký tự ứng dụng rộng rãi thuật tốn xử lý xâu cung cấp nhiều phép toán giúp giảm thời gian thực giải thuật) Phương pháp quan trọng xử lý ngôn ngữ tiếng Khmer Trong tiếng Khmer khơng có dấu hiệu để phân biệt từ câu Luận văn ứng dụng tiền tố nhận diện từ văn tiếng Khmer Giải pháp sử dụng kho ngữ liệu từ vựng phục vụ việc tách từ Đây giải pháp hiệu cho toán tách từ tiếng Khmer Từ khóa – tiền tố; tách từ; tiếng Khmer; ngôn ngữ; kho ngữ liệu từ vựng Abstract - Thesis refers to the application of trie identified in the Khmer text The trie (a data structure used to store an associative array of strings is widely used in string processing algorithms because it provides many mathematical operations that reduce the algorithm execution time) This method is important in the Khmer language processing In Khmer there is no sign to distinguish the words in the sentence This thesis will apply the identification tree from the Khmer text Solution using vocabulary lexicon for word separation This is one of the effective solutions for the Khmer word separation problem Keyword - trie; magnetic separator; Khmer language; language; Vocabulary glossary iii MỤC LỤC LỜI CAM ĐOAN .i TÓM TẮT LUẬN VĂN ii MỤC LỤC iii DANH MỤC CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC KÝ HIỆU vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU 1 Lý chọn đề tài .1 Mục tiêu nhiệm vụ Đối tượng phạm vi nghiên cứu Giả thiết nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn đề tài CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Bài toán xử lý tiếng Việt-Kinh tiếng DTTS tiếng Khmer 1.1.1 Xử lý tiếng Việt-Kinh 1.1.2 Các tốn xử lý tiếng dân tợc thiểu số (DTTS) 10 1.1.3 Các toán xử lý tiếng Khmer .11 1.2 Vấn đề nhận diện từ Khmer 11 1.2.1 Các phương pháp tách từ tiếng Việt 11 1.2.2 Tách từ tiếng dân tộc thiểu số (DTTS) .11 1.3 Tìm hiểu tiếng Khmer 12 1.3.1 Giới thiệu tiếng Khmer 12 1.3.2 Những vấn đề về ngôn ngữ 18 1.3.3 Những khó khăn xử lý tiếng Khmer 18 1.4 Một số phương pháp tách từ tiếng khmer .19 1.4.1 Phương pháp tách từ Conditional Random File (CRF) 19 1.4.2 Mơ hình Bigram mơ hình chính tả âm tiết Bigram .19 1.4.3 Đánh giá hai phương pháp 20 CHƯƠNG VẬN DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ KHMER 21 2.1 Cây tiền tố .21 2.1.1 Khái niệm 21 2.1.2 Các vận dụng tiền tố 21 2.1.3 Khả vận dụng xử lý tiếng Khmer 21 iv 2.2 Giải pháp đề xuất 21 2.2.1 Mơ hình giải pháp 21 2.2.2 Các bước triển khai 22 2.3 Xây dựng kho văn nhận diện từ .23 2.3.1 Xây dựng kho văn tiếng Khmer .23 2.3.2 Sử dụng tiền tố 23 2.3.3 Thiết kế sở dữ liệu .24 2.3.4 Phân tích use case 25 2.3.5 Hiện thực hóa use case 26 CHƯƠNG CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP 27 3.1 Chuẩn bị môi trường thử nghiệm 27 3.1.1 Môi trường công cụ .27 3.1.2 Chuẩn bị dữ liệu 27 3.1.3 Tiến hành thử nghiệm 27 3.1.4 Xây dựng tiêu chí đánh giá kết 29 3.2 Triển khai xây dựng ứng dụng .30 3.2.1 Các bước triển khai 30 3.2.2 Thu thập kết 30 3.3 Đánh giá kết thử nghiệm 30 3.3.1 Thống kê kết .30 3.3.2 So sánh giải pháp với giải pháp có 31 3.3.3 Đánh giá 31 3.3.4 Đề xuất vận dụng (cho tách từ) .31 KẾT LUẬN 32 TÀI LIỆU THAM KHẢO .33 QUYẾT ĐỊNH GIAO ĐỀ TÀI BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN v DANH MỤC CÁC CHỮ VIẾT TẮT CSGT Cảnh sát giao thông CRF Conditional Random File DTTS Dân tộc thiểu số ĐHCĐ Đại hội cổ đông HĐQT Hội đồng quản trị HS Học sinh KHXH Khoa học xã hội XLNNTN Xử lý ngôn ngữ tự nhiên VN Việt Nam vi DANH MỤC CÁC KÝ HIỆU AN Số Atak BTEC Ngữ liệu du lịch C Phụ âm CSDL Cơ sở liệu END Ký hiệu kết thúc NS Không khoảng trống KCC Cụm ký tự Khmer KCE Chuỗi biểu thức Khmer chung V Nguyên âm IV Nguyên âm độc lập Precision Tỷ lệ từ tách từ tách được, Precision 100% có nghĩa tất từ phù hợp Recall Tỷ lệ từ tách tổng số từ cần tách F-score Được sử dụng để đánh giá hiệu tổng thể hệ thống cách kết hợp hai số Precision Recall UNK Ký hiệu tập Khmer Unicode US Dấu đặt SUB Vị trí gửi chân vii DANH MỤC CÁC BẢNG Số hiệu Tên bảng bảng Trang 1.1 Phụ âm 12 1.2 Nguyên âm 15 1.3 Nguyên âm độc lập 16 1.4 Chữ số 17 1.5 Các ký tự đặc biệt (ký hiệu) 18 1.6 Kết so sánh hai phương pháp tách từ Word Bigram KCC Bigram 20 2.1 Talbe tu_vung: Từ vựng 24 2.2 Phân tích actor 25 3.1 Dữ liệu thử nghiệm 27 3.2 Thu thập kết 30 3.3 Thống kê kết 30 3.4 So sánh giải pháp 31 viii DANH MỤC CÁC HÌNH Số hiệu hình Tên bảng Trang 2.1 hình giải pháp 22 2.2 tiền tố biểu diễn từ vựng tiếng Khmer 24 2.3 Sơ đồ use case mức tổng quát ứng dụng 25 2.4 Lược đồ use case tách từ 26 2.1 Dữ liệu thử nghiệm đầu vào 28 2.2 Giao diện ứng dụng 28 2.3 Dữ liệu đầu 29 26 2.3.5 Hiện thực hól use case  Use case tách từ Tên Tách từ Tác nhân Người dùng Chức Giúp người dùng tách văn tiếng Khmer Kịch Actor System response Nhập văn cần tách từ Nhấn nút tách từ Tiến hành tách từ trả kết Lược đồ use case tách từ Hình 2.4 Lược đồ use case tách từ 27 CHƯƠNG CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP 3.1 Chuẩn bị môi trường thử nghiệm 3.1.1 Môi t ường và c ông c ụ Môi trường cài đặt sử dụng: Máy tính cá nhân Cơng cụ : ngơn ngữ lập trình java hệ quản trị sở liệu MySQL 3.1.2 Chu ẩn bị âữ liệu Để tiến hành thử nghiệm, sử dụng kho từ vựng âm tiết tiếng Khmer có độ lớn sau : Số lượng từ đơn: 7278 từ Số lượng từ ghép: 17095 từ Số lượng cụm từ: 24574 Tôi sử dụng máy tính cá nhân cho văn thuộc lĩnh vực thông tin xã hội, trường Đại học Trà Vinh cung cấp, với trường hợp khác độ lớn văn Bảng 3.1 Dữ liệu thử nghiệm Độ lớn văn Số lượng từ Số lượng từ đơn Số lượng từ ghép 23KB 12 6 27KB 22 15 27,6KB 100 20 80 3.1.3 Tiến hành thử nghiệe Dữ liệu đầu vào 28 Hình 2.1 Dữ liệu thử nghiệm đầu vào Giao diện ứng dụng Hình 2.2 Giao diện ứng dụng 29 Dữ liệu đầu Hình 2.3 Dữ liệu đầu 3.1.4 Xny âựng tiêu c hí đánh giá kết qu ả Kết thử nghiệm tách từ đánh giá dựa kết hợp hai độ đo : Độ xác (Precision) tỷ lệ từ tách từ tách được, Precision 100% có nghĩa tất từ phù hợp Số từ tách Precision = Số từ tách Độ bao phủ (Recall) tỷ lệ từ tách tổng số từ cần tách Số từ tách Recall = Số từ cần tách Chỉ số F-score sử dụng để đánh giá hiệu tổng thể hệ thống cách kết hợp hai số Precision Recall 30 x Precision x Recall F-score = 3.2 Precision + Recall Triển khai xây dựng ứng dụng 3.2.1 Các bước t ỉn khli Bước 1: Xây dựng sở liệu từ vựng tiếng Khmer Bước 2: Xây dựng mã nguồn Bước 3: Chuẩn bị liệu thử nghiệm Bước 4: Tiến hành chạy thử nghiệm Bước 5: Thu thập kết 3.2.2 Thu thập kết qu ả Bảng 3.2 Thu thập kết quả Độ lớn văn 23 KB 27 KB 27,6 KB Số lượng từ 12 22 100 Số lượng từ đơn 15 20 Số lượng từ ghép 80 3.3 Đánh giá kết thử nghiệm 3.3.1 Th́ng kê c ác kết qu ả Thời gian 1s 2s 7s F-score 100% 100% 100% Bảng 3.3 Thống kê các kết quả Độ lớn văn 23 KB 27 KB 27,6 KB Số lượng từ 12 22 100 Số lượng từ đơn 15 20 Số lượng từ ghép 80 Thời gian F-score 1s 2s 7s 100% 100% 100% 31 3.3.2 )o ôánh giải pháp với c ác giải pháp c ó Bảng 3.4 So sánh các giải pháp Tên giải pháp Độ xác Cách tiếp cận tách từ dựa nguyên tắc 85% Word Bigram Vs Orthographic Syllable Bigram 92% Cách tiếp cận tách từ dựa từ điển 95% CRF-Conditional Random Fields 98% Giải pháp đề xuất 99% 3.3.3 Đánh giá Phương pháp tách từ tiếng Khmer dùng kho ngữ liệu từ vựng tiếng Khmer kết hợp với việc ứng dụng tiền tố nhận diện từ văn tiếng Khmer đạt độ xác khoảng 99% Hạn chế phương pháp chưa giải âm tiết từ vựng sai lỗi tả áp dụng ký tự Khmer viết thường 3.3.4 Đề xu ất vận âụng Dc ho tác h từ Để đạt kết hợp lý, nghiên cứu xử lý từ hay từ sai lỗi tả 32 KẾT LUẬN Kết đạt Giải pháp đề xuất mô hình phân tách từ sử dụng kho ngữ liệu từ vựng tiếng Khmer, kết hợp ứng dụng tiền tố nhận diện từ, hồn tồn khả thi có kết thử nghiệm đạt độ xác cao 99% Những vấn đề cần tiếp tục Xử lý vấn đề nhập nhằng, nhận diện từ vai mượn, từ Hướng phát triển Hướng nghiên cứu xử lý câu có chứa từ từ sai lỗi tả, xử lý nhặp nhằng Áp dụng vào xử lý tách câu văn Bản 33 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên Công nghệ 27 (2011) 251258, Cách tiếp cận tách từ tiếng Khmer dùng sở dữ liệu văn [2] Nguyễn Thị Huệ, Tình hình sử dụng ngơn ngữ Khmer tại Trà Vinh, 2008 : 56-65, Đại Cần Thơ [3] Ngô Chân Lý, Tự học chữ Khmer, NXBTT, 8/2014 [4] Đinh Điền, Hướng dẫn tách câu tiếng Việt, 15/1/2008 Tiếng nước ngoài [5] Chea Sok Huor, Top Rithy, Ros Pich Hemy, Vann Navy Word Bigram Vs Orthographic Syllable Bigram in Khmer Word Segmentation [6] Vichet Chea*†, Ye Kyaw Thu†, Chenchen Ding†, Masao Utiyama†, Andrew Finch†, Eiichiro Sumita†* Khmer Word Segmentation Using Conditional Random Fields, Research and Development Center, NIPTICT, Phnom Penh, Cambodia Tài liệu Intr nrt [7] «Dịch tự động» Wikipedia Trang web : https://vi.wikipedia.org/wiki/Dịch_tự _động [8] HomePage Group Trang web : http://mmhomepage.com/burmese/Easy-Khmer-TiengCampuchia/ [9] «Khmer alphabe» Wikipedia https://en.wikipedia.org/wiki/Khmer_alphabet [10] «Trie» Wikipedia Trang web : https://vi.wikipedia.org/wiki/Trie Trang web : ... dụng đặc trưng ngữ pháp tiếng Khmer Thành phần tiền tố, tiền tố phương pháp xây dựng tiền tố Phương pháp nghiên cứu thực nghiệm: Xây dựng tiền tố ứng dụng nhận diện từ tiếng Khmer, xây dựng từ. .. phép tốn giúp giảm thời gian thực giải thuật) Phương pháp quan trọng xử lý ngôn ngữ tiếng Khmer Trong tiếng Khmer dấu hiệu để phân biệt từ câu Luận văn ứng dụng tiền tố nhận diện từ văn tiếng Khmer. .. ứng dụng tiền tố nhận diện từ văn tiếng Khmer, xây dựng kho ngữ liệu từ vựng tiếng Khmer Hỗ trợ việc xử lý tiếng Khmer mức độ cao Nhiệm vụ: nghiên cứu ứng dụng XLNNTN, vấn đề xử lý tiếng Khmer Tiếp

Ngày đăng: 22/06/2020, 10:58

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2]. Nguyễn Thị Huệ, Tình hình sử dụng ngôn ngữ Khmer tại Trà Vinh, 2008 : 9 56-65, Đại Cần Thơ Sách, tạp chí
Tiêu đề: Tình hình sử dụng ngôn ngữ Khmer tại Trà Vinh, 2008 : 9 56-65
[4]. Đinh Điền, Hướng dẫn tách câu tiếng Việt, 15/1/2008 Tiếng nước ngoài Sách, tạp chí
Tiêu đề: Hướng dẫn tách câu tiếng Việt, "15/1/2008
[6]. Vichet Chea*†, Ye Kyaw Thu†, Chenchen Ding†, Masao Utiyama†, Andrew Finch†, Eiichiro Sumita†*. Khmer Word Segmentation Using Conditional Random Fields, Research and Development Center, NIPTICT, Phnom Penh, Cambodia.Tài liệu Intr nrt Sách, tạp chí
Tiêu đề: Khmer Word Segmentation Using Conditional Random Fields, " Research and Development Center, NIPTICT, Phnom Penh, Cambodia
[7]. ôDịch tự độngằ. Wikipedia. Trang web : https://vi.wikipedia.org/wiki/Dịch_tự _động [8]. HomePage Group. Trang web : http://mmhomepage.com/burmese/Easy-Khmer-Tieng-Campuchia/[9]. ôKhmer alphabeằ. Wikipedia. Trang web :https://en.wikipedia.org/wiki/Khmer_alphabet Link
[10]. ôTrieằ. Wikipedia. Trang web : https://vi.wikipedia.org/wiki/Trie Link
[1]. Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 27 (2011) 251- 258, Cách tiếp cận tách từ tiếng Khmer dùng trong cơ sở dữ liệu văn bản Khác
[5]. Chea Sok Huor, Top Rithy, Ros Pich Hemy, Vann Navy. Word Bigram Vs Orthographic Syllable Bigram in Khmer Word Segmentation Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w