Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 99 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
99
Dung lượng
2,51 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VILAVONG SOUKSAN NGHIÊNCỨUCÁCPHƯƠNGPHÁPTÁCHTỪPHỤCVỤPHÂNLOẠIVĂNBẢNTIẾNGLÀO LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐÀ NẴNG, NĂM 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VILAVONG SOUKSAN NGHIÊNCỨUCÁCPHƯƠNGPHÁPTÁCHTỪPHỤCVỤPHÂNLOẠIVĂNBẢNTIẾNGLÀO Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học : PGS TS PHAN HUY KHÁNH ĐÀ NẴNG, NĂM 2017 ii LỜI CAM ĐOAN Tôi cam đoan công trình nghiêncứu khoa học cá nhân hướng dẫn trực tiếp PGS.TS Phan Huy Khánh Các liệu, ví dụ trích dẫn tham khảo luận án đảm bảo độ tin cậy, chuẩn xác trung thực Những kết đóng góp mặt lý thuyết ứng dụng luận án chưa công bố công trình khác Tác giả luận án, VILAVONG SOUKSAN iii MỤC LỤC LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC CHỮ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH ix MỞ ĐẦU 1.Mục tiêu, đối tượng phạm vi nghiêncứu 2.Nhiệm vụnghiêncứu kết đạt .4 3.Cấu trúc luận án .4 4.Đóng góp luận án .5 CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNGLÀO .6 1.1.TÌM HIỂU TIẾNGLÀO 1.1.1 Giới thiệu tiếngLào 1.1.2 Nguồn gốc tiếngLào 1.1.3 Những yếu tố ngữ pháptiếngLào 1.2.SO SÁNH TIẾNGLÀO VỚI NGÔN NGỮ LÁNG GIỀNG .12 1.2.1 So sánh bảng chữ 13 1.2.2 So sánh cấu trúc âm tiết 14 1.2.3 So sánh cấu trúc từ vựng 14 1.2.4 So sánh cấu trúc câu 15 1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN .16 1.3.1 Giới thiệu số kết xử lý tiếngLào 16 1.3.2 Thực trạng thách thức xử lý tiếngLào 19 1.3.3 Đặt toán phânloạivăntiếngLào 19 1.4.KẾT LUẬN CHƯƠNG 20 CHƯƠNG 2.PHÂN LOẠIVĂNBẢN VÀ BÀI TOÁN TÁCHTỪ 21 2.1.MỞ ĐẦU VỀ VĂNBẢN VÀ SOẠN THẢO VĂNBẢN 21 2.1.1 Khái niệm văn 21 iv 2.1.2 Khái niệm soạn thảo văn (STVB) 23 2.1.3 Xu soạn thảo văn 24 2.2.BÀI TOÁN PHÂNLOẠIVĂNBẢN .24 2.2.1 Tìm hiểu toán phânloạivăn 24 2.2.2 Quy trình giải toán PLVB 25 2.2.3 Cácphươngpháp giải toán PLVB 27 2.3.BÀI TOÁN TÁCHTỪ TRONG PHÂNLOẠIVĂNBẢN 30 2.3.1 Tìm hiểu toán táchtừ 30 2.3.2 Cácphươngpháptáchtừ 31 2.3.3 Đánh giá hai phươngpháp 35 2.4.PHÂN LOẠIVĂNBẢNTIẾNGLÀO 37 2.4.1 Bài toán phânloạivăntiếngLào 37 2.4.2 Nhu cầu giải toán táchtừtiếngLào 38 2.4.3 Đề xuất giải pháp triển khai 38 2.5.KẾT LUẬN CHƯƠNG 40 CHƯƠNG 3.GIẢI PHÁPTÁCHTỪ TRONG VĂNBẢNTIẾNGLÀO 41 3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP 41 3.1.1 Vấn đề nhận diện từ câu tiếngLào 41 3.1.2 Xây dựng mô hình cấu trúc từ đơn 42 3.1.3 Giải pháp nhận diện từ câu 47 3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN 50 3.2.1 Xây dựng vị từ hàm 50 3.2.2 Xây dựng sở luật 53 3.2.3 Xây dựng máy suy diễn nhận diện từ đơn 54 v 3.3.TRIỂN KHAI GIẢI PHÁPTÁCHTỪ 56 3.2.4 Xây dựng kho ngữ vựng tiếngLào 56 3.3.2 Áp dụng phươngpháp so khớp tối đa 59 3.3.3 Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng 59 3.4.KẾT LUẬN CHƯƠNG 62 CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ 63 4.1.CHUẨN BỊ DỮ LIỆU 63 4.1.1 Phân tích trạng trường ĐH Champasak 63 4.1.2 Thu thập liệu HCVP trường ĐH Champasak 64 4.1.3 Xây dựng kho văn HCVP trường ĐH Champasak 65 4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM 68 4.2.1 Xây dụng mô hình thử nghiệm 68 4.2.2 Chuẩn bị sở thử nghiệm 68 4.2.3 Đề xuất PLVB sử dụng hai phươngpháp SVM RBF 71 4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 72 4.3.2 Thử nghiệm hai phươngpháptáchtừ CRF MM 73 4.3.3 Thử nghiệm táchtừ sử dụng sở luật để xử lý nhập nhằng 75 4.3.4 Thử nghiệm phânloạivăn 76 4.4.KẾT LUẬN CHƯƠNG 80 KẾT LUẬN .81 TÀI LIỆU THAM KHẢO .84 vi DANH MỤC CHỮ VIẾT TẮT Tiếng Anh STT Chữ viết tắt CRF Conditional Random Fields Trường điều kiện ngẫu nhiên CL Computational Linguistics Ngôn ngữ học tính toán MM Maximum Matching So khớp tối đa NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên RBF Radial BasisFunctions network Mạng hàm bán kính xuyên tâm sở SVM Support Vector Machine Máy vec tơ hỗ trợ Nghĩa tiếng Anh Nghĩa tiếng Việt Tiếng Việt Chữ viết tắt STT Nghĩa CHDCND Lào Cộng hoà Dân chủ Nhân dân Lào CNTT Công nghệ Thông tin CSDL Cơ sở liệu ĐHBK Đại học Bách Khoa HCVP Hành văn phòng MSD Máy suy diễn NCKH Nghiêncứu Khoa học NNTN Ngôn ngữ tự nhiên NSD Người sử dụng 10 PLVB Phânloạivăn 11 VBHC Văn hành 12 XL NNTN Xử lý ngôn ngữ tự nhiên vii DANH MỤC CÁC BẢNG Số hiệu Tên bảng bảng Trang 1.1 So sánh chữ cai 13 1.2 So sánh cấu truc am tiết 14 1.3 So sánh cấu trúc từ đơn 14 1.4 So sánh cấu trúc câu 16 4.1 Ví dụ số từ hư tiếnglào 67 4.2 Thử nghiệm phươngpháp nhận diện từ đơn dùng sở luật 73 4.3 Kết táchtừ sử dụng phươngpháp mạng nơ ron 74 4.4 Kết táchtừ sử dụng phươngpháp so khớp tối đa 74 4.5 Táchtừ sử dụng ba phươngpháp CRF, MMS dùng luật 75 4.6 Kết PLVB tiếngLào kết hợp SVM với CRF 76 4.7 PLVB tiếngLào kết hợp SVM với táchtừ dựa sở luật 77 4.8 PLVB RBF tiếngLào kết hợp với táchtừ sử dụng CRF 77 4.9 PLVB tiếngLào kết hợp RBF với táchtừ sử dụng sở luật 78 4.10 Kết thực nghiệm PLVB tiếngLào kết hợp táchtừ 78 viii DANH MỤC CÁC HÌNH Số hiệu hình Tên hình Trang 1.1 Cấu trúc ba tầng chữ Lào 10 1.2 Bàn phím gõ tiếngLào 17 2.1 Mô hình hai giai đoạn phânloạivăn 26 2.2 Mô hình giai đoạn học máy 27 2.3 Đồ thị vô hướng mô tả CRF 34 2.4 Mô hình triển khai giải pháptáchtừphụcvụ PLVB tiếngLào 39 3.1 Cấu trúc từ đơn tiếngLào 42 3.2 Cấu trúc XML cho CSDL chữ tiếngLào 48 3.3 Mô hình nhận diện từ đơn tiếngLào 49 3.4 Cơ chế hoạt động máy suy diễn nhận diện từ đơn 56 3.5 Mô hình cập nhật liệu cho kho ngữ vụng tiếngLào 58 3.6 Mô hình táchtừtiếngLào dùng phươngpháp so khớp tối đa 59 3.7 Mô hình xử lý nhập nhằng táchtừtiếngLào 61 4.1 Mô hình triển khai thử nghiệm PLVB tiếngLào 68 4.2 Đồ thị so sánh kết thực nghiệm ba phươngpháptáchtừ 75 4.3 Lược đồ so sánh kết thực nghiệm mạn RBF SVM 79 ix MỞ ĐẦU Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh vực trí tuệ nhân tạo, tập trung nghiêncứu xây dựng ứng dụng Tin học NNTN, ngôn ngữ người XL NNTN miền đất khó khăn cho mong muốn thâm nhập khai thác Không XL NNTN đòi hỏi người nghiêncứu phải am hiểu tường minh ngôn ngữ học, hiểu thói quen giao tiếp ứng xử người, mà phải có kiến thức chuyên sâu nhiều lĩnh vực khác Tin học, Khoa học Máy tính Trong hệ thống ngôn ngữ giới nay, tiếngLào ngôn ngữ có phong phú, đa dạng mang đậm nét đặc trưng ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật Đây nguyên nhân dẫn đến khó khăn vượt bậc cho người nghiêncứu người sử dụng (NSD) theo cách thông thường xử lý máy tính lĩnh vực xử lý tiếngLào Những năm gần đây, phát triển vượt bậc công nghệ thông tin (CNTT) nói chung, internet nói riêng, làm gia tăng số lượng giao dịch thông tin mạng, hay trực tuyến, cách đáng kể Ngày ngày chứng kiến bùng nổ chóng mặt tin tức điện tử, thư viện điện tử (chẳng hạn phát triển mục lục trực tuyến OPAC-Online Public Access Catalog), trang mạng xã hội, giao dịch đủ hình thức, từ thương mại đến trị, quốc phòng Đặc biệt số lượng văn hành (VBHC) hoạt động chuyên môn, từ cá nhân đến tổ chức khác nhau, giao dịch trực tuyến tăng theo nhanh chóng Nếu trước đây, VBHC túy lưu trữ mang tính địa phương, máy tính đơn lẻ, ngày nay, nhờ điện toán đám mây, nhờ khả lưu trữ trực tuyến với kho liệu gần vô hạn, từ miễn phí đến có chi phí giá rẻ, tạo hội cho gia tăng VBHC Với thực trạng khối lượng thông tin đồ sộ cần xử lý, vấn đề lớn đặt tổ chức tìm kiếm thông tin cách có hiệu ? Giải toán phânloại thông tin/dữ liệu, cụ thể phânloại hay phân lớp văn (PLVB), 4.3.4 Thử nghiệm phânloạivăn Chúng tiến hành thử nghiệm PLVB sử dụng hai phươngpháp máy vec tơ hỗ trợ SVM mạng nơ ron RBF, sau đánh giá kết cách sử dụng độ đo quy ước : độ tích cực TP, độ tiêu cực TN, độ sai tích cực FP, độ sai tiêu cực FN, độ chuẩn xác A, tỷ lệ sai E, độ xác P độ bao phủ R Phânloạivăn SVM kết hợp táchtừ sử dụng mạng nơ ron Bảng mô tả kết thử nghiệm táchtừ sử dụng trường điều kiện ngẫu nhiên CRF để PLVB sử dụng phươngpháp máy vec tơ hỗ trợ SVM (không hiển thị dấu % sau giá trị thống kê) Bảng 4.6 Kết PLVB tiếngLào kết hợp SVM với CRF Thời Tên lờp phânloại Số VB PLVB máy vec tơ hỗ trợ kết hợp táchtừ sử dụng CRF gian BQ TP TN FP FN Accuracy ErrorRate Precision Recall Nhân tiền lương 63 17s 53 274 15 10 92.90 7.10 77.94 84.13 Đào tạo 68 19s 55 272 16 13 91.85 8.15 77.46 80.88 Tuyển sinh 68 19s 48 279 20 93.97 6.03 97.96 70.59 Tốt nghiệp 61 16s 47 280 17 14 91.34 8.66 73.44 77.05 Đoàn-ĐảngThanh niên 68 19s 51 276 17 93.70 6.30 91.07 75.00 Công đoàn 72 22s 63 264 17 92.63 7.37 78.75 87.50 92.73 7.27 82.77 79.19 Overall Phânloạivăn SVM kết hợp táchtừ sử dụng sở luật Kết thử nghiệm PLVB sử dụng phươngpháp máy vec tơ hỗ trợ SVM kết hợp táchtừ sử dụng MM kết hợp sở luật xử lý nhập nhằng sau : 76 Bảng 4.7 Kết PLVB tiếngLào kết hợp SVM với táchtừ dựa sở luật VB Thời gian BQ 63 12s Số Tên lờp phânloại Nhân tiền lương PLVB máy vec tơ hỗ trợ kết hợp táchtừ sử dụng sở luật TP TN FP FN Accuracy ErrorRate Precision Recall 51 276 12 93.97 6.03 85.00 80.95 Đào tạo 68 14s 59 268 14 93.43 6.57 80.82 86.76 Tuyển sinh 68 14s 54 273 21 14 90.33 9.67 72.00 79.41 Tốt nghiệp 61 11s 48 279 12 13 92.90 7.10 80.00 78.69 Đoàn-ĐảngThanh niên 68 14s 53 274 15 94.24 5.76 91.38 77.94 Công đoàn 72 15s 62 265 10 95.61 4.39 92.54 86.11 93.41 6.59 83.62 81.64 Overall : Phânloạivăn RBF kết hợp táchtừ sử dụng CRF Kết thử nghiệm PLVB sử dụng phươngpháp mạng nơ ron RBF kết hợp táchtừ sử dụng phươngpháp trường điều kiện ngẫu nhiên CRF sau : Bảng 4.8 PLVB RBF tiếngLào kết hợp với táchtừ sử dụng CRF Tên lờp phânloại Số VB Thời gian BQ TP Nhân tiền lương 63 13s Đào tạo 68 Tuyển sinh PLVB mạng nơ ron RBF kết hợp táchtừ sử dụng CRF FP FN 61 269 13 95.65 4.35 82.43 96.83 15s 59 271 10 94.56 5.44 85.51 86.76 68 15s 46 284 13 22 90.41 9.59 77.97 67.65 Tốt nghiệp 61 11s 55 275 19 92.96 7.04 74.32 90.16 Đoàn-ĐảngThanh niên 68 15s 48 282 20 91.92 8.08 84.21 70.59 Công đoàn 72 17s 45 285 27 92.18 7.82 97.83 62.50 7.05 83.71 79.08 Overall : Accuracy 92.95 ErrorRate Precision Recall TN Thử nghiệm táchtừ sử dụng sở luật xử lý nhập nhằng để PLVB sử dụng phươngpháp mạng nơ ron RBF Phânloạivăn RBF kết hợp táchtừ sử dụng sở luật Kết thử nghiệm PLVB sử dụng phươngpháp mạng nơ ron RBF kết hợp táchtừ sử dụng MM kết hợp sở luật xử lý nhập nhằng sau : 77 Bảng 4.9 Kết PLVB tiếngLào kết hợp RBF với táchtừ sử dụng sở luật VB Thời gian BQ 63 Đào tạo Số Tên lờp phânloại PLVB mạng nơ ron RBF kết hợp táchtừ sử dụng sở luật TP TN FP FN Accuracy 12s 55 275 19 92.44 7.56 74.32 87.30 68 14s 54 276 14 95.38 4.62 96.43 79.41 Tuyển sinh 68 14s 52 278 24 16 89.19 10.81 68.42 76.47 Tốt nghiệp 61 10s 51 279 10 96.77 3.23 98.08 83.61 Đoàn-ĐảngThanh niên 68 14s 55 275 13 94.83 5.17 91.67 80.88 Công đoàn 72 16s 63 267 11 94.29 5.71 85.14 87.50 93.82 6.18 85.68 82.53 Nhân tiền lương Overall : ErrorRate Precision Recall Đánh giá phươngpháp PLVB kết hợp táchtừTừ kết thử nghiệm PLVB sử dụng hai phươngpháp máy vec tơ hỗ trợ SVM mạng nơ ron RBF kết hợp hai phươngpháptáchtừ sử dụng trường điều kiện ngẫu nhiên CRF so khớp tối đa MM kết hợp sở luật xử lý nhập nhằng, đưa bảng đánh giá so sánh sau : Bảng 4.10 Kết thực nghiệm PLVB tiếngLào kết hợp táchtừ Tên lờp phânloại PLVB với vec tơ hỗ trợ SVM Số Thời VB gian Táchtừ CRF Dựa sở luật BQ TP Accuracy Nhân lương 63 TP PLVB dùng mạng nơ ron RBF Táchtừ CRF Accuracy TP Accuracy Dựa sở luật TP Accuracy 92.90 51 93.97 61 95.65 55 92.44 Đào tạo 53 10s 68 12s 55 91.85 59 93.43 59 94.56 54 95.38 Tuyển sinh 68 12s 48 93.97 54 90.33 46 90.41 52 89.19 Tốt nghiệp 61 47 91.34 48 92.90 55 92.96 51 96.77 Đoàn-Đảng -Thanh niên 68 12s 51 93.70 53 94.24 48 91.92 55 94.83 Công đoàn 72 15s 63 92.63 62 95.61 45 92.18 63 94.29 Tổng số văn 400 9s 92.73 93.41 78 92.95 93.82 Để thấy hiệu giải pháp PLVB táchtừ đề xuất luận án, hình đồ thị tổng hợp kết đánh giá theo tên lớp phânloạitừ kho văn HCVP trường Đại học Champasak hai phươngpháp PLVB kết hợp hai phươngpháptáchtừ chọn : - SVM+CRF : PLVB sử dụng phươngpháp máy vec tơ hỗ trợ SVM táchtừ sử dụng trường điều kiện ngẫu nhiên CRF - SVM+Luật : PLVB sử dụng phươngpháp máy vec tơ hỗ trợ SVM táchtừ sử dụng sở luật để xử lý nhập nhằng - RBF+CRF : PLVB sử dụng phươngpháp mạng nơ ron RBF táchtừ sử dụng trường điều kiện ngẫu nhiên CRF - RBF+Luật : PLVB sử dụng phươngpháp mạng nơ ron RBF táchtừ sử dụng sở luật để xử lý nhập nhằng Hình 4.3 Lược đồ so sánh kết thực nghiệm mạng RBF SV Kết đánh giá cho bảng 4.10 đồ thị 4.2 cho thấy PLVB sử dụng phươngpháp RBF+CRF (mạng nơ ron RBF táchtừ sử dụng trường điều kiện ngẫu nhiên CRF) đạt kết cao cho thể loạivăn Tốt nghiệp Tuy nhiên tính kết trung bình cho thể loại VBHC, phươngpháp PLVB sử dụng phươngpháptáchtừ sử dụng sở luật để xử lý nhập nhằng đạt kết khả quan 79 4.4 KẾT LUẬN CHƯƠNG Trong chương này, luận án trình bày tổng hợp nghiêncứu PLVB nói chung toán PLVB tiếngLào nói riêng Về mặt lý thuyết, phươngpháp máy vec tơ hỗ trợ SVM đơn giản phươngpháp mạng nơ ron RBF trình thực nghiệm phức tạp không dễ tìm tham số phù hợp Quá trình lựa chọn tham số ngưỡng loại bỏ đặc trưng, thường trình thử-sai nhiều công sức Với mạng nơ ron RBF, trình thực nghiệm tiến hành công cụ thư viện có sẵn nên hệ thống tham số lựa chọn cách đơn giản nhanh chóng Thông qua kết thực nghiệm cho thấy, mạng nơ ron RBF giải toán PLVB cho kết khả quan phânloại SVM, không nhiều Tuy nhiên với hai phân loại, kết thực nghiệm cho thấy nhiều lỗi phânloại nhầm lớp văn Chúng xem xét kỹ mẫu văn bị phânloại sai nhận thấy kích thước tệp liệu huấn luyện hạn chế yếu tố dẫn đến hiệu chưa cao trình tiến hành thử nghiệm Giải pháp PLVB kết hợp táchtừ sử dụng sở luật để xử lý nhập nhằng thực đáp ứng yêu cầu thực tiễn trường Đại học Champasak tiếngLào 80 KẾT LUẬN Các kết luận án Xuyên suốt luận án kết nghiêncứu XL NNTN nói chung, xử lý tiếngLào nói riêng, liên quan chủ yếu đến toán xử lý văn bản, PLVB toán táchtừtiếngLào Nôi dung nghiêncứu tập trung tìm hiểu khái niệm, mô hình, phương pháp, kỹ thuật so sánh, đánh giá ưu nhược điểm phươngpháp Luận án tập hợp trình bày số phươngpháp phổ biến máy vec tơ hỗ trợ SVM mạng nơ ron RBF Từ luận án đưa định sử dụng phươngpháp PLVB cho tiếngLàoTừ nhu cầu thực tiễn đổi hoạt động hành ứng dụng CNTT, giải vấn đề phânloại VBHC trường Đại học Champasack, nước CHDCND, luận án đề xuất giái pháp PLVB sở giải toán táchtừ Kết đóng góp luận án triển khai nội dung sau : Tìm hiểu đặc trưng ngữ pháp hệ thống ngữ pháp chữ viết Lào, đề xuất xây dựng mô hình cấu trúc từ đơn mang tính đặc thù tiếngLàoTừ đó, vận dụng xây dựng sở luật máy suy diễn cho phép nhận diện từ đơn câu văn xây dựng kho ngữ liệu từ đơn tiếngLàoTừ kho từ đơn có, tiến hành xây dựng kho từ vựng gồm từ đơn, từ ghép cụm từ, kết hợp kiểm tra sửa lỗi thủ công, phụcvụ giải toán táchtừtiếngLàoCác kho ngữ vựng từ đơn cụm từtiếngLào chưa có, chưa xây dựng theo định hướng mã nguồn mở từ trước tới Để triển khai PLVB, tìm hiểu, phân tích thực tiễn hoạt động phân loại, lưu trữ loại VBHC khác trường Đại học Champasak, từ thu thập, tổ chức lưu trữ văn để tạo CSDL VBHC phụcvụ bước xây dựng kho ngữ liệu thử nghiệm Với văn vào từ CSDL VBHC, tiến hành bóc táchtừtiếngLào sử dụng phươngpháp so khớp tối đa kho từ vựng, kết hợp xử lý nhập nhằng sử dụng sở luật Để tiến hành thử nghiệm, chuẩn bị đầy đủ điều kiện sở, môi trường công cụ thử nghiệm, lựa chọn phươngpháp PLVB, táchtừ lựa chọn tiêu chí, hay độ đo, để đánh giá kết Sau đó, tiến hành thử nghiệm PLVB tiếng 81 Lào sử dụng hai phươngpháp máy vec tơ hỗ trợ SVM hàm bán kính sở RBF, kết hợp thử nghiệm táchtừ theo hai phươngpháp trường điều kiện ngẫu nhiên dựa sở luật đề xuất Các kết thử nghiệm PLVB táchtừ đánh giá, so sánh thông qua bảng biểu đồ - PLVB sử dụng phươngpháp máy vec tơ hỗ trợ SVM táchtừ sử dụng trường điều kiện ngẫu nhiên CRF đạt độ xác 92.73 % - PLVB sử dụng phươngpháp máy vec tơ hỗ trợ SVM táchtừ sử dụng sở luật để xử lý nhập nhằng đạt độ xác 93.41% - PLVB sử dụng phươngpháp mạng nơ ron RBF táchtừ sử dụng trường điều kiện ngẫu nhiên CRF đạt độ xác 92.94% - PLVB sử dụng phươngpháp mạng nơ ron RBF táchtừ sử dụng sở luật để xử lý nhập nhằng đạt độ xác 93.82% Có thể nhận định, giải pháptáchtừtiếngLào đề xuất kết hơp phươngpháp khử bỏ nhập nhằng đặc trưng ngữ pháp hệ viết Lào Quá trình táchtừ dựa vào kho ngữ vựng, thực tế đòi hỏi phải có kho ngữ liệu đủ lớn để táchtừ hiệu Những giải pháp mà đề xuất góp phần xử lý phần tượng nhập nhằng văntiếng Lào, cụ thể xử lý nhập nhằng đồng tự (hai từ có ký tự) Giải pháp đóng góp có ý nghĩa cho tiến trình xử lý tiếngLào nói riêng, XL NNTN nói chung, góp phần tiếp tục triển khai hoàn thiện toán xử lý PLVB tiếngLàotự động Mặc dù với dung lượng chưa đủ lớn bước chạy thử nghiệm, triển vọng mở rộng kho ngữ vụng khả thi Mặt khác, để đạt độ xác cao hơn, cần bổ sung luật cho phép xử lý nhập nhằng cách hiệu Các kết nghiêncứu công bố công trình [1][2][3] Phân tích mặt hạn chế Thông qua kết thực nghiệm cho thấy, kết hợp táchtừ sử dụng giải pháp sở luật để xử lý nhập nhằng, phươngpháp mạng nơ ron RBF giải toán PLVB cho kết tốt (tuy không nhiều) phânloại máy vec tơ hỗ trợ SVM Các kết nghiêncứu công bố công trình [3] Tuy nhiên, luận n vài hạn chế sau : Các thử nghiệm sử dụng thuật toán máy vec tơ hỗ trợ SVM mạng nơ ron RBF cho toán PLVB thử 82 nghiệm kho VBHC tiếngLào tuý văn bản, đơn ngữ, không chứa thành phần đồ hoạ, công thức hay thành phần đa tạp, multimedia… Mặt khác, phânloại sáu chủ đề trường Đại học Champasak Nhân tiền lương, Đào tạo, Tuyển sinh, Tốt nghiệp, Đoàn-ĐảngThanh niên Công đoàn, mà chưa xử lý PLVB thể loại thông dụng Công văn, Thông báo, Báo cáo, Quy định, Quyết định, Kinh tế, Pháp luật… hay PLVB theo tiêu chí cụ thể khác trường tuỳ theo yêu cầu thực tế Kho văn HCVP chưa thật lớn, mang tính thử nghiệm, chưa đối sánh kết thử nghiệm nhiều liệu khác Mặt khác chưa vận dụng thuật toán khác để chọn phươngpháp hợp lý cho nhu cầu thực tiễn trường Đại học Champasak Hướng phát triển luận án Hướng phát triển trước mắt luận án tìm cách khắc phục mặt hạn chế liên quan đến giải pháp tiền trinh thử nghiệm PLVB đề xuất Sau đó, tiếp tục đánh giá so sánh kết thử nghiệm để tìm phươngpháp tối ưu, vận dụng hiệu trường Đại học Champasak, mở rộng ứng dụng cho trường Đại học khác nước CHDCND Lào Trong tương lai, tiếp tục nghiêncứu mối quan hệ kích thước ngữ liệu huấn luyện, mức độ cân ngữ liệu huấn luyện tác động lên hiệu phươngphápphânloại Chúng tiếp tục nghiêncứu giải toán PLVB cho văn đa ngữ, đa tạp (multimedia), đa lĩnh vực, có kích thước hay dung lượng lớn môi trường sử dụng linh hoạt Hơn nữa, tiếp tục cải thiện độ xác phươngpháp PLVB, táchtừtiếngLào có được, thông qua việc cải thiện sở luật, máy suy diễn kết hợp thêm số đặc trưng từ loại, cú pháp ngữ nghĩa hệ việt tiếngLào 83 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Ch Apté, Automated learning of decision rules for text categorization, in ACM Trans Inf Syst, July 1994 [2] Chr M Bishop, Pattern Recognition and Machine Learning, Springer 2007 [3] N Chirawichitchai, Developing an effective Thai document categorization framework base on term relevance frequency weighting in Knowledge Engineering, 2010 8th International Conference on ICT, Nov 2010 [4] T M Cover and P E Hart, Nearest neighbor pattern classification, IEEE Trans Inform Theory, vol IT-13, pp 21-27, Jan 1967 [5] J F¨urnkranz, A Study Using n-gram Features for Text Categorization, in Austrian Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-98-30, 1998 [6] Mouton de Gruyter, A Grammar of Lao, Copyright 2007 by Walter de Gruyter Ch P Mekanavin, S & B Kijsirikul [7] Meknavin S, Charoenpornsawat P, Kijsirikul B Feature-Based Thai Words Segmentation Proceedings of the Natural Language Processing Pacific Rim Symposium, p41-48 Phuket, Thailand, 1997 [8] H X Huan, D T T Hien, H H Tue, Training Interpolation Radial Basis Function Networks Signal Processing, Vol 87, Issue 11 2007, pp 2708–2717, 2007 [9] D T T Hien, H X Huan, H H Tue, Local RBF Neural Networks for Interpolating Multivariate Functions IEEE International Conference on Research, Innovation and Vision for the Future in Computing & Communications Technologies, ENST 2008 S 001, pp.70-75, 2008 [10] T Joachims, Text categorization with suport vector machines : Learning with many relevant features Proceedings of the 10th European Conference on Machine Learning, ECML '98, 1998 [11] W Y Ma, K J Chen, Introduction to CKIP Chinese Word Segmentation System for the First International Chinese Word Segmentation Bakeoff Web: http://www.aclweb.org/anthology/W03-1726 [12] N C Tu, N T, Kien, P X Hieu, N L Minh, H Q Thuy Vietnamese word segmentation with CRF and SVMs, An Investigation In 20th Pacific Asia Conference on Language, Information and Computation (PACLIC 2006), Wuhan, China 84 [13] H P Le, N T M Huyen, A Roussanaly, H T Vinh A Hybrid Approach to Word Segmentation of Vietnamese Texts Language and Automata Theory and Applications, Springer Edition, 2008 (web: https://hal.inria.fr/inria-00334761/PDF/LATA039.pdf) [14] D Palmer A Trainable Rule-based Algorithm for Word Segmentation The MITRE Corporation 202 Burlington Rd Bedford, MA 01730, USA, 1996 [15] JC Platt, Sequential minimal optimization : A fast algorithm for training support vector machines, In Advances in Kernel Methods, Support Vector Learning, 1998 [16] H Poovarawan, Ch Wongchaisuwat, A Development of Algorithms for Thai Language Data Processing, Kasetsart University, Thailand, 2001 [17] M.J.D Powell, Radial basis function methods for interpolation to functions of many variables, 2011 [18] S Suebvisai, P Charoenpornsawat, Thai Automatic Speech Recognition Proceedings of ICASSP, Philadelphia, Pennsylvania, 2005 [19] N Seresangtakul, A hybrid apapproach to lao word segmentation using longest syllable level matching Engineering/Electronics, with named Computer, entities recognition, Telecommunications and in Electrical Information Technology (ECTI-CON), May 2013 [20] P.J Tan and D.L Dowe, MML Inference of Oblique Decision Trees, Lecture Notes in Artificial Intelligence (LNAI) 3339, Springer-Verlag, pp1082-1088, (2004) [21] Ah-Hwee Tan, Fon-Lin Lai Text categorization, supervised learning, and domain knowledge integration Proceedings of KDD-2000, Workshop on Text Mining, 2000 (Web: http://www.cs.cmu.edu/~dunja/KDDpapers/Tan_TM.pdf) [22] C H A Tsai Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 2000 [23] N H A Tú, H Kiem, Frequent subgraph-based approach for classifying vietnamese text documents In Joaquim Filipe and José Cordeiro, editors, ICEIS, 2009 [24] J Thaisungkhom, The document classification system based on the neural network, King Mongkut’s Institute of Technology North Bangkok, 2006 [25] S.Vanthanavong, LaoWS : Lao Word Segmentation Based on Conditional Random Fields, Conference on Human Language Technology for Development, Alexandria, Egypt, pp.2-5 May 2011 [26] V Vapnik The Nature of Statistical Learning Theory SpringerVerlag, 1995 [27] Chan P Wong Chinese Word Segmentation Based on Maximum Matching and Word Binding Force Proceedings of Coling 96, pp.200-203, 1996 85 [28] P Yang, Highperforming feature selection for text classification Proceedings of the 11th International Conference on Information and Knowledge Management, New York, 2002 [29] Các viết khác trang web tiếng Anh lĩnh vực xử lý ngôn ngữ tự nhiên, phânloạivăn bản, táchtừ công cụ xử lý [30] T Nomponkrang, C Sanrach, The Comparison of Algorithms for Thai-Sentence Classification, International Journal of Information and Education Technology, Vol 6, No 10, October 2016 [31] Yaw-Huei Chen, P Daowadung, Assessing Readability of Thai Text Using support vector machines, Maejo Int J Sci Technol 2015, 9(03), 355-369; doi: 10.14456/mijst.2015.27 [32] Satien Janpla, The Effectiveness of Automated Thai Documents Categorization Based on Machine Learning, Journal of Theoretical and Applied Information Technology, 10 A ugust 201 Vo l 66 No.1 [33] T Siriteerakula, V Boonjingb , R Gullayanona, Character Classification Framework Based on Support Vector Machine and K -Nearest Neighbour Schemes, Research Article; doi: 10.2306/scienceasia1513-1874.2016.42.046 Tiếng Việt [34] M Alves, Khái quát nghiêncứu ngôn ngữ học nguồn gốc tiếng Việt Tạp chí Khoa học ĐHQGHN, Khoa học Xã hội Nhân văn 24, tr 187-202, 2008 [35] S Duoangsopha, Xây dựng XD từ điển điện tử tin học Việt-Anh-Lào, Luận văn Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS Phan Huy Khánh, Đại Học Đà Nẵng, 2005 [36] T C Đệ, P N Khang, Phânloạivăn với máy học vector hỗ trợ định, Tạp chí Khoa học 2012:21a 52-63, Trường Đại học Cần Thơ, tr 52-63, 2012 [37] N L Giang, N M Hiển, Phânloạivăntiếng Việt với phânloại véctơ hỗ trợ SVM Tạp chí Bưu Viễn thông CNTT, Số 15, tr 66-75, 2005 [38] H S Hi, Ngữ pháptiếng Khmer, Học viện Giáo dục Dân tộc 2012 [39] N T T Hòa, N.T D Thúy, T T A Thư, V.T Thảo, T M Phương, Nghiêncứu đặc trưng ngôn ngữ Việt-Lào để nâng cao hiệu dạy học tiếng Việt cho lưu học sinh Lào Tạp chí Khoa học, trường Đại học Hà tĩnh, 2011 (Web: http://rej.htu.edu.vn/bieu-mau/) [40] D T T Hien, H X Huan, Thuật toán pha huấn luyện nhanh mạng nội suy RBF với mốc cách Kỷ yếu Hội thảo quốc gia lần thứ X : Cácvấn đề chọn lọc 86 CNTT, Đại Lải, tr 532-542, 2007 [41] H X Huan, D T T Hien, Phươngpháp lặp huấn luyện mạng nội suy RBF Kỷ yếu Hội thảo Quốc gia lần thứ VIII : Cácvấn đề chọn lọc CNTT, Hải Phòng, tr 314323, 2005 [42] V Ketsilivong Tích hợp giải pháp cập nhật kho ngữ liệu đa ngữ, ứng dụng cho tiếngLào Luận văn Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS Phan Huy Khánh, Đại Học Đà Nẵng (2006) [43] T T Oanh, Mô hình tách từ, gán nhãn từloại hướng tiếp cận tích hợp cho tiếng Việt Luận văn ThS, Người HD : PGS.TS Hà Quang Thụy, trường ĐH Công nghệ, ĐHQG Hà Nội, 48 tr, 2008 [44] H Q Thắng, Đ T T Phương, “Tiếp cận phươngpháp học không giám sát học có giám sát với toán phânloạivăntiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vec tơ”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 [45] Các viết khác trang web tiếng Việt lĩnh vực ngôn ngữ học, xử lý ngôn ngữ tự nhiên, phânloạivăn bản, táchtừ công cụ xử lý TiếngLào [46] ພ ສ ລ ວນນ ຄ ດລ ວ ຊນມດທ ຍມ (Tiếng Làovăn học lớp 8), Nhà Xuất Viện Nghiêncứu Khoa học Giáo dục, Bộ Giáo dục Lào, 1997 [47] ວຍ ກອນພ ສ ລ ວ ຊນມດທ ຍມ (Ngữ pháptiếngLào Lớp 10), Nhà Xuất Bộ Giáo dục Thể Thao Lào, 1980 [48] ວດຈ ນ ນກມພ ສ ລ ວ (Từ điển tiếng Lào), Web: http ://www.brothersoft.com/downloads/lao-dictionary.html [49] Các viết khác trang web tiếngLào ngôn ngữ, tiếngLào 87 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC [1] V Souksan, PH.Khánh (2013) Khử bỏ nhập nhằng toán táchtừtiếngLào Tạp chí Khoa học&Công nghệ, Đại học Đà Nẵng, No.1(62), tr.113-119 [2] V Souksan, PH.Khánh (2014), TáchtừtiếngLào sử dụng kho ngữ vựng kết hợp với đặc trưng ngữ pháptiếngLào Kỷ yếu Hội thảo KHQG Lần thứ XVI Số : 14-16/11/2014 Tr.61-68, Đà Nẵng 2014 [3] V Souksan, PH.Khánh (2015) Comparision on some Machine Learning Methods for Lao Text International Journal of Computer Science and Telecommunications, ISSN 2047-3338 Vol.6(7), pp.8-13, July 2015 88 KẾT QUẢ TÌM KIẾM VỀ PHÂNLOẠIVĂNBẢNTIẾNGLÀO TRÊN MẠNG 89 90 ... TRONG PHÂN LOẠI VĂN BẢN 30 2.3.1 Tìm hiểu toán tách từ 30 2.3.2 Các phương pháp tách từ 31 2.3.3 Đánh giá hai phương pháp 35 2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO ... âm tiết có hai loại từ : từ đơn, từ ghép cụm từ (kết hợp nhiều từ đơn từ ghép) Về mặt từ loại, bốn ngôn ngữ có loại từ : danh từ, đại từ, động từ, giới từ, tính từ, liên từ, trạng từ Tuy nhiên... vựng tiếng Lào Tiếng Lào ngôn ngữ đơn âm (một từ có âm tiết) Cách tạo từ tương tự tiếng Việt, từ tổ hợp từ chữ (phụ âm, nguyên âm) dấu Từ vựng tiếng Lào có hai loại từ đơn (giản) từ phức (hợp) Từ