1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào

99 393 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 99
Dung lượng 2,51 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VILAVONG SOUKSAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐÀ NẴNG, NĂM 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VILAVONG SOUKSAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học : PGS TS PHAN HUY KHÁNH ĐÀ NẴNG, NĂM 2017 ii LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu khoa học cá nhân hướng dẫn trực tiếp PGS.TS Phan Huy Khánh Các liệu, ví dụ trích dẫn tham khảo luận án đảm bảo độ tin cậy, chuẩn xác trung thực Những kết đóng góp mặt lý thuyết ứng dụng luận án chưa công bố công trình khác Tác giả luận án, VILAVONG SOUKSAN iii MỤC LỤC LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC CHỮ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH ix MỞ ĐẦU 1.Mục tiêu, đối tượng phạm vi nghiên cứu 2.Nhiệm vụ nghiên cứu kết đạt .4 3.Cấu trúc luận án .4 4.Đóng góp luận án .5 CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNG LÀO .6 1.1.TÌM HIỂU TIẾNG LÀO 1.1.1 Giới thiệu tiếng Lào 1.1.2 Nguồn gốc tiếng Lào 1.1.3 Những yếu tố ngữ pháp tiếng Lào 1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG .12 1.2.1 So sánh bảng chữ 13 1.2.2 So sánh cấu trúc âm tiết 14 1.2.3 So sánh cấu trúc từ vựng 14 1.2.4 So sánh cấu trúc câu 15 1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN .16 1.3.1 Giới thiệu số kết xử lý tiếng Lào 16 1.3.2 Thực trạng thách thức xử lý tiếng Lào 19 1.3.3 Đặt toán phân loại văn tiếng Lào 19 1.4.KẾT LUẬN CHƯƠNG 20 CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ 21 2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN 21 2.1.1 Khái niệm văn 21 iv 2.1.2 Khái niệm soạn thảo văn (STVB) 23 2.1.3 Xu soạn thảo văn 24 2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN .24 2.2.1 Tìm hiểu toán phân loại văn 24 2.2.2 Quy trình giải toán PLVB 25 2.2.3 Các phương pháp giải toán PLVB 27 2.3.BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN 30 2.3.1 Tìm hiểu toán tách từ 30 2.3.2 Các phương pháp tách từ 31 2.3.3 Đánh giá hai phương pháp 35 2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO 37 2.4.1 Bài toán phân loại văn tiếng Lào 37 2.4.2 Nhu cầu giải toán tách từ tiếng Lào 38 2.4.3 Đề xuất giải pháp triển khai 38 2.5.KẾT LUẬN CHƯƠNG 40 CHƯƠNG 3.GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG LÀO 41 3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP 41 3.1.1 Vấn đề nhận diện từ câu tiếng Lào 41 3.1.2 Xây dựng mô hình cấu trúc từ đơn 42 3.1.3 Giải pháp nhận diện từ câu 47 3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN 50 3.2.1 Xây dựng vị từ hàm 50 3.2.2 Xây dựng sở luật 53 3.2.3 Xây dựng máy suy diễn nhận diện từ đơn 54 v 3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ 56 3.2.4 Xây dựng kho ngữ vựng tiếng Lào 56 3.3.2 Áp dụng phương pháp so khớp tối đa 59 3.3.3 Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng 59 3.4.KẾT LUẬN CHƯƠNG 62 CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ 63 4.1.CHUẨN BỊ DỮ LIỆU 63 4.1.1 Phân tích trạng trường ĐH Champasak 63 4.1.2 Thu thập liệu HCVP trường ĐH Champasak 64 4.1.3 Xây dựng kho văn HCVP trường ĐH Champasak 65 4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM 68 4.2.1 Xây dụng mô hình thử nghiệm 68 4.2.2 Chuẩn bị sở thử nghiệm 68 4.2.3 Đề xuất PLVB sử dụng hai phương pháp SVM RBF 71 4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 72 4.3.2 Thử nghiệm hai phương pháp tách từ CRF MM 73 4.3.3 Thử nghiệm tách từ sử dụng sở luật để xử lý nhập nhằng 75 4.3.4 Thử nghiệm phân loại văn 76 4.4.KẾT LUẬN CHƯƠNG 80 KẾT LUẬN .81 TÀI LIỆU THAM KHẢO .84 vi DANH MỤC CHỮ VIẾT TẮT Tiếng Anh STT Chữ viết tắt CRF Conditional Random Fields Trường điều kiện ngẫu nhiên CL Computational Linguistics Ngôn ngữ học tính toán MM Maximum Matching So khớp tối đa NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên RBF Radial BasisFunctions network Mạng hàm bán kính xuyên tâm sở SVM Support Vector Machine Máy vec tơ hỗ trợ Nghĩa tiếng Anh Nghĩa tiếng Việt Tiếng Việt Chữ viết tắt STT Nghĩa CHDCND Lào Cộng hoà Dân chủ Nhân dân Lào CNTT Công nghệ Thông tin CSDL Cơ sở liệu ĐHBK Đại học Bách Khoa HCVP Hành văn phòng MSD Máy suy diễn NCKH Nghiên cứu Khoa học NNTN Ngôn ngữ tự nhiên NSD Người sử dụng 10 PLVB Phân loại văn 11 VBHC Văn hành 12 XL NNTN Xử lý ngôn ngữ tự nhiên vii DANH MỤC CÁC BẢNG Số hiệu Tên bảng bảng Trang 1.1 So sánh chữ cai 13 1.2 So sánh cấu truc am tiết 14 1.3 So sánh cấu trúc từ đơn 14 1.4 So sánh cấu trúc câu 16 4.1 Ví dụ số từtiếng lào 67 4.2 Thử nghiệm phương pháp nhận diện từ đơn dùng sở luật 73 4.3 Kết tách từ sử dụng phương pháp mạng nơ ron 74 4.4 Kết tách từ sử dụng phương pháp so khớp tối đa 74 4.5 Tách từ sử dụng ba phương pháp CRF, MMS dùng luật 75 4.6 Kết PLVB tiếng Lào kết hợp SVM với CRF 76 4.7 PLVB tiếng Lào kết hợp SVM với tách từ dựa sở luật 77 4.8 PLVB RBF tiếng Lào kết hợp với tách từ sử dụng CRF 77 4.9 PLVB tiếng Lào kết hợp RBF với tách từ sử dụng sở luật 78 4.10 Kết thực nghiệm PLVB tiếng Lào kết hợp tách từ 78 viii DANH MỤC CÁC HÌNH Số hiệu hình Tên hình Trang 1.1 Cấu trúc ba tầng chữ Lào 10 1.2 Bàn phím gõ tiếng Lào 17 2.1 Mô hình hai giai đoạn phân loại văn 26 2.2 Mô hình giai đoạn học máy 27 2.3 Đồ thị vô hướng mô tả CRF 34 2.4 Mô hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào 39 3.1 Cấu trúc từ đơn tiếng Lào 42 3.2 Cấu trúc XML cho CSDL chữ tiếng Lào 48 3.3 Mô hình nhận diện từ đơn tiếng Lào 49 3.4 Cơ chế hoạt động máy suy diễn nhận diện từ đơn 56 3.5 Mô hình cập nhật liệu cho kho ngữ vụng tiếng Lào 58 3.6 Mô hình tách từ tiếng Lào dùng phương pháp so khớp tối đa 59 3.7 Mô hình xử lý nhập nhằng tách từ tiếng Lào 61 4.1 Mô hình triển khai thử nghiệm PLVB tiếng Lào 68 4.2 Đồ thị so sánh kết thực nghiệm ba phương pháp tách từ 75 4.3 Lược đồ so sánh kết thực nghiệm mạn RBF SVM 79 ix MỞ ĐẦU Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng ứng dụng Tin học NNTN, ngôn ngữ người XL NNTN miền đất khó khăn cho mong muốn thâm nhập khai thác Không XL NNTN đòi hỏi người nghiên cứu phải am hiểu tường minh ngôn ngữ học, hiểu thói quen giao tiếp ứng xử người, mà phải có kiến thức chuyên sâu nhiều lĩnh vực khác Tin học, Khoa học Máy tính Trong hệ thống ngôn ngữ giới nay, tiếng Lào ngôn ngữ có phong phú, đa dạng mang đậm nét đặc trưng ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật Đây nguyên nhân dẫn đến khó khăn vượt bậc cho người nghiên cứu người sử dụng (NSD) theo cách thông thường xử lý máy tính lĩnh vực xử lý tiếng Lào Những năm gần đây, phát triển vượt bậc công nghệ thông tin (CNTT) nói chung, internet nói riêng, làm gia tăng số lượng giao dịch thông tin mạng, hay trực tuyến, cách đáng kể Ngày ngày chứng kiến bùng nổ chóng mặt tin tức điện tử, thư viện điện tử (chẳng hạn phát triển mục lục trực tuyến OPAC-Online Public Access Catalog), trang mạng xã hội, giao dịch đủ hình thức, từ thương mại đến trị, quốc phòng Đặc biệt số lượng văn hành (VBHC) hoạt động chuyên môn, từ cá nhân đến tổ chức khác nhau, giao dịch trực tuyến tăng theo nhanh chóng Nếu trước đây, VBHC túy lưu trữ mang tính địa phương, máy tính đơn lẻ, ngày nay, nhờ điện toán đám mây, nhờ khả lưu trữ trực tuyến với kho liệu gần vô hạn, từ miễn phí đến có chi phí giá rẻ, tạo hội cho gia tăng VBHC Với thực trạng khối lượng thông tin đồ sộ cần xử lý, vấn đề lớn đặt tổ chức tìm kiếm thông tin cách có hiệu ? Giải toán phân loại thông tin/dữ liệu, cụ thể phân loại hay phân lớp văn (PLVB), 4.3.4 Thử nghiệm phân loại văn Chúng tiến hành thử nghiệm PLVB sử dụng hai phương pháp máy vec tơ hỗ trợ SVM mạng nơ ron RBF, sau đánh giá kết cách sử dụng độ đo quy ước : độ tích cực TP, độ tiêu cực TN, độ sai tích cực FP, độ sai tiêu cực FN, độ chuẩn xác A, tỷ lệ sai E, độ xác P độ bao phủ R Phân loại văn SVM kết hợp tách từ sử dụng mạng nơ ron Bảng mô tả kết thử nghiệm tách từ sử dụng trường điều kiện ngẫu nhiên CRF để PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM (không hiển thị dấu % sau giá trị thống kê) Bảng 4.6 Kết PLVB tiếng Lào kết hợp SVM với CRF Thời Tên lờp phân loại Số VB PLVB máy vec tơ hỗ trợ kết hợp tách từ sử dụng CRF gian BQ TP TN FP FN Accuracy ErrorRate Precision Recall Nhân tiền lương 63 17s 53 274 15 10 92.90 7.10 77.94 84.13 Đào tạo 68 19s 55 272 16 13 91.85 8.15 77.46 80.88 Tuyển sinh 68 19s 48 279 20 93.97 6.03 97.96 70.59 Tốt nghiệp 61 16s 47 280 17 14 91.34 8.66 73.44 77.05 Đoàn-ĐảngThanh niên 68 19s 51 276 17 93.70 6.30 91.07 75.00 Công đoàn 72 22s 63 264 17 92.63 7.37 78.75 87.50 92.73 7.27 82.77 79.19 Overall Phân loại văn SVM kết hợp tách từ sử dụng sở luật Kết thử nghiệm PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM kết hợp tách từ sử dụng MM kết hợp sở luật xử lý nhập nhằng sau : 76 Bảng 4.7 Kết PLVB tiếng Lào kết hợp SVM với tách từ dựa sở luật VB Thời gian BQ 63 12s Số Tên lờp phân loại Nhân tiền lương PLVB máy vec tơ hỗ trợ kết hợp tách từ sử dụng sở luật TP TN FP FN Accuracy ErrorRate Precision Recall 51 276 12 93.97 6.03 85.00 80.95 Đào tạo 68 14s 59 268 14 93.43 6.57 80.82 86.76 Tuyển sinh 68 14s 54 273 21 14 90.33 9.67 72.00 79.41 Tốt nghiệp 61 11s 48 279 12 13 92.90 7.10 80.00 78.69 Đoàn-ĐảngThanh niên 68 14s 53 274 15 94.24 5.76 91.38 77.94 Công đoàn 72 15s 62 265 10 95.61 4.39 92.54 86.11 93.41 6.59 83.62 81.64 Overall : Phân loại văn RBF kết hợp tách từ sử dụng CRF Kết thử nghiệm PLVB sử dụng phương pháp mạng nơ ron RBF kết hợp tách từ sử dụng phương pháp trường điều kiện ngẫu nhiên CRF sau : Bảng 4.8 PLVB RBF tiếng Lào kết hợp với tách từ sử dụng CRF Tên lờp phân loại Số VB Thời gian BQ TP Nhân tiền lương 63 13s Đào tạo 68 Tuyển sinh PLVB mạng nơ ron RBF kết hợp tách từ sử dụng CRF FP FN 61 269 13 95.65 4.35 82.43 96.83 15s 59 271 10 94.56 5.44 85.51 86.76 68 15s 46 284 13 22 90.41 9.59 77.97 67.65 Tốt nghiệp 61 11s 55 275 19 92.96 7.04 74.32 90.16 Đoàn-ĐảngThanh niên 68 15s 48 282 20 91.92 8.08 84.21 70.59 Công đoàn 72 17s 45 285 27 92.18 7.82 97.83 62.50 7.05 83.71 79.08 Overall : Accuracy 92.95 ErrorRate Precision Recall TN Thử nghiệm tách từ sử dụng sở luật xử lý nhập nhằng để PLVB sử dụng phương pháp mạng nơ ron RBF Phân loại văn RBF kết hợp tách từ sử dụng sở luật Kết thử nghiệm PLVB sử dụng phương pháp mạng nơ ron RBF kết hợp tách từ sử dụng MM kết hợp sở luật xử lý nhập nhằng sau : 77 Bảng 4.9 Kết PLVB tiếng Lào kết hợp RBF với tách từ sử dụng sở luật VB Thời gian BQ 63 Đào tạo Số Tên lờp phân loại PLVB mạng nơ ron RBF kết hợp tách từ sử dụng sở luật TP TN FP FN Accuracy 12s 55 275 19 92.44 7.56 74.32 87.30 68 14s 54 276 14 95.38 4.62 96.43 79.41 Tuyển sinh 68 14s 52 278 24 16 89.19 10.81 68.42 76.47 Tốt nghiệp 61 10s 51 279 10 96.77 3.23 98.08 83.61 Đoàn-ĐảngThanh niên 68 14s 55 275 13 94.83 5.17 91.67 80.88 Công đoàn 72 16s 63 267 11 94.29 5.71 85.14 87.50 93.82 6.18 85.68 82.53 Nhân tiền lương Overall : ErrorRate Precision Recall Đánh giá phương pháp PLVB kết hợp tách từ Từ kết thử nghiệm PLVB sử dụng hai phương pháp máy vec tơ hỗ trợ SVM mạng nơ ron RBF kết hợp hai phương pháp tách từ sử dụng trường điều kiện ngẫu nhiên CRF so khớp tối đa MM kết hợp sở luật xử lý nhập nhằng, đưa bảng đánh giá so sánh sau : Bảng 4.10 Kết thực nghiệm PLVB tiếng Lào kết hợp tách từ Tên lờp phân loại PLVB với vec tơ hỗ trợ SVM Số Thời VB gian Tách từ CRF Dựa sở luật BQ TP Accuracy Nhân lương 63 TP PLVB dùng mạng nơ ron RBF Tách từ CRF Accuracy TP Accuracy Dựa sở luật TP Accuracy 92.90 51 93.97 61 95.65 55 92.44 Đào tạo 53 10s 68 12s 55 91.85 59 93.43 59 94.56 54 95.38 Tuyển sinh 68 12s 48 93.97 54 90.33 46 90.41 52 89.19 Tốt nghiệp 61 47 91.34 48 92.90 55 92.96 51 96.77 Đoàn-Đảng -Thanh niên 68 12s 51 93.70 53 94.24 48 91.92 55 94.83 Công đoàn 72 15s 63 92.63 62 95.61 45 92.18 63 94.29 Tổng số văn 400 9s 92.73 93.41 78 92.95 93.82 Để thấy hiệu giải pháp PLVB tách từ đề xuất luận án, hình đồ thị tổng hợp kết đánh giá theo tên lớp phân loại từ kho văn HCVP trường Đại học Champasak hai phương pháp PLVB kết hợp hai phương pháp tách từ chọn : - SVM+CRF : PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM tách từ sử dụng trường điều kiện ngẫu nhiên CRF - SVM+Luật : PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM tách từ sử dụng sở luật để xử lý nhập nhằng - RBF+CRF : PLVB sử dụng phương pháp mạng nơ ron RBF tách từ sử dụng trường điều kiện ngẫu nhiên CRF - RBF+Luật : PLVB sử dụng phương pháp mạng nơ ron RBF tách từ sử dụng sở luật để xử lý nhập nhằng Hình 4.3 Lược đồ so sánh kết thực nghiệm mạng RBF SV Kết đánh giá cho bảng 4.10 đồ thị 4.2 cho thấy PLVB sử dụng phương pháp RBF+CRF (mạng nơ ron RBF tách từ sử dụng trường điều kiện ngẫu nhiên CRF) đạt kết cao cho thể loại văn Tốt nghiệp Tuy nhiên tính kết trung bình cho thể loại VBHC, phương pháp PLVB sử dụng phương pháp tách từ sử dụng sở luật để xử lý nhập nhằng đạt kết khả quan 79 4.4 KẾT LUẬN CHƯƠNG Trong chương này, luận án trình bày tổng hợp nghiên cứu PLVB nói chung toán PLVB tiếng Lào nói riêng Về mặt lý thuyết, phương pháp máy vec tơ hỗ trợ SVM đơn giản phương pháp mạng nơ ron RBF trình thực nghiệm phức tạp không dễ tìm tham số phù hợp Quá trình lựa chọn tham số ngưỡng loại bỏ đặc trưng, thường trình thử-sai nhiều công sức Với mạng nơ ron RBF, trình thực nghiệm tiến hành công cụ thư viện có sẵn nên hệ thống tham số lựa chọn cách đơn giản nhanh chóng Thông qua kết thực nghiệm cho thấy, mạng nơ ron RBF giải toán PLVB cho kết khả quan phân loại SVM, không nhiều Tuy nhiên với hai phân loại, kết thực nghiệm cho thấy nhiều lỗi phân loại nhầm lớp văn Chúng xem xét kỹ mẫu văn bị phân loại sai nhận thấy kích thước tệp liệu huấn luyện hạn chế yếu tố dẫn đến hiệu chưa cao trình tiến hành thử nghiệm Giải pháp PLVB kết hợp tách từ sử dụng sở luật để xử lý nhập nhằng thực đáp ứng yêu cầu thực tiễn trường Đại học Champasak tiếng Lào 80 KẾT LUẬN Các kết luận án Xuyên suốt luận án kết nghiên cứu XL NNTN nói chung, xử lý tiếng Lào nói riêng, liên quan chủ yếu đến toán xử lý văn bản, PLVB toán tách từ tiếng Lào Nôi dung nghiên cứu tập trung tìm hiểu khái niệm, mô hình, phương pháp, kỹ thuật so sánh, đánh giá ưu nhược điểm phương pháp Luận án tập hợp trình bày số phương pháp phổ biến máy vec tơ hỗ trợ SVM mạng nơ ron RBF Từ luận án đưa định sử dụng phương pháp PLVB cho tiếng Lào Từ nhu cầu thực tiễn đổi hoạt động hành ứng dụng CNTT, giải vấn đề phân loại VBHC trường Đại học Champasack, nước CHDCND, luận án đề xuất giái pháp PLVB sở giải toán tách từ Kết đóng góp luận án triển khai nội dung sau : Tìm hiểu đặc trưng ngữ pháp hệ thống ngữ pháp chữ viết Lào, đề xuất xây dựng mô hình cấu trúc từ đơn mang tính đặc thù tiếng Lào Từ đó, vận dụng xây dựng sở luật máy suy diễn cho phép nhận diện từ đơn câu văn xây dựng kho ngữ liệu từ đơn tiếng Lào Từ kho từ đơn có, tiến hành xây dựng kho từ vựng gồm từ đơn, từ ghép cụm từ, kết hợp kiểm tra sửa lỗi thủ công, phục vụ giải toán tách từ tiếng Lào Các kho ngữ vựng từ đơn cụm từ tiếng Lào chưa có, chưa xây dựng theo định hướng mã nguồn mở từ trước tới Để triển khai PLVB, tìm hiểu, phân tích thực tiễn hoạt động phân loại, lưu trữ loại VBHC khác trường Đại học Champasak, từ thu thập, tổ chức lưu trữ văn để tạo CSDL VBHC phục vụ bước xây dựng kho ngữ liệu thử nghiệm Với văn vào từ CSDL VBHC, tiến hành bóc tách từ tiếng Lào sử dụng phương pháp so khớp tối đa kho từ vựng, kết hợp xử lý nhập nhằng sử dụng sở luật Để tiến hành thử nghiệm, chuẩn bị đầy đủ điều kiện sở, môi trường công cụ thử nghiệm, lựa chọn phương pháp PLVB, tách từ lựa chọn tiêu chí, hay độ đo, để đánh giá kết Sau đó, tiến hành thử nghiệm PLVB tiếng 81 Lào sử dụng hai phương pháp máy vec tơ hỗ trợ SVM hàm bán kính sở RBF, kết hợp thử nghiệm tách từ theo hai phương pháp trường điều kiện ngẫu nhiên dựa sở luật đề xuất Các kết thử nghiệm PLVB tách từ đánh giá, so sánh thông qua bảng biểu đồ - PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM tách từ sử dụng trường điều kiện ngẫu nhiên CRF đạt độ xác 92.73 % - PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM tách từ sử dụng sở luật để xử lý nhập nhằng đạt độ xác 93.41% - PLVB sử dụng phương pháp mạng nơ ron RBF tách từ sử dụng trường điều kiện ngẫu nhiên CRF đạt độ xác 92.94% - PLVB sử dụng phương pháp mạng nơ ron RBF tách từ sử dụng sở luật để xử lý nhập nhằng đạt độ xác 93.82% Có thể nhận định, giải pháp tách từ tiếng Lào đề xuất kết hơp phương pháp khử bỏ nhập nhằng đặc trưng ngữ pháp hệ viết Lào Quá trình tách từ dựa vào kho ngữ vựng, thực tế đòi hỏi phải có kho ngữ liệu đủ lớn để tách từ hiệu Những giải pháp mà đề xuất góp phần xử lý phần tượng nhập nhằng văn tiếng Lào, cụ thể xử lý nhập nhằng đồng tự (hai từ có ký tự) Giải pháp đóng góp có ý nghĩa cho tiến trình xử lý tiếng Lào nói riêng, XL NNTN nói chung, góp phần tiếp tục triển khai hoàn thiện toán xử lý PLVB tiếng Lào tự động Mặc dù với dung lượng chưa đủ lớn bước chạy thử nghiệm, triển vọng mở rộng kho ngữ vụng khả thi Mặt khác, để đạt độ xác cao hơn, cần bổ sung luật cho phép xử lý nhập nhằng cách hiệu Các kết nghiên cứu công bố công trình [1][2][3] Phân tích mặt hạn chế Thông qua kết thực nghiệm cho thấy, kết hợp tách từ sử dụng giải pháp sở luật để xử lý nhập nhằng, phương pháp mạng nơ ron RBF giải toán PLVB cho kết tốt (tuy không nhiều) phân loại máy vec tơ hỗ trợ SVM Các kết nghiên cứu công bố công trình [3] Tuy nhiên, luận n vài hạn chế sau : Các thử nghiệm sử dụng thuật toán máy vec tơ hỗ trợ SVM mạng nơ ron RBF cho toán PLVB thử 82 nghiệm kho VBHC tiếng Lào tuý văn bản, đơn ngữ, không chứa thành phần đồ hoạ, công thức hay thành phần đa tạp, multimedia… Mặt khác, phân loại sáu chủ đề trường Đại học Champasak Nhân tiền lương, Đào tạo, Tuyển sinh, Tốt nghiệp, Đoàn-ĐảngThanh niên Công đoàn, mà chưa xử lý PLVB thể loại thông dụng Công văn, Thông báo, Báo cáo, Quy định, Quyết định, Kinh tế, Pháp luật… hay PLVB theo tiêu chí cụ thể khác trường tuỳ theo yêu cầu thực tế Kho văn HCVP chưa thật lớn, mang tính thử nghiệm, chưa đối sánh kết thử nghiệm nhiều liệu khác Mặt khác chưa vận dụng thuật toán khác để chọn phương pháp hợp lý cho nhu cầu thực tiễn trường Đại học Champasak Hướng phát triển luận án Hướng phát triển trước mắt luận án tìm cách khắc phục mặt hạn chế liên quan đến giải pháp tiền trinh thử nghiệm PLVB đề xuất Sau đó, tiếp tục đánh giá so sánh kết thử nghiệm để tìm phương pháp tối ưu, vận dụng hiệu trường Đại học Champasak, mở rộng ứng dụng cho trường Đại học khác nước CHDCND Lào Trong tương lai, tiếp tục nghiên cứu mối quan hệ kích thước ngữ liệu huấn luyện, mức độ cân ngữ liệu huấn luyện tác động lên hiệu phương pháp phân loại Chúng tiếp tục nghiên cứu giải toán PLVB cho văn đa ngữ, đa tạp (multimedia), đa lĩnh vực, có kích thước hay dung lượng lớn môi trường sử dụng linh hoạt Hơn nữa, tiếp tục cải thiện độ xác phương pháp PLVB, tách từ tiếng Lào có được, thông qua việc cải thiện sở luật, máy suy diễn kết hợp thêm số đặc trưng từ loại, cú pháp ngữ nghĩa hệ việt tiếng Lào 83 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Ch Apté, Automated learning of decision rules for text categorization, in ACM Trans Inf Syst, July 1994 [2] Chr M Bishop, Pattern Recognition and Machine Learning, Springer 2007 [3] N Chirawichitchai, Developing an effective Thai document categorization framework base on term relevance frequency weighting in Knowledge Engineering, 2010 8th International Conference on ICT, Nov 2010 [4] T M Cover and P E Hart, Nearest neighbor pattern classification, IEEE Trans Inform Theory, vol IT-13, pp 21-27, Jan 1967 [5] J F¨urnkranz, A Study Using n-gram Features for Text Categorization, in Austrian Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-98-30, 1998 [6] Mouton de Gruyter, A Grammar of Lao, Copyright 2007 by Walter de Gruyter Ch P Mekanavin, S & B Kijsirikul [7] Meknavin S, Charoenpornsawat P, Kijsirikul B Feature-Based Thai Words Segmentation Proceedings of the Natural Language Processing Pacific Rim Symposium, p41-48 Phuket, Thailand, 1997 [8] H X Huan, D T T Hien, H H Tue, Training Interpolation Radial Basis Function Networks Signal Processing, Vol 87, Issue 11 2007, pp 2708–2717, 2007 [9] D T T Hien, H X Huan, H H Tue, Local RBF Neural Networks for Interpolating Multivariate Functions IEEE International Conference on Research, Innovation and Vision for the Future in Computing & Communications Technologies, ENST 2008 S 001, pp.70-75, 2008 [10] T Joachims, Text categorization with suport vector machines : Learning with many relevant features Proceedings of the 10th European Conference on Machine Learning, ECML '98, 1998 [11] W Y Ma, K J Chen, Introduction to CKIP Chinese Word Segmentation System for the First International Chinese Word Segmentation Bakeoff Web: http://www.aclweb.org/anthology/W03-1726 [12] N C Tu, N T, Kien, P X Hieu, N L Minh, H Q Thuy Vietnamese word segmentation with CRF and SVMs, An Investigation In 20th Pacific Asia Conference on Language, Information and Computation (PACLIC 2006), Wuhan, China 84 [13] H P Le, N T M Huyen, A Roussanaly, H T Vinh A Hybrid Approach to Word Segmentation of Vietnamese Texts Language and Automata Theory and Applications, Springer Edition, 2008 (web: https://hal.inria.fr/inria-00334761/PDF/LATA039.pdf) [14] D Palmer A Trainable Rule-based Algorithm for Word Segmentation The MITRE Corporation 202 Burlington Rd Bedford, MA 01730, USA, 1996 [15] JC Platt, Sequential minimal optimization : A fast algorithm for training support vector machines, In Advances in Kernel Methods, Support Vector Learning, 1998 [16] H Poovarawan, Ch Wongchaisuwat, A Development of Algorithms for Thai Language Data Processing, Kasetsart University, Thailand, 2001 [17] M.J.D Powell, Radial basis function methods for interpolation to functions of many variables, 2011 [18] S Suebvisai, P Charoenpornsawat, Thai Automatic Speech Recognition Proceedings of ICASSP, Philadelphia, Pennsylvania, 2005 [19] N Seresangtakul, A hybrid apapproach to lao word segmentation using longest syllable level matching Engineering/Electronics, with named Computer, entities recognition, Telecommunications and in Electrical Information Technology (ECTI-CON), May 2013 [20] P.J Tan and D.L Dowe, MML Inference of Oblique Decision Trees, Lecture Notes in Artificial Intelligence (LNAI) 3339, Springer-Verlag, pp1082-1088, (2004) [21] Ah-Hwee Tan, Fon-Lin Lai Text categorization, supervised learning, and domain knowledge integration Proceedings of KDD-2000, Workshop on Text Mining, 2000 (Web: http://www.cs.cmu.edu/~dunja/KDDpapers/Tan_TM.pdf) [22] C H A Tsai Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 2000 [23] N H A Tú, H Kiem, Frequent subgraph-based approach for classifying vietnamese text documents In Joaquim Filipe and José Cordeiro, editors, ICEIS, 2009 [24] J Thaisungkhom, The document classification system based on the neural network, King Mongkut’s Institute of Technology North Bangkok, 2006 [25] S.Vanthanavong, LaoWS : Lao Word Segmentation Based on Conditional Random Fields, Conference on Human Language Technology for Development, Alexandria, Egypt, pp.2-5 May 2011 [26] V Vapnik The Nature of Statistical Learning Theory SpringerVerlag, 1995 [27] Chan P Wong Chinese Word Segmentation Based on Maximum Matching and Word Binding Force Proceedings of Coling 96, pp.200-203, 1996 85 [28] P Yang, Highperforming feature selection for text classification Proceedings of the 11th International Conference on Information and Knowledge Management, New York, 2002 [29] Các viết khác trang web tiếng Anh lĩnh vực xử lý ngôn ngữ tự nhiên, phân loại văn bản, tách từ công cụ xử lý [30] T Nomponkrang, C Sanrach, The Comparison of Algorithms for Thai-Sentence Classification, International Journal of Information and Education Technology, Vol 6, No 10, October 2016 [31] Yaw-Huei Chen, P Daowadung, Assessing Readability of Thai Text Using support vector machines, Maejo Int J Sci Technol 2015, 9(03), 355-369; doi: 10.14456/mijst.2015.27 [32] Satien Janpla, The Effectiveness of Automated Thai Documents Categorization Based on Machine Learning, Journal of Theoretical and Applied Information Technology, 10 A ugust 201 Vo l 66 No.1 [33] T Siriteerakula, V Boonjingb , R Gullayanona, Character Classification Framework Based on Support Vector Machine and K -Nearest Neighbour Schemes, Research Article; doi: 10.2306/scienceasia1513-1874.2016.42.046 Tiếng Việt [34] M Alves, Khái quát nghiên cứu ngôn ngữ học nguồn gốc tiếng Việt Tạp chí Khoa học ĐHQGHN, Khoa học Xã hội Nhân văn 24, tr 187-202, 2008 [35] S Duoangsopha, Xây dựng XD từ điển điện tử tin học Việt-Anh-Lào, Luận văn Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS Phan Huy Khánh, Đại Học Đà Nẵng, 2005 [36] T C Đệ, P N Khang, Phân loại văn với máy học vector hỗ trợ định, Tạp chí Khoa học 2012:21a 52-63, Trường Đại học Cần Thơ, tr 52-63, 2012 [37] N L Giang, N M Hiển, Phân loại văn tiếng Việt với phân loại véctơ hỗ trợ SVM Tạp chí Bưu Viễn thông CNTT, Số 15, tr 66-75, 2005 [38] H S Hi, Ngữ pháp tiếng Khmer, Học viện Giáo dục Dân tộc 2012 [39] N T T Hòa, N.T D Thúy, T T A Thư, V.T Thảo, T M Phương, Nghiên cứu đặc trưng ngôn ngữ Việt-Lào để nâng cao hiệu dạy học tiếng Việt cho lưu học sinh Lào Tạp chí Khoa học, trường Đại học Hà tĩnh, 2011 (Web: http://rej.htu.edu.vn/bieu-mau/) [40] D T T Hien, H X Huan, Thuật toán pha huấn luyện nhanh mạng nội suy RBF với mốc cách Kỷ yếu Hội thảo quốc gia lần thứ X : Các vấn đề chọn lọc 86 CNTT, Đại Lải, tr 532-542, 2007 [41] H X Huan, D T T Hien, Phương pháp lặp huấn luyện mạng nội suy RBF Kỷ yếu Hội thảo Quốc gia lần thứ VIII : Các vấn đề chọn lọc CNTT, Hải Phòng, tr 314323, 2005 [42] V Ketsilivong Tích hợp giải pháp cập nhật kho ngữ liệu đa ngữ, ứng dụng cho tiếng Lào Luận văn Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS Phan Huy Khánh, Đại Học Đà Nẵng (2006) [43] T T Oanh, Mô hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt Luận văn ThS, Người HD : PGS.TS Hà Quang Thụy, trường ĐH Công nghệ, ĐHQG Hà Nội, 48 tr, 2008 [44] H Q Thắng, Đ T T Phương, “Tiếp cận phương pháp học không giám sát học có giám sát với toán phân loại văn tiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mô hình vec tơ”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 [45] Các viết khác trang web tiếng Việt lĩnh vực ngôn ngữ học, xử lý ngôn ngữ tự nhiên, phân loại văn bản, tách từ công cụ xử lý Tiếng Lào [46] ພ ສ ລ ວນນ ຄ ດລ ວ ຊນມດທ ຍມ (Tiếng Lào văn học lớp 8), Nhà Xuất Viện Nghiên cứu Khoa học Giáo dục, Bộ Giáo dục Lào, 1997 [47] ວຍ ກອນພ ສ ລ ວ ຊນມດທ ຍມ (Ngữ pháp tiếng Lào Lớp 10), Nhà Xuất Bộ Giáo dục Thể Thao Lào, 1980 [48] ວດຈ ນ ນກມພ ສ ລ ວ (Từ điển tiếng Lào), Web: http ://www.brothersoft.com/downloads/lao-dictionary.html [49] Các viết khác trang web tiếng Lào ngôn ngữ, tiếng Lào 87 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC [1] V Souksan, PH.Khánh (2013) Khử bỏ nhập nhằng toán tách từ tiếng Lào Tạp chí Khoa học&Công nghệ, Đại học Đà Nẵng, No.1(62), tr.113-119 [2] V Souksan, PH.Khánh (2014), Tách từ tiếng Lào sử dụng kho ngữ vựng kết hợp với đặc trưng ngữ pháp tiếng Lào Kỷ yếu Hội thảo KHQG Lần thứ XVI Số : 14-16/11/2014 Tr.61-68, Đà Nẵng 2014 [3] V Souksan, PH.Khánh (2015) Comparision on some Machine Learning Methods for Lao Text International Journal of Computer Science and Telecommunications, ISSN 2047-3338 Vol.6(7), pp.8-13, July 2015 88 KẾT QUẢ TÌM KIẾM VỀ PHÂN LOẠI VĂN BẢN TIẾNG LÀO TRÊN MẠNG 89 90 ... TRONG PHÂN LOẠI VĂN BẢN 30 2.3.1 Tìm hiểu toán tách từ 30 2.3.2 Các phương pháp tách từ 31 2.3.3 Đánh giá hai phương pháp 35 2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO ... âm tiết có hai loại từ : từ đơn, từ ghép cụm từ (kết hợp nhiều từ đơn từ ghép) Về mặt từ loại, bốn ngôn ngữ có loại từ : danh từ, đại từ, động từ, giới từ, tính từ, liên từ, trạng từ Tuy nhiên... vựng tiếng Lào Tiếng Lào ngôn ngữ đơn âm (một từ có âm tiết) Cách tạo từ tương tự tiếng Việt, từ tổ hợp từ chữ (phụ âm, nguyên âm) dấu Từ vựng tiếng Lào có hai loại từ đơn (giản) từ phức (hợp) Từ

Ngày đăng: 31/05/2017, 17:56

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[13] H. P. Le, N. T. M. Huyen, A. Roussanaly, H. T. Vinh. A Hybrid Approach to Word Segmentation of Vietnamese Texts. Language and Automata Theory and Applications, Springer Edition, 2008(web: https://hal.inria.fr/inria-00334761/PDF/LATA039.pdf) Sách, tạp chí
Tiêu đề: A Hybrid Approach to Word Segmentation of Vietnamese Texts
[14] D. Palmer. A Trainable Rule-based Algorithm for Word Segmentation The MITRE Corporation 202 Burlington Rd. Bedford, MA 01730, USA, 1996 Sách, tạp chí
Tiêu đề: A Trainable Rule-based Algorithm for Word Segmentation
[15] JC Platt, Sequential minimal optimization : A fast algorithm for training support vector machines, In Advances in Kernel Methods, Support Vector Learning, 1998 Sách, tạp chí
Tiêu đề: Sequential minimal optimization : A fast algorithm for training support vector machines
[16] H. Poovarawan, Ch. Wongchaisuwat, A Development of Algorithms for Thai Language Data Processing, Kasetsart University, Thailand, 2001 Sách, tạp chí
Tiêu đề: A Development of Algorithms for Thai Language
[17] M.J.D. Powell, Radial basis function methods for interpolation to functions of many variables, 2011 Sách, tạp chí
Tiêu đề: Radial basis function methods for interpolation to functions of many variables
[18] S. Suebvisai, P. Charoenpornsawat, Thai Automatic Speech Recognition. Proceedings of ICASSP, Philadelphia, Pennsylvania, 2005 Sách, tạp chí
Tiêu đề: Thai Automatic Speech Recognition
[19] N. Seresangtakul, A hybrid apapproach to lao word segmentation using longest syllable level matching with named entities recognition, in Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON), May 2013 Sách, tạp chí
Tiêu đề: A hybrid apapproach to lao word segmentation using longest syllable level matching with named entities recognition
[20] P.J. Tan and D.L. Dowe, MML Inference of Oblique Decision Trees, Lecture Notes in Artificial Intelligence (LNAI) 3339, Springer-Verlag, pp1082-1088, (2004) Sách, tạp chí
Tiêu đề: MML Inference of Oblique Decision Trees
[21] Ah-Hwee Tan, Fon-Lin Lai. Text categorization, supervised learning, and domain knowledge integration. Proceedings of KDD-2000, Workshop on Text Mining, 2000 (Web: http://www.cs.cmu.edu/~dunja/KDDpapers/Tan_TM.pdf) Sách, tạp chí
Tiêu đề: Text categorization, supervised learning, and domain knowledge integration
[22] C. H. A Tsai. Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 2000 Sách, tạp chí
Tiêu đề: Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm
[23] N. H. A. Tú, H. Kiem, Frequent subgraph-based approach for classifying vietnamese text documents. In Joaquim Filipe and José Cordeiro, editors, ICEIS, 2009 Sách, tạp chí
Tiêu đề: Frequent subgraph-based approach for classifying vietnamese text documents
[24] J. Thaisungkhom, The document classification system based on the neural network, King Mongkut’s Institute of Technology North Bangkok, 2006 Sách, tạp chí
Tiêu đề: The document classification system based on the neural network
[25] S.Vanthanavong, LaoWS : Lao Word Segmentation Based on Conditional Random Fields, Conference on Human Language Technology for Development, Alexandria, Egypt, pp.2-5 May 2011 Sách, tạp chí
Tiêu đề: LaoWS : Lao Word Segmentation Based on Conditional Random Fields
[26] V. Vapnik. The Nature of Statistical Learning Theory. SpringerVerlag, 1995 Sách, tạp chí
Tiêu đề: The Nature of Statistical Learning Theory
[28] P. Yang, Highperforming feature selection for text classification. Proceedings of the 11 th International Conference on Information and Knowledge Management, New York, 2002 Sách, tạp chí
Tiêu đề: Highperforming feature selection for text classification
[30] T. Nomponkrang, C. Sanrach, The Comparison of Algorithms for Thai-Sentence Classification, International Journal of Information and Education Technology, Vol.6, No. 10, October 2016 Sách, tạp chí
Tiêu đề: The Comparison of Algorithms for Thai-Sentence Classification
[31] Yaw-Huei Chen, P. Daowadung, Assessing Readability of Thai Text Using support vector machines, Maejo Int. J. Sci. Technol. 2015, 9(03), 355-369; doi:10.14456/mijst.2015.27 Sách, tạp chí
Tiêu đề: Assessing Readability of Thai Text Using support vector machines
[32] Satien Janpla, The Effectiveness of Automated Thai Documents Categorization Based on Machine Learning, Journal of Theoretical and Applied Information Technology, 10 A ugust 201 4. Vo l. 66 No.1 Sách, tạp chí
Tiêu đề: The Effectiveness of Automated Thai Documents Categorization Based on Machine Learning
[33] T. Siriteerakula, V. Boonjingb , R. Gullayanona, Character Classification Framework Based on Support Vector Machine and K -Nearest Neighbour Schemes, Research Article; doi: 10.2306/scienceasia1513-1874.2016.42.046.2. Tiếng Việt Sách, tạp chí
Tiêu đề: Character Classification Framework Based on Support Vector Machine and K -Nearest Neighbour Schemes, Research Article
[34] M. Alves, Khái quát các nghiên cứu ngôn ngữ học về nguồn gốc của tiếng Việt. Tạp chí Khoa học ĐHQGHN, Khoa học Xã hội và Nhân văn 24, tr. 187-202, 2008 Sách, tạp chí
Tiêu đề: Khái quát các nghiên cứu ngôn ngữ học về nguồn gốc của tiếng Việt

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN