Xây dựng hệ thống tự động phân loại văn bản tiếng lào

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA PHOMMASENG PHANAKHONE XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng, Năm 2018 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA PHOMMASENG PHANAKHONE XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS ĐẶNG HOÀI PHƯƠNG Đà Nẵng, Năm 2018 LỜI CAM ĐOAN Tôi cam đoan là công trình nghiên cứu khoa học của cá nhân dưới sự hướng dẫn trực tiếp của TS Đặng Hoài Phương, Trường Đại học Bách Khoa-Đại học Đà Nẵng Các dữ liệu, ví dụ và trích dẫn tham khảo luận án đảm bảo độ tin cậy, chuẩn xác và trung thực Những kết quả đóng góp về mặt lý thuyết và ứng dụng của luận án chưa từng được công bố bất kỳ công trình nào khác cho đến Tác giả luận án, Phommaseng Phanakhone i MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN PHÂN LOẠI VĂN BẢN 1.1 Phân loại văn bản 1.2 Khái niệm văn bản 1.3 Các phương pháp phân loại văn bản 1.3.1 K-Nearest Neighbor (KNN) 1.3.2 Support Vector Machine (SVM) 1.3.3 Naïve Bayes (NB) 11 1.4 Kết luận .12 CHƯƠNG MƠ HÌNH PHÂN LOẠI VĂN BẢN TIẾNG LÀO .13 2.1 Mô hình phân loại văn bản tiếng Lào 13 2.2 Biểu diễn văn bản tiếng Lào .14 2.3 Tách từ tiếng Lào 15 2.3.1 Đặc trưng tiếng Lào .16 2.3.2 Phương pháp tách từ tiếng Lào sử dụng Regular Expression .22 2.4 Trích chọn đặc trưng 34 2.5 Phân loại văn bản tiếng Lào sử dụng Naive Bayes 34 2.6 Kết Luận .40 CHƯƠNG XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO .41 3.1 Mô hình hệ thống 41 3.2 Cơ sở dữ liệu .42 3.3 Triển khai và đánh giá kết quả 43 3.3.1 Các độ đo đánh giá kết quả phân loại văn bản 44 3.3.2 Thử nghiệm phương pháp tách từ câu tiếng Lào 45 3.3.3 Thực nghiệm Hệ thống phân loại văn bản tiếng Lào 46 3.4 Kết luận .50 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO .52 PHỤ LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI (BẢN SAO) ii DANH MỤC CHỮ VIẾT TẮT Tiếng Anh STT Chữ viết tắt Nghĩa tiếng Anh CRF Conditional Random Field Xác suất có điều kiện DFD Data Flow Diagram Sơ đồ luồng dữ liệu IDF Inverse document frequency Nghịch đảo tần số văn bản KNN K Nearest Neighbor K láng giềng gần nhất MAP Maximum A Posterior class Phương pháp MAP NB Naive Bayes Phương pháp Naive Bayes RBF Radial Basis Functions network Mạng hàm bán kính xuyên tâm sở SVM Support Vector Machine Máy vec tơ hỗ trợ TF Term frequency Tần số xuất hiện của từ văn bản iii Nghĩa tiếng Việt DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Bảng so sánh các phương pháp phân loại văn bản 12 2.1 Ví dụ biểu diễn văn bản mô hình không gian vector 15 2.2 Nguyên âm ghép lại với phụ âm cuối vần 18 2.3 Một số cú pháp thường dùng của Regular Expression 24 2.4 Một số chức của Regular Expression 25 2.5 Vector từ đơn tiếng Lào 26 2.6 Các thành phần của Vector từ 27 2.7 Ví dụ cách tạo từ đơn tiếng Lào 28 2.8 Dữ liệu huấn luyện và kiểm thử 39 3.1 CSDL bảng documents 41 3.2 CSDL bảng TrainData 42 3.3 CSDL bảng vocabulary 42 3.4 Kết quả phương pháp tách từ đơn 46 3.5 Kết quả phương pháp tách từ 46 3.6 Kết quả Phân loại văn bản Naive Bayes với phương pháp tách từ không loại bỏ từ dừng 47 3.7 So sánh thời gian phân loại văn bản tiếng Lào kết hợp phương pháp tách từ loại bỏ từ dừng và không loại bỏ từ dừng 48 3.8 Bảng so sánh mô hình phân loại văn bản tiếng Lào đề xuất với các mô hình khác 49 iv DANH MỤC CÁC HÌNH Số hiệu bảng Tên hình Trang 1.1 Bảng mã Unicode tiếng Lào (U+0E80 - U+0EFF) 1.2 Thuật toán k láng giềng gần nhất 1.3 Siêu mặt phẳng h phân chia dữ liệu huấn huyện thành lớp + - với khoảng cách biên lớn nhất Các điểm gần h nhất (được khoanh tròn) là các vector hỗ trợ - Support Vector 2.1 Mô hình tổng quan phân loại văn bản tiếng Lào 13 2.2 Mô hình tách từ tiếng Lào 22 2.3 Một số cấu trúc câu tiếng Lào 26 2.4 Sơ đồ khối hàm word_split 29 2.5 Sơ đồ khối hàm find_first_word 31 2.6 Sơ đồ khối hàm select_best_word 32 2.7 Sơ đồ khối hàm is_next_word 33 2.8 Likelihoods của từng chủ đề với Naïve Bayes 35 2.9 Thuật toán Naïve Bayes Multinominal: huấn luyện và kiểm thử 37 2.10 Thuật toán hàm TRAINMULTINOMINALNB 38 2.11 Thuật toán hàm APPLYMULTINOMINALNB 43 3.1 Sơ đồ phân rã chức 43 3.2 Biểu đồ lớp 43 3.3 Cơ sở dữ liệu 43 3.4 Kết quả phân loại văn bản tiếng Lào kết hợp tách từ 49 v MỞ ĐẦU Internet hiện ngày càng phát triển với số lượng người dùng không ngừng tăng lên, đó Internet đóng vai trị quan trọng c̣c sớng xã hội đối với giao tiếp và chia sẻ thông tin Trước đây, người Lào sử dụng tiếng nước ngoài để nhận biết và trao đổi thông tin lẫn ví dụ: tiếng Anh, tiếng Việt, tiếng Thái Lan, … Ngoài ra, người Lào sử dụng chữ tiếng Anh ghép vào để trở thành từ mà phát âm giớng tiếng Lào thay viết bằng tiếng Lào vì hầu hết thiết bị truy cập được Internet chưa hỗ trợ tiếng Lào Với sự phát triển của công nghệ thông tin, người dân Lào có điều kiện truy cập Internet với chi phí và tốc độ hợp lý; thiết bị smart phone, máy vi tính có bàn phím tiếng Lào và hiển thị được ngơn ngữ tiếng Lào, đó tiếng Lào trở thành ngôn ngữ chính thức mà người Lào sử dụng để chia sẻ thông tin Internet Vấn đề đặt ở là làm cách tìm kiếm thông tin một cách chính xác và có hiệu quả nhất với văn bản tiếng Lào, và một những giải pháp áp dụng phương pháp phân loại văn bản tiếng Lào Trong thực tế, việc phân loại văn bản bằng phương pháp thủ công là rất khó khăn vì lượng dữ liệu thông tin rất lớn Vì vậy, việc phân nhóm văn bản, tốn nhiều thời gian và công sức hiệu quả phân loại không cao Đối với công trình nghiên cứu phân loại văn bản tiếng Lào hạn chế, chủ yếu dựa máy vector hỗ trợ và mạng hàm bán kính xuyên tâm sở Cũng với phương pháp tách từ, những năm gần có một số công trình nghiên cứu về phân loại văn bản tiếng Lào, nhiên đa số vẫn tồn vấn đề về việc xử lý nhập nhằng tiếng Lào Vì tiếng Lào có nhiều cách viết, cách nói và sử dụng từ không thống nhất, đó việc tách từ tiếng Lào rất khó khăn Để khắc phục những hạn chế nêu trên, tác giả đề xuất đề tài luận văn cao học: “Xây dựng hệ thống tự động phân loại văn bản tiếng Lào” bằng cách biểu diễn văn bản thành vector các từ khóa, áp dụng Regular Expression kết hợp với khuôn mẫu từ đơn để tách từ đơn, ghép lại những từ đơn thành từ phức dựa tập từ phức, đồng thời sử dụng phương pháp Naïve Bayes để phân loại văn bản tiếng Lào 1 Mục đích, đối tượng phạm vi nghiên cứu Mục đích của đề tài: Nghiên cứu, phân tích cấu trúc từ và câu văn bản tiếng Lào; đề xuất phương pháp tách từ tiếng Lào dựa Regular Expression với khuôn mẫu biểu thức chính quy Sử dụng phương pháp Naive Bayes để xây dựng mơ hình phân loại văn bản tiếng Lào, hiệu thức hoá hệ thống tự động phân loại văn bản tiếng Lào sở mô hình đề xuất Ý nghĩa khoa học: Đề xuất phương pháp tách từ đối với văn bản tiếng Lào sử dụng Regular Expression và cải tiến với khuôn mẫu biểu thức chính quy của từ đơn Lào Xây dựng mô hình phân loại văn bản tiếng Lào dựa sở phương pháp tách từ đề xuất và Naive Bayes; Ý nghĩa thực tiễn: Hiệu thức hoá hệ thống tự động phân loại văn bản tiếng Lào sở mô hình đề xuất Đối tượng nghiên cứu: Trong khuôn khổ của luận văn thuộc loại xây dựng hệ thống, tác giả chỉ giới hạn nghiên cứu các vấn đề sau: - - Các cấu trúc từ và câu văn bản tiếng Lào; Phương pháp tách từ tiếng Lào dựa biểu thức quy (Regular Expression) kết hợp với khuôn mẫu từ đơn ghép lại những từ đơn thành từ phức dựa tập từ phức; Phương pháp phân loại văn bản Naive Bayes Mục tiêu nhiệm vụ Mục tiêu: Mục tiêu chính của đề tài là nghiên cứu về cấu trúc từ tiếng Lào, đề xuất phương pháp tách từ sử dụng biểu thức chính quy (Regular Expression) và xây dựng hệ thống tự động phân loại văn bản tiếng Lào dựa phương pháp Naive Bayes Để thỏa mãn mục tiêu này thì cần đạt được những mục tiêu cụ thể sau: - Nghiên cứu cấu trúc và phương pháp tách từ văn bản tiếng Lào; - Nghiên cứu sử dụng Naive Bayes phân loại văn bản tiếng Lào; - Xây dựng được hệ thống phân loại văn bản tiếng Lào và áp dụng vào thực tế - Nhiệm vụ: Để đạt được những mục tiêu thì nhiệm vụ đạt của đề tài là: Phân tích cấu trúc từ và câu văn bản tiếng Lào; - Phân tích phương pháp tách từ tiếng Lào; Phân tích các mô hình và phương pháp phân loại văn bản, đưa bài toán cần giải quyết; Phân tích và đề xuất mô hình giải quyết bài toán; - Hiện thực hóa hệ thống nêu trên, đánh giá kết quả đạt được thực tế - Phương pháp nghiên cứu Phương pháp lý thuyết: Tiến hành thu thập và phân tích các tài liệu có liên quan đến đề tài, nghiên cứu phương pháp tách từ và phương pháp phân loại văn bản; - Phương pháp thực nghiệm: Xây dựng sở dữ liệu văn bản tiếng Lào; - Xây dựng hệ thống tự động phân loại văn bản tiếng Lào; Cài đặt hệ thống và triển khai thực tế, nhận xét và đánh giá kết quả đạt được - Phương tiện, công cụ triển khai: Ngôn ngữ lập trình Python 3; Môi trường phát triển tích hợp (IDE) PyCharm CE 2017.3.3; Hệ quản trị sở dữ liệu MongoDB Đóng góp chính của luận án Xây dựng kho ngữ vựng từ phức tiếng Lào phục vụ cho phương pháp tách từ tiếng Lào Đề xuất giải pháp tách từ sử dụng biểu thức chính quy (Regular expression) kết hợp với khuôn mẫu từ đơn và ghép lại từng từ đơn thành từ phức có âm tiết dài nhất từ điển từ phức Ứng dụng Naive Bayes xây dựng mô hình phân loại văn bản tiếng Lào Triển khai hệ thống thực tế và đánh giá hiệu quả của mô hình Bảng 3.4 Kết quả phương pháp tách từ đơn Câu đầu vào Kích thước Số lượng ký Thời gian Số lượng từ đơn văn bản (bytes) tự sử dụng (giây) được tách sentence0 51 0.001 sentence1 69 12 0.003 sentence2 132 33 0.005 11 sentence3 1688 581 0.092 192 3.3.2.2 Thực nghiệm tách từ Sau nhận được những tokens từ tiếng Lào văn bản, phương pháp tách từ loại bỏ các dấu, ghép lại từng từ và so khớp với từ điển từ phức cho đến hết phân tự hay lấy được từ phức có âm thành dài nhất Trong thực nghiệm tách từ này lấy lại các câu thử nghiệm (mục 3.3.2.1) Bảng 3.5 Kết quả phương pháp tách từ Câu đầu vào Kích thước Số lượng ký văn bản tự Thời gian sử dụng (bytes) (giây) Số lượng từ được tách sentence0 51 0.002 sentence1 69 12 0.003 sentence2 132 33 0.006 sentence3 1688 581 0.110 130 3.3.3 Thực nghiệm Hệ thống phân loại văn tiếng Lào 3.3.3.1 Dữ liệu huấn luyện Tác giả tiến hành thử nghiệm phân loại văn bản tiếng Lào sử dụng phương pháp Naive Bayes Tập tài liệu mẫu được sử dụng tất cả gồm 700 văn bản có kích thước khác 46 nhau, phần lớn được lấy từ trang web http://kpl.gov.la bằng cách tạo một python script lặp lại lượt trang báo của từng mục, trích xuất thông tin và lưu trữ dưới dạng tệp văn bản (.txt) với mã Unicode Tất cả dữ liệu văn bản được xử lý, tách từ và lưu trữ sở dữ liệu Trong tập tài liệu này, tài liệu được phân lớp theo trang web phân nhóm gồm nhãn lớp economic (kinh tế), education (giáo dục), politic (chính trị), publichealth (sức khỏe cơng cợng), it (cơng nghệ thông tin), sport (thể thao) travel (du lịch) Dữ liệu này chia thành phần (mỗi phần có 50 văn bản): 350 văn bản được sử dụng làm tập tài liệu huấn luyện và 350 văn bản làm tập tài liệu thử nghiệm 3.3.3.2 Phân loại văn bản tiếng Lào với phương pháp tách từ không loại bỏ từ dừng Kết quả thử nghiệm phân loại văn bản sử dụng phương pháp Naive Bayes kết hợp với phương pháp tách từ sử dụng Regular Expression không loại bỏ từ dừng, có bảng duới đây: Bảng 3.6 Kết quả Phân loại văn bản Naive Bayes với phương pháp tách từ không loại bỏ từ dừng Tên lớp phân nhóm Số VB HL Số VB KT Thời gian PLVB (giây) Phân loại văn bản Naive Bayes với phương pháp tách từ không loại bỏ từ dừng TP TN FP FN Accuracy (%) Error Rate (%) Precision (%) Recall (%) economic 50 50 0.06 43 269 7 95.70 4.30 86.00 86 education 50 50 0.04 41 271 95.41 4.59 87.23 82 it 50 50 0.03 48 264 99.36 0.64 100 96 politic 50 50 0.07 47 265 96.86 3.14 87.03 94 publichealth 50 50 0.05 43 269 97.19 2.81 93.47 86 sport 50 50 0.05 43 269 96.59 3.41 91.48 86 travel 50 50 0.09 47 265 11 95.70 4.30 81.03 94 96.64 3.35 89.46 89.14 Overall (%): 47 3.3.3.3 Phân loại văn bản tiếng Lào với phương pháp tách từ và loại bỏ từ dừng Kết quả cho thấy rằng, với bộ dữ liệu, phương pháp tách từ, kết quả đạt được bằng với phương pháp tách từ không loại bỏ từ dừng, nó chỉ giảm được thời gian phân loại văn bản, kết quả so sánh bảng (3.7): Bảng 3.7 So sánh thời gian phân loại văn bản tiếng Lào kết hợp phương pháp tách từ loại bỏ từ dừng và không loại bỏ từ dừng Tên lớp phân Số Số Thời gian PLVB kết hợp Thời gian PLVB kết nhóm VB VB phương pháp tách từ hợp phương pháp tách HL KT không loại bỏ từ dừng (giây) từ loại bỏ từ dừng (giây) economic 50 50 0.06 0.04 education 50 50 0.04 0.03 it 50 50 0.03 0.02 politic 50 50 0.07 0.05 publichealth 50 50 0.05 0.04 sport 50 50 0.05 0.04 travel 50 50 0.09 0.06 0.05 0.02 Average: 3.3.3.4 Kết quả phân loại văn bản tiếng Lào nghiên cứu Sau là bảng kết quả phân loại văn bản tiếng Lào được nghiên cứu thời gian gần dựa sở phân loại văn bản với vector hỗ trợ SVM và dùng mạng nơ ron RBF, phân loại lớp (Nhân sự tiền lương, Đào tạo, Tuyển sinh, Tốt nghiệp, Đoàn-Đảng-Thanh niên, Công đoàn) với tập dữ liệu 400 văn bản kho văn bản hành chính văn phòng của trường Đại học Champasak Trong này, họ kiểm thử qua hai phương pháp tách từ Conditional Random Field và dựa sở luật Kết quả cho thấy 48 rằng, phân loại văn bản tiếng Lào với mạng nơ ron RBF cho kết quả đợ chính xác cao [1] Hình 3.4 Kết quả phân loại văn bản tiếng Lào kết hợp tách từ 3.3.3.5 So sánh phương pháp phân loại văn bản đề xuất và phương pháp phân loại văn bản có Từ kết quả thực nghiệm thực tế cho thấy phương pháp PLVB gần nhau, đó tác giả chỉ so sánh độ chính xác trung bình của các phương pháp Tuy nhiên kết quả cho thấy, phương pháp phân loại văn bản đề xuất luận văn này có đạt được kết quả cao (Bảng 3.8): Bảng 3.8 Bảng so sánh mô hình phân loại văn bản tiếng Lào đề xuất với các mô hình khác Average Accuracy (%) PLVB với vector hỗ trợ SVM PLVB dùng mạng nơ ron RBF PLVB Naive Bayes với phương pháp tách từ không trích chọn đặc trưng Tách từ CRF Dựa sở luật Tách từ CRF Dựa sở luật Tách từ dựa sở biểu thức quy (Regular Expression) 92.73 93.41 92.95 93.82 96.64 49 3.4 Kết luận Trong chương này, luận văn xây dựng hệ thống tự động phân loại văn bản tiếng Lào dựa sở Naive bayes với loại bỏ từ dừng và không loại bỏ từ dừng triển khai thực tế, so sánh, đánh giá kết quả đạt được với các phương pháp phân loại văn bản tiếng Lào tồn Kết quả thực tế cho thấy, hệ thớng cịn có lỗi phân loại nhầm lớp văn bản tập dữ liệu huấn lụn cịn hạn chế về mặt đợ dài của văn bản Tuy nhiên, độ chính xác trung bình của hệ thống tự động phân loại văn bản tiếng Lào sở mơ hình đề x́t có đợ xác cao 50 KẾT LUẬN Các kết quả chính của luận án Nghiên cứu, áp dụng phương pháp biểu diễn văn bản tiếng Lào sở mơ hình vector Đề xuất phương pháp tách từ văn bản tiếng Lào sử dụng biểu thức chính quy (Regular Expression) kết hợp với khuôn mẫu từ đơn và ghép lại những từ đơn thành từ phức dựa tử điển từ phức, áp dụng phương pháp Naive Bayes để phân loại văn bản tiếng Lào Xây dựng hệ thống tự động phân loại văn bản tiếng Lào sở mô hình đề xuất và triển khai đánh giá kết quả đạt được thực tế Để triển khai phân loại văn bản, tác giả rút các văn bản khác từ web site tiếng Lào và lưu trữ dưới dạng Plain text (.txt) với mã chữ UTF-8 và chia đôi tập dữ liệu thành tập dữ liệu huấn luyện và tập dữ liệu kiểm thử Kết quả kiểm thử Hệ thống tự động phân loại văn bản tiếng Lào áp dụng Naïve Bayes để phân loại văn bản và áp dụng biểu thức chính quy để tách từ, đối với thử nghiệm 350 dữ liệu huấn luyện và 350 dữ liệu kiểm thử, đạt được kết quả độ chính xác 96.64% Đối với kiểm thử phân loại văn bản với sự loại bỏ từ dừng và không loại bỏ từ dừng cho kết quả độ chính xác bằng nhau, thời gian phân loại văn bản loại bỏ từ dừng chạy nhanh Thông qua kết quả thực nghiệm cho thấy, sử dụng phương pháp tách từ đơn câu, phương pháp này nhận biết từ mà viết sai chính tả đặc biệt là viết thiếu chữ, và nhận biết được tên của người kể cả tên của quận, huyện, tỉnh, nó cứ tách từ thường, bởi vì các tên đó là cụm từ của những từ đơn ghép lại với có nghĩa từ điển không, và không có chữ viết hoa, nói chung là khơng có ký hiệu ch̉n nào trăm phần trăm để chỉ định đó là tên Vì vậy, đó là một khó khăn mà gặp được quá trình tách từ tiếng Lào Tuy nhiên, Hệ thống tự động phân loại văn bản tiếng Lào vẫn đạt kết quả khá tốt Hướng phát triển - Nghiên cứu phương pháp phát hiện và sửa chữa những từ sai chính tả Tối ưu hóa Hệ thống tự động phân loại văn bản tiếng Lào 51 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Vilavong Souksan, Nghiên cứu phương pháp tách từ phục vụ phân loại văn bản [2] [3] [4] tiếng Lào, 2017 Vilavong Souksan, Phan Huy Khánh, Tách từ tiếng Lào sử dụng kho ngữ vựng kết hợp với các đặc trưng ngữ pháp tiếng Lào, 2014 Vilavong Souksan, Phan Huy Khánh, Khử bỏ nhập nhằng bài toán tách từ tiếng Lào, 2013 Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn bản tiếng Việt với bộ phân loại vectơ hỗ trợ SVM, Tạp chí CNTT&TT, 2006 Tiếng Anh: [5] Wenjie Huo, Lanjiang Zhou, Feng Zhou and Bei Yang, Method of Word Segmentation in Laos Based on Maximal Matching of Syllables, School of [6] [7] Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China, 2016 Thorsten Joachims, A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization, 1997 J.J García Adevaa, J.M Pikatza Atxaa, M Ubeda Carrillob, E Ansuategi Zengotitabengoab, Automatic text classification to support systematic reviews in medicine, 2013 [8] Vivek Narayanan, Ishan Arora, Arjun Bhatia, Fast and Accurate Sentiment Classification Using an Enhanced Naive Bayes Model, Department of Electronics Engineering Indian Institute of Technology (BHU), Varanasi, India, 2013 [9] Sebastian Raschka, Naive Bayes and Text Classification I - Introduction and Theory, 2014 [10] N Seresangtakul, A Hybrid Approach to Lao Word Segmentation using Longest Syllable Level Matching with Named Entities Recognition, Electrical Enginneering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CONN), May 2013 [11] S Vanthanavong, LaoWS: Lao Segmentation Based on Conditional Random Fields, Conference on Human Language Technology for Development, Alexandria, Egypt, May 2011 52 [12] Tatsuaki Okamoto, Jianying Zhou, Information and Communications Security, Third International Conference, ICICS 2001, Xian, China, November 13-16, 2001 [13] Haiyi Zhang, Di Li, Naïve Bayes Text Classifier, Granular Computing, 2007 [14] Neha Sharma, Manoj Singh, Modifying Naive Bayes classifier for multinomial text classification, International Conference on Recent Advances and Innovations in Engineering (ICRAIE), 2016 [15] Sang-Bum Kim, Kyoung-Soo Han, Hae-Chang Rim, Some Effective Techniques for Naive Bayes Text Classification, 2006 [16] Joseph Lilleberg, Yun Zhu, Yanqing Zhang, Support vector machines and Word2vec for text classification with semantic features, IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing (ICCI*CC), 2015 [17] Xiao-Peng Yu, Xiao-Gao Yu, Novel Text Classification Based on K-Nearest Neighbor, International Conference on Machine Learning and Cybernetics, 2007 [18] Lea Vega, Andres Mendez-Vazquez, Dynamic Neural Networks for Text Classification, International Conference on Computational Intelligence and Applications (ICCIA), 2016 [19] Shing-Hwa Lu, Ding-An Chiang, Huan-Chao Keh, Hui Hua Huang, Chinese text classification by the Naïve Bayes Classifier and the associative classifier with multiple confidence threshold values, Knowledge-based systems, 2010 [20] Nivet Chirawichitchai, Emotion classification of Thai text based using term weighting and machine learning techniques, Computer Science and Software Engineering (JCSSE), 2014 [21] Supatta Viriyavisuthisakul, Parinya Sanguansat, Pisit Charnkeitkong, Choochart Haruechaiyasak, A comparison of similarity measures for online social media Thai text classification, Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON), 2015 [22] P Phissamay, et al., Syllabification of Lao Script for Line Breaking, Tech Rep of STEA, Lao PDR, 2004 [23] T Joachims, 1998 Text categorization with Support Vector Machines: Learning with many relevant features In Machine Learning: ECML-98 (Eds Nédellec C., Rouveirol C.), Springer, Berlin, Heidelberg 137-142 [24] Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008 53 Tiếng Lào: [25] ແບບຮຽນພາສາລາວ, ຊັ້ນມັດທະຍົມສຶກສາ ປີທີ (Sách giáo khoa tiếng Lào lớp 6), Bộ giáo dục và thể thao, Viện Nghiên cứu Khoa học Giáo dục Lào, 2016 [26] ພາສາແລະວັນນະຄະດີລາວ, ຊັ້ນມັດທະຍົມ (Tiếng Lào và Văn học lớp 8), Nhà Xuất bản Viện nghiên cứu và Khoa học Giáo dục, Bộ Giáo dục Lào, 1997 [27] ໄວຍາກອນພາສາລາວ, ຊັ້ນມັດທະຍົມ (Ngữ pháp tiếng Lào Lớp 10), Nhà Xuất bản Bộ Giáo dục và Thể thao Lào, 1980 [28] PhD Onmanysone Thongkham, ວັດຈະນານຸກົມພາສາລາວ (Tử điển tiếng Lào), Nhà Xuất bản Thư viện Quốc gia Lào, 2008 [29] ໄວຍະກອນລາວປັດຈຸບັນ (Ngữ pháp tiếng Lào hiện nay), Nhà Xuất bản Bộ Giáo dục, Viện Nghiên cứu Khoa học Giáo dục Quốc gia Lào, 2000 54 PHỤ LỤC Kết quả thử nghiệm phương pháp tách từ đơn (mục 3.4.2.1) Đầu vào (Sentence0), 51 bytes, characters: ໂຮງຮຽນ Tiếng Việt: Trường học Đầu ra, tokens: [['ໂຮງ', 'ຮຽນ']] Đầu vào (Sentence1), 69 bytes, 12 characters: ມະຫາວິທະຍາໄລ Tiếng Việt: Trường Đại học Đầu ra, tokens: [['ມະ', 'ຫາ', 'ວິ', 'ທະ', 'ຍາ', 'ໄລ']] Đầu vào (Sentence2), 132 bytes, 33 characters: ຂ້ອຍກໍາລັງສຶກສາຢູ່ທີ່ປະເທດຫວຽດນາມ Tiếng Việt: Tôi học Việt Nam Đầu ra, 11 tokens: [['ຂ້ອຍ', 'ກໍາ', 'ລັງ', 'ສຶກ', 'ສາ', 'ຢູ່', 'ທີ່', 'ປະ', 'ເທດ', 'ຫວຽດ', 'ນາມ']] Đầu vào (Sentence3), 1688 ເປັນສອງປະເທດບ້ານໃກ້ເຮືອນຄຽງທີ່ໃກ້ຊິດ, bytes, ມີສາຍພູ, 581 characters: ແມ່ນໍ້າລຳເຊຕິດຈອດກັນ, ລາວ ແລະ ຫວຽດນາມ ຮ່ວມກັນດື່ມນໍ້າແມ່ຂອງ, ພ້ອມກັນອີງໃສ່ສາຍພູຫຼວງອັນສະຫງ່າ, ປະຊາຊົນສອງຊາດເຄີຍມີສາຍພົວພັນອັນເປັນມູນເຊື້ອ, ສັດຊື່ບໍລິສຸດ, ສະໜິດຕິດພັນແຕ່ດົນນານ ພິເສດ, ນັບແຕ່ມື້ພັກກອມມູນິດອິນດູຈີນໄດ້ກຳເນີດເກີດຂຶ້ນມາ ແລະ ນຳພາ, ຕໍ່ມາແມ່ນພັກປະຊາຊົນປະຕິວັດລາວ ແລະ ພັກກອມມູນິດຫວຽດນາມ, ສາຍພົວພັນນັ້ນນັບມື້ນັບໄດ້ຮັບການເປີດກວ້າງ, ຂະຫຍາຍຕົວ ແລະ ໄດ້ຍົກລະດັບທາງດ້ານທາດແທ້ ດ້ວຍທິດນໍາທີ່ເຕັມໄປດ້ວຍລັກສະນະທາງດ້ານມະນຸດສະທຳ ແລະ ມີຄວາມໝາຍດ້ານການເມືອງຢ່າງເລິກເຊິ່ງ ຕາມຄຳສັ່ງສອນຂອງ ປະທານ ໂຮ່ຈີມິນ ຜູ້ຍິ່ງໃຫ່ຍ ‘ຊ່ວຍເພື່ອນແມ່ນຊ່ວຍຕົນເອງ’ Tiếng Việt: Lào Việt Nam là hai nước láng giềng thân thiết, núi liền núi, sông liền sông, uống chung nước sông Mê Kông tựa lưng vào dãy Trường sơn hùng vĩ, nhân dân hai nước có mối quan hệ hữu nghị truyền thống, chung thủy, sáng, gần gủi từ lâu đời ngày phát triển Đặc biệt từ có sự đời lãnh đạo của Đảng Cộng sản Đông Dương , sau này là Đảng Cộng SảnViệt Nam và Đảng Nhân dân Cách mạng Lào chia ngọt, sẻ bùi, xây đắp nên mới tình hữu nghị trùn thớng, đoàn kết đặc biệt hợp tác toàn diện nhân tố cực kỳ quan trọng có ý nghĩa về trị sâu sắc theo lời dạy của Chủ tịch Hồ Chí Minh vĩ đại “giúp bạn tự giúp mình” Đầu ra, 192 tokens (gồm các ký tự dấu chấm): [['ລາວ'], ['ແລະ'], ['ຫວຽດ', 'ນາມ'], ['ເປັນ', 'ສອງ', 'ປະ', 'ເທດ', 'ບ້ານ', 'ໃກ້', 'ເຮືອນ', 'ຄຽງ', 'ທີ່', 'ໃກ້', 'ຊິດ'], [','], ['ມີ', 'ສາຍ', 'ພູ'], [','], ['ແມ່', 'ນໍ້າ', 'ລໍາ', 'ເຊ', 'ຕິດ', 'ຈອດ', 'ກັນ'], [','], ['ຮ່ວມ', 'ກັນ', 'ດື່ມ', 'ນໍ້າ', 'ແມ່', 'ຂອງ'], [','], ['ພ້ອມ', 'ກັນ', 'ອີງ', 'ໃສ່', 'ສາຍ', 'ພູ', 'ຫຼວງ', 'ອັນ', 'ສະ', 'ຫງ່າ'], [','], ['ປະ', 'ຊາ', 'ຊົນ', 'ສອງ', 'ຊາດ'], ['ເຄີຍ', 'ມີ', 'ສາຍ', 'ພົວ', 'ພັນ', 'ອັນ', 'ເປັນ', 'ມູນ', 'ເຊື້ອ'], [','], ['ສັດ', 'ຊື່', 'ບໍ', 'ລິ', 'ສຸດ'], [','], ['ສະ', 'ໜິດ', 'ຕິດ', 'ພັນ', 'ແຕ່', 'ດົນ', 'ນານ'], ['.'], ['ພິ', 'ເສດ'], [','], ['ນັບ', 'ແຕ່', 'ມື້', 'ພັກ', 'ກອມ', 'ມູ', 'ນິດ', 'ອິນ', 'ດູ', 'ຈີນ', 'ໄດ້', 'ກໍາ', 'ເນີດ', 'ເກີດ', 'ຂຶ້ນ', 'ມາ'], ['ແລະ'], ['ນໍາ', 'ພາ'], [','], ['ຕໍ່', 'ມາ', 'ແມ່ນ', 'ພັກ', 'ປະ', 'ຊາ', 'ຊົນ', 'ປະ', 'ຕິ', 'ວັດ', 'ລາວ'], ['ແລະ'], ['ພັກ', 'ກອມ', 'ມູ', 'ນິດ', 'ຫວຽດ', 'ນາມ'], [','], ['ສາຍ', 'ພົວ', 'ພັນ', 'ນັ້ນ', 'ນັບ', 'ມື້', 'ນັບ', 'ໄດ້', 'ຮັບ', 'ການ', 'ເປີດ', 'ກວ້າງ'], [','], ['ຂະ', 'ຫຍາຍ', 'ຕົວ'], ['ແລະ'], ['ໄດ້', 'ຍົກ', 'ລະ', 'ດັບ', 'ທາງ', 'ດ້ານ', 'ທາດ', 'ແທ້'], ['.'], ['ດ້ວຍ', 'ທິດ', 'ນໍາ', 'ທີ່', 'ເຕັມ', 'ໄປ', 'ດ້ວຍ', 'ລັກ', 'ສະ', 'ນະ', 'ທາງ', 'ດ້ານ', 'ມະ', 'ນຸດ', 'ສະ', 'ທໍາ'], ['ແລະ'], ['ມີ', 'ຄວາມ', 'ໝາຍ', 'ດ້ານ', 'ການ', 'ເມືອງ', 'ຢ່າງ', 'ເລິກ', 'ເຊິ່ງ'], ['ຕາມ', 'ຄໍາ', 'ສັ່ງ', 'ສອນ', 'ຂອງ'], ['ປະ', 'ທານ'], ['ໂຮ່', 'ຈີ', 'ມິນ'], ['ຜູ'້ , 'ຍິ່ງ', 'ໃຫ່', 'ຍ'], ['‘'], ['ຊ່ວຍ', 'ເພື່ອນ', 'ແມ່ນ', 'ຊ່ວຍ', 'ຕົນ', 'ເອງ'], ['’'], ['.']] Hình module tách từ đơn chạy PyCharm IDE Kết quả thử nghiệm phương pháp tách từ (mục 3.4.2.2) Đầu vào: sentence0, Đầu ra, token: ['ໂຮງຮຽນ'] Đầu vào: sentence1, Đầu ra, token: ['ມະຫາວິທະຍາໄລ'] Đầu vào: sentence2, Đầu ra, tokens: ['ຂ້ອຍ', 'ກໍາລັງ', 'ສຶກສາ', 'ຢູ່', 'ທີ່', 'ປະເທດ', 'ຫວຽດນາມ'] Đầu vào: sentence3, Đầu ra, 130 tokens: ['ລາວ', 'ແລະ', 'ຫວຽດນາມ', 'ເປັນ', 'ສອງ', 'ປະເທດ', 'ບ້ານ', 'ໃກ້', 'ເຮືອນ', 'ຄຽງ', 'ທີ່', 'ໃກ້', 'ຊິດ', 'ມີ', 'ສາຍ', 'ພູ', 'ແມ່ນໍ້າ', 'ລໍາ', 'ເຊ', 'ຕິດ', 'ຈອດ', 'ກັນ', 'ຮ່ວມກັນ', 'ດື່ມ', 'ນໍ້າ', 'ແມ່', 'ຂອງ', 'ພ້ອມ', 'ກັນ', 'ອີງໃສ່', 'ສາຍ', 'ພູ', 'ຫຼວງ', 'ອັນ', 'ສະຫງ່າ', 'ປະຊາຊົນ', 'ສອງ', 'ຊາດ', 'ເຄີຍ', 'ມີ', 'ສາຍພົວພັນ', 'ອັນ', 'ເປັນ', 'ມູນເຊື້ອ', 'ສັດ', 'ຊື່', 'ບໍລິສຸດ', 'ສະໜິດ', 'ຕິດພັນ', 'ແຕ່', 'ດົນ', 'ນານ', 'ພິເສດ', 'ນັບແຕ່', 'ມື້', 'ພັກ', 'ກອມມູນິດ', 'ອິນ', 'ດູ', 'ຈີນ', 'ໄດ້', 'ກໍາເນີດ', 'ເກີດ', 'ຂຶ້ນ', 'ມາ', 'ແລະ', 'ນໍາພາ', 'ຕໍ່ມາ', 'ແມ່ນ', 'ພັກ', 'ປະຊາຊົນ', 'ປະຕິວັດ', 'ລາວ', 'ແລະ', 'ພັກ', 'ກອມມູນິດ', 'ຫວຽດນາມ', 'ສາຍພົວພັນ', 'ນັ້ນ', 'ນັບ', 'ມື້', 'ນັບ', 'ໄດ້', 'ຮັບ', 'ການ', 'ເປີດ', 'ກວ້າງ', 'ຂະຫຍາຍຕົວ', 'ແລະ', 'ໄດ້', 'ຍົກລະດັບ', 'ທາງດ້ານ', 'ທາດ', 'ແທ້', 'ດ້ວຍ', 'ທິດ', 'ນໍາ', 'ທີ່', 'ເຕັມ', 'ໄປ', 'ດ້ວຍ', 'ລັກສະນະ', 'ທາງດ້ານ', 'ມະນຸດ', 'ສະ', 'ທໍາ', 'ແລະ', 'ມີ', 'ຄວາມໝາຍ', 'ດ້ານ', 'ການເມືອງ', 'ຢ່າງ', 'ເລິກເຊິ່ງ', 'ຕາມ', 'ຄໍາສັ່ງ', 'ສອນ', 'ຂອງ', 'ປະທານ', 'ໂຮ່', 'ຈີ', 'ມິນ', 'ຜູ'້ , 'ຍິ່ງ', 'ໃຫ່', 'ຍ', 'ຊ່ວຍ', 'ເພື່ອນ', 'ແມ່ນ', 'ຊ່ວຍ', 'ຕົນເອງ'] Hình Module tách từ chạy PyCharmIDE Kết quả phân loại văn bản tiếng Lào kết hợp phương pháp tách từ Hình Kết quả phân loại văn bản tiếng Lào kết hợp phương pháp tách từ chạy PyCharm IDE Kết quả phân loại văn bản tiếng Lào kết hợp phương pháp tách từ loại bỏ từ dừng Hình Kết quả phân loại văn bản tiếng Lào kết hợp phương pháp tách từ và loại bỏ từ dừng chạy PyCharm IDE Mã code các hàm phương pháp tách từ ... pháp Naïve Bayes để phân loại văn bản tiếng Lào 40 CHƯƠNG XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO 3.1 Mô hình hệ thống Trong hệ thống tự động phân loại văn bản tiếng Lào... trưng 34 2.5 Phân loại văn bản tiếng Lào sử dụng Naive Bayes 34 2.6 Kết Luận .40 CHƯƠNG XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO .41... PHOMMASENG PHANAKHONE XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS

Định dạng
Số trang	67
Dung lượng	2,32 MB