1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống tự động phân loại văn bản tiếng lào

67 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 2,34 MB

Nội dung

Hiện nay công trình nghiên cứu phân loại văn bản tiếng Lào còn hạn chế chủ yếu dựa trên máy vector hỗ trợ và mạng hàm bán kính xuyên tâm cơ sở Phương pháp tách từ trong các công trình nghiên cứu nói trên hầu hết vẫn tồn tại vấn đề về việc xử lý nhập nhằng của tiếng Lào Vì tiếng Lào có nhiều cách viết cách nói và sử dụng từ không thống nhất đặc biệt là đặc trưng của tiếng Lào không có dấu cách giữa các từ do đó việc tách từ tiếng Lào sẽ rất khó khăn Để khắc phục những hạn chế tác giả đề xuất đề tài Xây dựng hệ thống tự động phân loại văn bản tiếng Lào bằng cách biểu diễn văn bản thành vector các từ khóa áp dụng Regular Expression kết hợp với khuôn mẫu từ đơn để tách từ đơn ghép lại những từ đơn thành từ phức có từ dài nhất dựa trên tập từ phức đồng thời sử dụng phương pháp Naïve Bayes để phân loại văn bản tiếng Lào

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA PHOMMASENG PHANAKHONE XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng, Năm 2018 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA PHOMMASENG PHANAKHONE XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS ĐẶNG HOÀI PHƯƠNG Đà Nẵng, Năm 2018 LỜI CAM ĐOAN Tôi cam đoan là công trình nghiên cứu khoa học của cá nhân dưới sự hướng dẫn trực tiếp của TS Đặng Hoài Phương, Trường Đại học Bách Khoa-Đại học Đà Nẵng Các dữ liệu, ví dụ và trích dẫn tham khảo luận án đảm bảo độ tin cậy, chuẩn xác và trung thực Những kết quả đóng góp về mặt lý thuyết và ứng dụng của luận án chưa từng được công bố bất kỳ công trình nào khác cho đến Tác giả luận án, Phommaseng Phanakhone i MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN PHÂN LOẠI VĂN BẢN 1.1 Phân loại văn bản 1.2 Khái niệm văn bản 1.3 Các phương pháp phân loại văn bản 1.3.1 K-Nearest Neighbor (KNN) 1.3.2 Support Vector Machine (SVM) 1.3.3 Naïve Bayes (NB) 11 1.4 Kết luận .12 CHƯƠNG MƠ HÌNH PHÂN LOẠI VĂN BẢN TIẾNG LÀO .13 2.1 Mô hình phân loại văn bản tiếng Lào 13 2.2 Biểu diễn văn bản tiếng Lào .14 2.3 Tách từ tiếng Lào 15 2.3.1 Đặc trưng tiếng Lào .16 2.3.2 Phương pháp tách từ tiếng Lào sử dụng Regular Expression .22 2.4 Trích chọn đặc trưng 34 2.5 Phân loại văn bản tiếng Lào sử dụng Naive Bayes 34 2.6 Kết Luận .40 CHƯƠNG XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO .41 3.1 Mô hình hệ thống 41 3.2 Cơ sở dữ liệu .42 3.3 Triển khai và đánh giá kết quả 43 3.3.1 Các độ đo đánh giá kết quả phân loại văn bản 44 3.3.2 Thử nghiệm phương pháp tách từ câu tiếng Lào 45 3.3.3 Thực nghiệm Hệ thống phân loại văn bản tiếng Lào 46 3.4 Kết luận .50 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO .52 PHỤ LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI (BẢN SAO) ii DANH MỤC CHỮ VIẾT TẮT Tiếng Anh STT Chữ viết tắt Nghĩa tiếng Anh CRF Conditional Random Field Xác suất có điều kiện DFD Data Flow Diagram Sơ đồ luồng dữ liệu IDF Inverse document frequency Nghịch đảo tần số văn bản KNN K Nearest Neighbor K láng giềng gần nhất MAP Maximum A Posterior class Phương pháp MAP NB Naive Bayes Phương pháp Naive Bayes RBF Radial Basis Functions network Mạng hàm bán kính xuyên tâm sở SVM Support Vector Machine Máy vec tơ hỗ trợ TF Term frequency Tần số xuất hiện của từ văn bản iii Nghĩa tiếng Việt DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Bảng so sánh các phương pháp phân loại văn bản 12 2.1 Ví dụ biểu diễn văn bản mô hình không gian vector 15 2.2 Nguyên âm ghép lại với phụ âm cuối vần 18 2.3 Một số cú pháp thường dùng của Regular Expression 24 2.4 Một số chức của Regular Expression 25 2.5 Vector từ đơn tiếng Lào 26 2.6 Các thành phần của Vector từ 27 2.7 Ví dụ cách tạo từ đơn tiếng Lào 28 2.8 Dữ liệu huấn luyện và kiểm thử 39 3.1 CSDL bảng documents 41 3.2 CSDL bảng TrainData 42 3.3 CSDL bảng vocabulary 42 3.4 Kết quả phương pháp tách từ đơn 46 3.5 Kết quả phương pháp tách từ 46 3.6 Kết quả Phân loại văn bản Naive Bayes với phương pháp tách từ không loại bỏ từ dừng 47 3.7 So sánh thời gian phân loại văn bản tiếng Lào kết hợp phương pháp tách từ loại bỏ từ dừng và không loại bỏ từ dừng 48 3.8 Bảng so sánh mô hình phân loại văn bản tiếng Lào đề xuất với các mô hình khác 49 iv DANH MỤC CÁC HÌNH Số hiệu bảng Tên hình Trang 1.1 Bảng mã Unicode tiếng Lào (U+0E80 - U+0EFF) 1.2 Thuật toán k láng giềng gần nhất 1.3 Siêu mặt phẳng h phân chia dữ liệu huấn huyện thành lớp + - với khoảng cách biên lớn nhất Các điểm gần h nhất (được khoanh tròn) là các vector hỗ trợ - Support Vector 2.1 Mô hình tổng quan phân loại văn bản tiếng Lào 13 2.2 Mô hình tách từ tiếng Lào 22 2.3 Một số cấu trúc câu tiếng Lào 26 2.4 Sơ đồ khối hàm word_split 29 2.5 Sơ đồ khối hàm find_first_word 31 2.6 Sơ đồ khối hàm select_best_word 32 2.7 Sơ đồ khối hàm is_next_word 33 2.8 Likelihoods của từng chủ đề với Naïve Bayes 35 2.9 Thuật toán Naïve Bayes Multinominal: huấn luyện và kiểm thử 37 2.10 Thuật toán hàm TRAINMULTINOMINALNB 38 2.11 Thuật toán hàm APPLYMULTINOMINALNB 43 3.1 Sơ đồ phân rã chức 43 3.2 Biểu đồ lớp 43 3.3 Cơ sở dữ liệu 43 3.4 Kết quả phân loại văn bản tiếng Lào kết hợp tách từ 49 v MỞ ĐẦU Internet hiện ngày càng phát triển với số lượng người dùng không ngừng tăng lên, đó Internet đóng vai trị quan trọng c̣c sống xã hội đối với giao tiếp và chia sẻ thông tin Trước đây, người Lào sử dụng tiếng nước ngoài để nhận biết và trao đổi thông tin lẫn ví dụ: tiếng Anh, tiếng Việt, tiếng Thái Lan, … Ngoài ra, người Lào sử dụng chữ tiếng Anh ghép vào để trở thành từ mà phát âm giớng tiếng Lào thay viết bằng tiếng Lào vì hầu hết thiết bị truy cập được Internet chưa hỗ trợ tiếng Lào Với sự phát triển của công nghệ thông tin, người dân Lào có điều kiện truy cập Internet với chi phí và tốc độ hợp lý; thiết bị smart phone, máy vi tính có bàn phím tiếng Lào và hiển thị được ngơn ngữ tiếng Lào, đó tiếng Lào trở thành ngôn ngữ chính thức mà người Lào sử dụng để chia sẻ thông tin Internet Vấn đề đặt ở là làm cách tìm kiếm thông tin một cách chính xác và có hiệu quả nhất với văn bản tiếng Lào, và một những giải pháp áp dụng phương pháp phân loại văn bản tiếng Lào Trong thực tế, việc phân loại văn bản bằng phương pháp thủ công là rất khó khăn vì lượng dữ liệu thông tin rất lớn Vì vậy, việc phân nhóm văn bản, tốn nhiều thời gian và công sức hiệu quả phân loại không cao Đối với công trình nghiên cứu phân loại văn bản tiếng Lào hạn chế, chủ yếu dựa máy vector hỗ trợ và mạng hàm bán kính xuyên tâm sở Cũng với phương pháp tách từ, những năm gần có một số công trình nghiên cứu về phân loại văn bản tiếng Lào, nhiên đa số vẫn tồn vấn đề về việc xử lý nhập nhằng tiếng Lào Vì tiếng Lào có nhiều cách viết, cách nói và sử dụng từ không thống nhất, đó việc tách từ tiếng Lào rất khó khăn Để khắc phục những hạn chế nêu trên, tác giả đề xuất đề tài luận văn cao học: “Xây dựng hệ thống tự động phân loại văn bản tiếng Lào” bằng cách biểu diễn văn bản thành vector các từ khóa, áp dụng Regular Expression kết hợp với khuôn mẫu từ đơn để tách từ đơn, ghép lại những từ đơn thành từ phức dựa tập từ phức, đồng thời sử dụng phương pháp Naïve Bayes để phân loại văn bản tiếng Lào 1 Mục đích, đối tượng phạm vi nghiên cứu Mục đích của đề tài: Nghiên cứu, phân tích cấu trúc từ và câu văn bản tiếng Lào; đề xuất phương pháp tách từ tiếng Lào dựa Regular Expression với khuôn mẫu biểu thức chính quy Sử dụng phương pháp Naive Bayes để xây dựng mơ hình phân loại văn bản tiếng Lào, hiệu thức hoá hệ thống tự động phân loại văn bản tiếng Lào sở mô hình đề xuất Ý nghĩa khoa học: Đề xuất phương pháp tách từ đối với văn bản tiếng Lào sử dụng Regular Expression và cải tiến với khuôn mẫu biểu thức chính quy của từ đơn Lào Xây dựng mô hình phân loại văn bản tiếng Lào dựa sở phương pháp tách từ đề xuất và Naive Bayes; Ý nghĩa thực tiễn: Hiệu thức hoá hệ thống tự động phân loại văn bản tiếng Lào sở mô hình đề xuất Đối tượng nghiên cứu: Trong khuôn khổ của luận văn thuộc loại xây dựng hệ thống, tác giả chỉ giới hạn nghiên cứu các vấn đề sau: - - Các cấu trúc từ và câu văn bản tiếng Lào; Phương pháp tách từ tiếng Lào dựa biểu thức quy (Regular Expression) kết hợp với khn mẫu từ đơn ghép lại những từ đơn thành từ phức dựa tập từ phức; Phương pháp phân loại văn bản Naive Bayes Mục tiêu nhiệm vụ Mục tiêu: Mục tiêu chính của đề tài là nghiên cứu về cấu trúc từ tiếng Lào, đề xuất phương pháp tách từ sử dụng biểu thức chính quy (Regular Expression) và xây dựng hệ thống tự động phân loại văn bản tiếng Lào dựa phương pháp Naive Bayes Để thỏa mãn mục tiêu này thì cần đạt được những mục tiêu cụ thể sau: - Nghiên cứu cấu trúc và phương pháp tách từ văn bản tiếng Lào; - Nghiên cứu sử dụng Naive Bayes phân loại văn bản tiếng Lào; - Xây dựng được hệ thống phân loại văn bản tiếng Lào và áp dụng vào thực tế - Nhiệm vụ: Để đạt được những mục tiêu thì nhiệm vụ đạt của đề tài là: Phân tích cấu trúc từ và câu văn bản tiếng Lào; - Phân tích phương pháp tách từ tiếng Lào; Phân tích các mô hình và phương pháp phân loại văn bản, đưa bài toán cần giải quyết; Phân tích và đề xuất mô hình giải quyết bài toán; - Hiện thực hóa hệ thống nêu trên, đánh giá kết quả đạt được thực tế - Phương pháp nghiên cứu Phương pháp lý thuyết: Tiến hành thu thập và phân tích các tài liệu có liên quan đến đề tài, nghiên cứu phương pháp tách từ và phương pháp phân loại văn bản; - Phương pháp thực nghiệm: Xây dựng sở dữ liệu văn bản tiếng Lào; - Xây dựng hệ thống tự động phân loại văn bản tiếng Lào; Cài đặt hệ thống và triển khai thực tế, nhận xét và đánh giá kết quả đạt được - Phương tiện, công cụ triển khai: Ngôn ngữ lập trình Python 3; Môi trường phát triển tích hợp (IDE) PyCharm CE 2017.3.3; Hệ quản trị sở dữ liệu MongoDB Đóng góp chính của luận án Xây dựng kho ngữ vựng từ phức tiếng Lào phục vụ cho phương pháp tách từ tiếng Lào Đề xuất giải pháp tách từ sử dụng biểu thức chính quy (Regular expression) kết hợp với khuôn mẫu từ đơn và ghép lại từng từ đơn thành từ phức có âm tiết dài nhất từ điển từ phức Ứng dụng Naive Bayes xây dựng mô hình phân loại văn bản tiếng Lào Triển khai hệ thống thực tế và đánh giá hiệu quả của mô hình Bảng 3.4 Kết quả phương pháp tách từ đơn Câu đầu vào Kích thước Số lượng ký Thời gian Số lượng từ đơn văn bản (bytes) tự sử dụng (giây) được tách sentence0 51 0.001 sentence1 69 12 0.003 sentence2 132 33 0.005 11 sentence3 1688 581 0.092 192 3.3.2.2 Thực nghiệm tách từ Sau nhận được những tokens từ tiếng Lào văn bản, phương pháp tách từ loại bỏ các dấu, ghép lại từng từ và so khớp với từ điển từ phức cho đến hết phân tự hay lấy được từ phức có âm thành dài nhất Trong thực nghiệm tách từ này lấy lại các câu thử nghiệm (mục 3.3.2.1) Bảng 3.5 Kết quả phương pháp tách từ Câu đầu vào Kích thước Số lượng ký văn bản tự Thời gian sử dụng (bytes) (giây) Số lượng từ được tách sentence0 51 0.002 sentence1 69 12 0.003 sentence2 132 33 0.006 sentence3 1688 581 0.110 130 3.3.3 Thực nghiệm Hệ thống phân loại văn tiếng Lào 3.3.3.1 Dữ liệu huấn luyện Tác giả tiến hành thử nghiệm phân loại văn bản tiếng Lào sử dụng phương pháp Naive Bayes Tập tài liệu mẫu được sử dụng tất cả gồm 700 văn bản có kích thước khác 46 nhau, phần lớn được lấy từ trang web http://kpl.gov.la bằng cách tạo một python script lặp lại lượt trang báo của từng mục, trích xuất thông tin và lưu trữ dưới dạng tệp văn bản (.txt) với mã Unicode Tất cả dữ liệu văn bản được xử lý, tách từ và lưu trữ sở dữ liệu Trong tập tài liệu này, tài liệu được phân lớp theo trang web phân nhóm gồm nhãn lớp economic (kinh tế), education (giáo dục), politic (chính trị), publichealth (sức khỏe cơng cợng), it (công nghệ thông tin), sport (thể thao) travel (du lịch) Dữ liệu này chia thành phần (mỗi phần có 50 văn bản): 350 văn bản được sử dụng làm tập tài liệu huấn luyện và 350 văn bản làm tập tài liệu thử nghiệm 3.3.3.2 Phân loại văn bản tiếng Lào với phương pháp tách từ không loại bỏ từ dừng Kết quả thử nghiệm phân loại văn bản sử dụng phương pháp Naive Bayes kết hợp với phương pháp tách từ sử dụng Regular Expression không loại bỏ từ dừng, có bảng duới đây: Bảng 3.6 Kết quả Phân loại văn bản Naive Bayes với phương pháp tách từ không loại bỏ từ dừng Tên lớp phân nhóm Số VB HL Số VB KT Thời gian PLVB (giây) Phân loại văn bản Naive Bayes với phương pháp tách từ không loại bỏ từ dừng TP TN FP FN Accuracy (%) Error Rate (%) Precision (%) Recall (%) economic 50 50 0.06 43 269 7 95.70 4.30 86.00 86 education 50 50 0.04 41 271 95.41 4.59 87.23 82 it 50 50 0.03 48 264 99.36 0.64 100 96 politic 50 50 0.07 47 265 96.86 3.14 87.03 94 publichealth 50 50 0.05 43 269 97.19 2.81 93.47 86 sport 50 50 0.05 43 269 96.59 3.41 91.48 86 travel 50 50 0.09 47 265 11 95.70 4.30 81.03 94 96.64 3.35 89.46 89.14 Overall (%): 47 3.3.3.3 Phân loại văn bản tiếng Lào với phương pháp tách từ và loại bỏ từ dừng Kết quả cho thấy rằng, với bộ dữ liệu, phương pháp tách từ, kết quả đạt được bằng với phương pháp tách từ không loại bỏ từ dừng, nó chỉ giảm được thời gian phân loại văn bản, kết quả so sánh bảng (3.7): Bảng 3.7 So sánh thời gian phân loại văn bản tiếng Lào kết hợp phương pháp tách từ loại bỏ từ dừng và không loại bỏ từ dừng Tên lớp phân Số Số Thời gian PLVB kết hợp Thời gian PLVB kết nhóm VB VB phương pháp tách từ hợp phương pháp tách HL KT không loại bỏ từ dừng (giây) từ loại bỏ từ dừng (giây) economic 50 50 0.06 0.04 education 50 50 0.04 0.03 it 50 50 0.03 0.02 politic 50 50 0.07 0.05 publichealth 50 50 0.05 0.04 sport 50 50 0.05 0.04 travel 50 50 0.09 0.06 0.05 0.02 Average: 3.3.3.4 Kết quả phân loại văn bản tiếng Lào nghiên cứu Sau là bảng kết quả phân loại văn bản tiếng Lào được nghiên cứu thời gian gần dựa sở phân loại văn bản với vector hỗ trợ SVM và dùng mạng nơ ron RBF, phân loại lớp (Nhân sự tiền lương, Đào tạo, Tuyển sinh, Tốt nghiệp, Đoàn-Đảng-Thanh niên, Công đoàn) với tập dữ liệu 400 văn bản kho văn bản hành chính văn phòng của trường Đại học Champasak Trong này, họ kiểm thử qua hai phương pháp tách từ Conditional Random Field và dựa sở luật Kết quả cho thấy 48 rằng, phân loại văn bản tiếng Lào với mạng nơ ron RBF cho kết quả độ chính xác cao [1] Hình 3.4 Kết quả phân loại văn bản tiếng Lào kết hợp tách từ 3.3.3.5 So sánh phương pháp phân loại văn bản đề xuất và phương pháp phân loại văn bản có Từ kết quả thực nghiệm thực tế cho thấy phương pháp PLVB gần nhau, đó tác giả chỉ so sánh độ chính xác trung bình của các phương pháp Tuy nhiên kết quả cho thấy, phương pháp phân loại văn bản đề xuất luận văn này có đạt được kết quả cao (Bảng 3.8): Bảng 3.8 Bảng so sánh mô hình phân loại văn bản tiếng Lào đề xuất với các mô hình khác Average Accuracy (%) PLVB với vector hỗ trợ SVM PLVB dùng mạng nơ ron RBF PLVB Naive Bayes với phương pháp tách từ không trích chọn đặc trưng Tách từ CRF Dựa sở luật Tách từ CRF Dựa sở luật Tách từ dựa sở biểu thức quy (Regular Expression) 92.73 93.41 92.95 93.82 96.64 49 3.4 Kết luận Trong chương này, luận văn xây dựng hệ thống tự động phân loại văn bản tiếng Lào dựa sở Naive bayes với loại bỏ từ dừng và không loại bỏ từ dừng triển khai thực tế, so sánh, đánh giá kết quả đạt được với các phương pháp phân loại văn bản tiếng Lào tồn Kết quả thực tế cho thấy, hệ thớng cịn có lỗi phân loại nhầm lớp văn bản tập dữ liệu h́n lụn cịn hạn chế về mặt đợ dài của văn bản Tuy nhiên, độ chính xác trung bình của hệ thống tự động phân loại văn bản tiếng Lào sở mơ hình đề x́t có đợ xác cao 50 KẾT LUẬN Các kết quả chính của luận án Nghiên cứu, áp dụng phương pháp biểu diễn văn bản tiếng Lào sở mô hình vector Đề xuất phương pháp tách từ văn bản tiếng Lào sử dụng biểu thức chính quy (Regular Expression) kết hợp với khuôn mẫu từ đơn và ghép lại những từ đơn thành từ phức dựa tử điển từ phức, áp dụng phương pháp Naive Bayes để phân loại văn bản tiếng Lào Xây dựng hệ thống tự động phân loại văn bản tiếng Lào sở mô hình đề xuất và triển khai đánh giá kết quả đạt được thực tế Để triển khai phân loại văn bản, tác giả rút các văn bản khác từ web site tiếng Lào và lưu trữ dưới dạng Plain text (.txt) với mã chữ UTF-8 và chia đôi tập dữ liệu thành tập dữ liệu huấn luyện và tập dữ liệu kiểm thử Kết quả kiểm thử Hệ thống tự động phân loại văn bản tiếng Lào áp dụng Naïve Bayes để phân loại văn bản và áp dụng biểu thức chính quy để tách từ, đối với thử nghiệm 350 dữ liệu huấn luyện và 350 dữ liệu kiểm thử, đạt được kết quả độ chính xác 96.64% Đối với kiểm thử phân loại văn bản với sự loại bỏ từ dừng và không loại bỏ từ dừng cho kết quả độ chính xác bằng nhau, thời gian phân loại văn bản loại bỏ từ dừng chạy nhanh Thông qua kết quả thực nghiệm cho thấy, sử dụng phương pháp tách từ đơn câu, phương pháp này nhận biết từ mà viết sai chính tả đặc biệt là viết thiếu chữ, và nhận biết được tên của người kể cả tên của quận, huyện, tỉnh, nó cứ tách từ thường, bởi vì các tên đó là cụm từ của những từ đơn ghép lại với có nghĩa từ điển không, và không có chữ viết hoa, nói chung là khơng có ký hiệu ch̉n nào trăm phần trăm để chỉ định đó là tên Vì vậy, đó là một khó khăn mà gặp được quá trình tách từ tiếng Lào Tuy nhiên, Hệ thống tự động phân loại văn bản tiếng Lào vẫn đạt kết quả khá tốt Hướng phát triển - Nghiên cứu phương pháp phát hiện và sửa chữa những từ sai chính tả Tối ưu hóa Hệ thống tự động phân loại văn bản tiếng Lào 51 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Vilavong Souksan, Nghiên cứu phương pháp tách từ phục vụ phân loại văn bản [2] [3] [4] tiếng Lào, 2017 Vilavong Souksan, Phan Huy Khánh, Tách từ tiếng Lào sử dụng kho ngữ vựng kết hợp với các đặc trưng ngữ pháp tiếng Lào, 2014 Vilavong Souksan, Phan Huy Khánh, Khử bỏ nhập nhằng bài toán tách từ tiếng Lào, 2013 Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn bản tiếng Việt với bộ phân loại vectơ hỗ trợ SVM, Tạp chí CNTT&TT, 2006 Tiếng Anh: [5] Wenjie Huo, Lanjiang Zhou, Feng Zhou and Bei Yang, Method of Word Segmentation in Laos Based on Maximal Matching of Syllables, School of [6] [7] Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China, 2016 Thorsten Joachims, A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization, 1997 J.J García Adevaa, J.M Pikatza Atxaa, M Ubeda Carrillob, E Ansuategi Zengotitabengoab, Automatic text classification to support systematic reviews in medicine, 2013 [8] Vivek Narayanan, Ishan Arora, Arjun Bhatia, Fast and Accurate Sentiment Classification Using an Enhanced Naive Bayes Model, Department of Electronics Engineering Indian Institute of Technology (BHU), Varanasi, India, 2013 [9] Sebastian Raschka, Naive Bayes and Text Classification I - Introduction and Theory, 2014 [10] N Seresangtakul, A Hybrid Approach to Lao Word Segmentation using Longest Syllable Level Matching with Named Entities Recognition, Electrical Enginneering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CONN), May 2013 [11] S Vanthanavong, LaoWS: Lao Segmentation Based on Conditional Random Fields, Conference on Human Language Technology for Development, Alexandria, Egypt, May 2011 52 [12] Tatsuaki Okamoto, Jianying Zhou, Information and Communications Security, Third International Conference, ICICS 2001, Xian, China, November 13-16, 2001 [13] Haiyi Zhang, Di Li, Naïve Bayes Text Classifier, Granular Computing, 2007 [14] Neha Sharma, Manoj Singh, Modifying Naive Bayes classifier for multinomial text classification, International Conference on Recent Advances and Innovations in Engineering (ICRAIE), 2016 [15] Sang-Bum Kim, Kyoung-Soo Han, Hae-Chang Rim, Some Effective Techniques for Naive Bayes Text Classification, 2006 [16] Joseph Lilleberg, Yun Zhu, Yanqing Zhang, Support vector machines and Word2vec for text classification with semantic features, IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing (ICCI*CC), 2015 [17] Xiao-Peng Yu, Xiao-Gao Yu, Novel Text Classification Based on K-Nearest Neighbor, International Conference on Machine Learning and Cybernetics, 2007 [18] Lea Vega, Andres Mendez-Vazquez, Dynamic Neural Networks for Text Classification, International Conference on Computational Intelligence and Applications (ICCIA), 2016 [19] Shing-Hwa Lu, Ding-An Chiang, Huan-Chao Keh, Hui Hua Huang, Chinese text classification by the Naïve Bayes Classifier and the associative classifier with multiple confidence threshold values, Knowledge-based systems, 2010 [20] Nivet Chirawichitchai, Emotion classification of Thai text based using term weighting and machine learning techniques, Computer Science and Software Engineering (JCSSE), 2014 [21] Supatta Viriyavisuthisakul, Parinya Sanguansat, Pisit Charnkeitkong, Choochart Haruechaiyasak, A comparison of similarity measures for online social media Thai text classification, Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON), 2015 [22] P Phissamay, et al., Syllabification of Lao Script for Line Breaking, Tech Rep of STEA, Lao PDR, 2004 [23] T Joachims, 1998 Text categorization with Support Vector Machines: Learning with many relevant features In Machine Learning: ECML-98 (Eds Nédellec C., Rouveirol C.), Springer, Berlin, Heidelberg 137-142 [24] Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008 53 Tiếng Lào: [25] ແບບຮຽນພາສາລາວ, ຊັ້ນມັດທະຍົມສຶກສາ ປີທີ (Sách giáo khoa tiếng Lào lớp 6), Bộ giáo dục và thể thao, Viện Nghiên cứu Khoa học Giáo dục Lào, 2016 [26] ພາສາແລະວັນນະຄະດີລາວ, ຊັ້ນມັດທະຍົມ (Tiếng Lào và Văn học lớp 8), Nhà Xuất bản Viện nghiên cứu và Khoa học Giáo dục, Bộ Giáo dục Lào, 1997 [27] ໄວຍາກອນພາສາລາວ, ຊັ້ນມັດທະຍົມ (Ngữ pháp tiếng Lào Lớp 10), Nhà Xuất bản Bộ Giáo dục và Thể thao Lào, 1980 [28] PhD Onmanysone Thongkham, ວັດຈະນານຸກົມພາສາລາວ (Tử điển tiếng Lào), Nhà Xuất bản Thư viện Quốc gia Lào, 2008 [29] ໄວຍະກອນລາວປັດຈຸບັນ (Ngữ pháp tiếng Lào hiện nay), Nhà Xuất bản Bộ Giáo dục, Viện Nghiên cứu Khoa học Giáo dục Quốc gia Lào, 2000 54 PHỤ LỤC Kết quả thử nghiệm phương pháp tách từ đơn (mục 3.4.2.1) Đầu vào (Sentence0), 51 bytes, characters: ໂຮງຮຽນ Tiếng Việt: Trường học Đầu ra, tokens: [['ໂຮງ', 'ຮຽນ']] Đầu vào (Sentence1), 69 bytes, 12 characters: ມະຫາວິທະຍາໄລ Tiếng Việt: Trường Đại học Đầu ra, tokens: [['ມະ', 'ຫາ', 'ວິ', 'ທະ', 'ຍາ', 'ໄລ']] Đầu vào (Sentence2), 132 bytes, 33 characters: ຂ້ອຍກໍາລັງສຶກສາຢູ່ທີ່ປະເທດຫວຽດນາມ Tiếng Việt: Tôi học Việt Nam Đầu ra, 11 tokens: [['ຂ້ອຍ', 'ກໍາ', 'ລັງ', 'ສຶກ', 'ສາ', 'ຢູ່', 'ທີ່', 'ປະ', 'ເທດ', 'ຫວຽດ', 'ນາມ']] Đầu vào (Sentence3), 1688 ເປັນສອງປະເທດບ້ານໃກ້ເຮືອນຄຽງທີ່ໃກ້ຊິດ, bytes, ມີສາຍພູ, 581 characters: ແມ່ນໍ້າລຳເຊຕິດຈອດກັນ, ລາວ ແລະ ຫວຽດນາມ ຮ່ວມກັນດື່ມນໍ້າແມ່ຂອງ, ພ້ອມກັນອີງໃສ່ສາຍພູຫຼວງອັນສະຫງ່າ, ປະຊາຊົນສອງຊາດເຄີຍມີສາຍພົວພັນອັນເປັນມູນເຊື້ອ, ສັດຊື່ບໍລິສຸດ, ສະໜິດຕິດພັນແຕ່ດົນນານ ພິເສດ, ນັບແຕ່ມື້ພັກກອມມູນິດອິນດູຈີນໄດ້ກຳເນີດເກີດຂຶ້ນມາ ແລະ ນຳພາ, ຕໍ່ມາແມ່ນພັກປະຊາຊົນປະຕິວັດລາວ ແລະ ພັກກອມມູນິດຫວຽດນາມ, ສາຍພົວພັນນັ້ນນັບມື້ນັບໄດ້ຮັບການເປີດກວ້າງ, ຂະຫຍາຍຕົວ ແລະ ໄດ້ຍົກລະດັບທາງດ້ານທາດແທ້ ດ້ວຍທິດນໍາທີ່ເຕັມໄປດ້ວຍລັກສະນະທາງດ້ານມະນຸດສະທຳ ແລະ ມີຄວາມໝາຍດ້ານການເມືອງຢ່າງເລິກເຊິ່ງ ຕາມຄຳສັ່ງສອນຂອງ ປະທານ ໂຮ່ຈີມິນ ຜູ້ຍິ່ງໃຫ່ຍ ‘ຊ່ວຍເພື່ອນແມ່ນຊ່ວຍຕົນເອງ’ Tiếng Việt: Lào Việt Nam là hai nước láng giềng thân thiết, núi liền núi, sông liền sông, uống chung nước sông Mê Kông tựa lưng vào dãy Trường sơn hùng vĩ, nhân dân hai nước có mới quan hệ hữu nghị trùn thớng, chung thủy, sáng, gần gủi từ lâu đời ngày phát triển Đặc biệt từ có sự đời lãnh đạo của Đảng Cộng sản Đông Dương , sau này là Đảng Cộng SảnViệt Nam và Đảng Nhân dân Cách mạng Lào chia ngọt, sẻ bùi, xây đắp nên mới tình hữu nghị trùn thớng, đoàn kết đặc biệt hợp tác toàn diện nhân tố cực kỳ quan trọng có ý nghĩa về trị sâu sắc theo lời dạy của Chủ tịch Hồ Chí Minh vĩ đại “giúp bạn tự giúp mình” Đầu ra, 192 tokens (gồm các ký tự dấu chấm): [['ລາວ'], ['ແລະ'], ['ຫວຽດ', 'ນາມ'], ['ເປັນ', 'ສອງ', 'ປະ', 'ເທດ', 'ບ້ານ', 'ໃກ້', 'ເຮືອນ', 'ຄຽງ', 'ທີ່', 'ໃກ້', 'ຊິດ'], [','], ['ມີ', 'ສາຍ', 'ພູ'], [','], ['ແມ່', 'ນໍ້າ', 'ລໍາ', 'ເຊ', 'ຕິດ', 'ຈອດ', 'ກັນ'], [','], ['ຮ່ວມ', 'ກັນ', 'ດື່ມ', 'ນໍ້າ', 'ແມ່', 'ຂອງ'], [','], ['ພ້ອມ', 'ກັນ', 'ອີງ', 'ໃສ່', 'ສາຍ', 'ພູ', 'ຫຼວງ', 'ອັນ', 'ສະ', 'ຫງ່າ'], [','], ['ປະ', 'ຊາ', 'ຊົນ', 'ສອງ', 'ຊາດ'], ['ເຄີຍ', 'ມີ', 'ສາຍ', 'ພົວ', 'ພັນ', 'ອັນ', 'ເປັນ', 'ມູນ', 'ເຊື້ອ'], [','], ['ສັດ', 'ຊື່', 'ບໍ', 'ລິ', 'ສຸດ'], [','], ['ສະ', 'ໜິດ', 'ຕິດ', 'ພັນ', 'ແຕ່', 'ດົນ', 'ນານ'], ['.'], ['ພິ', 'ເສດ'], [','], ['ນັບ', 'ແຕ່', 'ມື້', 'ພັກ', 'ກອມ', 'ມູ', 'ນິດ', 'ອິນ', 'ດູ', 'ຈີນ', 'ໄດ້', 'ກໍາ', 'ເນີດ', 'ເກີດ', 'ຂຶ້ນ', 'ມາ'], ['ແລະ'], ['ນໍາ', 'ພາ'], [','], ['ຕໍ່', 'ມາ', 'ແມ່ນ', 'ພັກ', 'ປະ', 'ຊາ', 'ຊົນ', 'ປະ', 'ຕິ', 'ວັດ', 'ລາວ'], ['ແລະ'], ['ພັກ', 'ກອມ', 'ມູ', 'ນິດ', 'ຫວຽດ', 'ນາມ'], [','], ['ສາຍ', 'ພົວ', 'ພັນ', 'ນັ້ນ', 'ນັບ', 'ມື້', 'ນັບ', 'ໄດ້', 'ຮັບ', 'ການ', 'ເປີດ', 'ກວ້າງ'], [','], ['ຂະ', 'ຫຍາຍ', 'ຕົວ'], ['ແລະ'], ['ໄດ້', 'ຍົກ', 'ລະ', 'ດັບ', 'ທາງ', 'ດ້ານ', 'ທາດ', 'ແທ້'], ['.'], ['ດ້ວຍ', 'ທິດ', 'ນໍາ', 'ທີ່', 'ເຕັມ', 'ໄປ', 'ດ້ວຍ', 'ລັກ', 'ສະ', 'ນະ', 'ທາງ', 'ດ້ານ', 'ມະ', 'ນຸດ', 'ສະ', 'ທໍາ'], ['ແລະ'], ['ມີ', 'ຄວາມ', 'ໝາຍ', 'ດ້ານ', 'ການ', 'ເມືອງ', 'ຢ່າງ', 'ເລິກ', 'ເຊິ່ງ'], ['ຕາມ', 'ຄໍາ', 'ສັ່ງ', 'ສອນ', 'ຂອງ'], ['ປະ', 'ທານ'], ['ໂຮ່', 'ຈີ', 'ມິນ'], ['ຜູ'້ , 'ຍິ່ງ', 'ໃຫ່', 'ຍ'], ['‘'], ['ຊ່ວຍ', 'ເພື່ອນ', 'ແມ່ນ', 'ຊ່ວຍ', 'ຕົນ', 'ເອງ'], ['’'], ['.']] Hình module tách từ đơn chạy PyCharm IDE Kết quả thử nghiệm phương pháp tách từ (mục 3.4.2.2) Đầu vào: sentence0, Đầu ra, token: ['ໂຮງຮຽນ'] Đầu vào: sentence1, Đầu ra, token: ['ມະຫາວິທະຍາໄລ'] Đầu vào: sentence2, Đầu ra, tokens: ['ຂ້ອຍ', 'ກໍາລັງ', 'ສຶກສາ', 'ຢູ່', 'ທີ່', 'ປະເທດ', 'ຫວຽດນາມ'] Đầu vào: sentence3, Đầu ra, 130 tokens: ['ລາວ', 'ແລະ', 'ຫວຽດນາມ', 'ເປັນ', 'ສອງ', 'ປະເທດ', 'ບ້ານ', 'ໃກ້', 'ເຮືອນ', 'ຄຽງ', 'ທີ່', 'ໃກ້', 'ຊິດ', 'ມີ', 'ສາຍ', 'ພູ', 'ແມ່ນໍ້າ', 'ລໍາ', 'ເຊ', 'ຕິດ', 'ຈອດ', 'ກັນ', 'ຮ່ວມກັນ', 'ດື່ມ', 'ນໍ້າ', 'ແມ່', 'ຂອງ', 'ພ້ອມ', 'ກັນ', 'ອີງໃສ່', 'ສາຍ', 'ພູ', 'ຫຼວງ', 'ອັນ', 'ສະຫງ່າ', 'ປະຊາຊົນ', 'ສອງ', 'ຊາດ', 'ເຄີຍ', 'ມີ', 'ສາຍພົວພັນ', 'ອັນ', 'ເປັນ', 'ມູນເຊື້ອ', 'ສັດ', 'ຊື່', 'ບໍລິສຸດ', 'ສະໜິດ', 'ຕິດພັນ', 'ແຕ່', 'ດົນ', 'ນານ', 'ພິເສດ', 'ນັບແຕ່', 'ມື້', 'ພັກ', 'ກອມມູນິດ', 'ອິນ', 'ດູ', 'ຈີນ', 'ໄດ້', 'ກໍາເນີດ', 'ເກີດ', 'ຂຶ້ນ', 'ມາ', 'ແລະ', 'ນໍາພາ', 'ຕໍ່ມາ', 'ແມ່ນ', 'ພັກ', 'ປະຊາຊົນ', 'ປະຕິວັດ', 'ລາວ', 'ແລະ', 'ພັກ', 'ກອມມູນິດ', 'ຫວຽດນາມ', 'ສາຍພົວພັນ', 'ນັ້ນ', 'ນັບ', 'ມື້', 'ນັບ', 'ໄດ້', 'ຮັບ', 'ການ', 'ເປີດ', 'ກວ້າງ', 'ຂະຫຍາຍຕົວ', 'ແລະ', 'ໄດ້', 'ຍົກລະດັບ', 'ທາງດ້ານ', 'ທາດ', 'ແທ້', 'ດ້ວຍ', 'ທິດ', 'ນໍາ', 'ທີ່', 'ເຕັມ', 'ໄປ', 'ດ້ວຍ', 'ລັກສະນະ', 'ທາງດ້ານ', 'ມະນຸດ', 'ສະ', 'ທໍາ', 'ແລະ', 'ມີ', 'ຄວາມໝາຍ', 'ດ້ານ', 'ການເມືອງ', 'ຢ່າງ', 'ເລິກເຊິ່ງ', 'ຕາມ', 'ຄໍາສັ່ງ', 'ສອນ', 'ຂອງ', 'ປະທານ', 'ໂຮ່', 'ຈີ', 'ມິນ', 'ຜູ'້ , 'ຍິ່ງ', 'ໃຫ່', 'ຍ', 'ຊ່ວຍ', 'ເພື່ອນ', 'ແມ່ນ', 'ຊ່ວຍ', 'ຕົນເອງ'] Hình Module tách từ chạy PyCharmIDE Kết quả phân loại văn bản tiếng Lào kết hợp phương pháp tách từ Hình Kết quả phân loại văn bản tiếng Lào kết hợp phương pháp tách từ chạy PyCharm IDE Kết quả phân loại văn bản tiếng Lào kết hợp phương pháp tách từ loại bỏ từ dừng Hình Kết quả phân loại văn bản tiếng Lào kết hợp phương pháp tách từ và loại bỏ từ dừng chạy PyCharm IDE Mã code các hàm phương pháp tách từ ... pháp Naïve Bayes để phân loại văn bản tiếng Lào 40 CHƯƠNG XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO 3.1 Mô hình hệ thống Trong hệ thống tự động phân loại văn bản tiếng Lào... trưng 34 2.5 Phân loại văn bản tiếng Lào sử dụng Naive Bayes 34 2.6 Kết Luận .40 CHƯƠNG XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO .41... PHOMMASENG PHANAKHONE XÂY DỰNG HỆ THỐNG TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG LÀO Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS

Ngày đăng: 24/04/2021, 10:08

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w