(Luận văn) phân loại văn bản hành chính tiếng việt và ứng dụng vào các cơ quan nhà nước tỉnh bắc kạn

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG LÈNG HỒNG LÂM lu an n va p ie gh tn to PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TIẾNG VIỆT VÀ ỨNG DỤNG VÀO CÁC CƠ QUAN NHÀ NƯỚC TỈNH BẮC KẠN oa nl w Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 d u nf va an lu ll LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH oi m z at nh z @ Thái Nguyên - 2017 an Lu LỜI CAM ĐOAN m co l gm Người hướng dẫn khoa học: PGS.TS ĐOÀN VĂN BAN n va ac th si ii Tôi xin cam đoan sản phẩm nghiên cứu, tìm hiểu cá nhân tơi Các số liệu, kết trình bày luận văn trung thực Những nội dung trình bày luận văn thân, tổng hợp từ nguồn tài liệu có nguồn gốc rõ ràng trích dẫn hợp pháp, đầy đủ Tơi xin hoàn toàn chịu trách nhiệm cho lời cam đoan Thái Nguyên, tháng năm 2017 HỌC VIÊN lu an va n Lèng Hoàng Lâm p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ LỜI CẢM ƠN an Lu n va ac th si iii Trân trọng cảm ơn thầy giáo, cô giáo trường Đại học Công nghệ thông tin Truyền thông Thái Nguyên; giảng viên đến từ Viện Hàn lâm Khoa học Công nghệ Việt Nam, Trường Đại học Quốc gia Hà Nội tạo điều kiện tốt cho học viên trình học tập làm luận văn Đặc biệt, xin bày tỏ lòng biết ơn chân thành sâu sắc tới thầy giáo, PGS.TS Đoàn Văn Ban, người định hướng ln tận tình bảo, hướng dẫn em việc nghiên cứu, thực luận văn Trong suốt trình học tập thực đề tài, học viên nhận lu ủng hộ, động viên gia đình, đồng nghiệp, đặc biệt quan tâm tạo an n va điều kiện Ban lãnh đạo Trung tâm Công nghệ thông tin Truyền thông ie gh tn to tỉnh Bắc Kạn - nơi học viên công tác Xin trân trọng cảm ơn! p Thái Nguyên, tháng năm 2017 HỌC VIÊN d oa nl w lu ll u nf va an Lèng Hoàng Lâm oi m z at nh z m co l gm @ an Lu MỤC LỤC n va ac th si iv LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii lu an n va p ie gh tn to DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG vii MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 1.1 Khai phá liệu 1.2 Khai phá liệu văn 1.3 Phân loại văn 11 1.3.1 Giới thiệu toán phân loại văn 11 1.3.2 Quy trình phân loại văn 12 1.3.3 Phân loại văn tiếng Việt 13 1.4 Đặc trưng văn tiếng Việt 14 1.4.1 Các đơn vị tiếng Việt 14 1.4.2 Ngữ pháp tiếng Việt 17 1.4.3 Từ tiếng Việt 18 1.4.4 Câu tiếng Việt 20 1.4.5 Các đặc điểm tả văn tiếng Việt 23 1.5 Công tác quản lý văn quan tỉnh Bắc Kạn 23 1.6 Kết luận chương 25 CHƯƠNG II CÁC KỸ THUẬT TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 25 2.1 Tách từ văn 26 2.1.1 Phương pháp khớp tối đa 27 2.1.2 Mô hình tách từ WFST mạng Neural 28 2.1.3 Phương pháp học dựa vào biến đổi trạng thái 29 2.1.4 Loại bỏ từ dừng 31 2.2 Trọng số từ văn 31 2.2.1 Phương pháp Boolean 32 2.2.2 Phương pháp dựa tần số 32 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si v lu an n va p ie gh tn to 2.3 Các mơ hình biểu diễn văn 33 2.3.1 Mơ hình Boolean 33 2.3.2 Mơ hình xác suất 33 2.3.3 Mơ hình khơng gian vector 34 2.4 Độ tương đồng văn 36 2.5 Thuật toán phân loại văn 39 2.5.1 Thuật toán Support Vector Machine (SVM) 39 2.5.2 Thuật toán K-Nearest Neighbor (kNN) 43 2.5.3 Thuật toán Naϊve Bayers (NB) 44 2.6 Phân loại văn tiếng Việt 47 2.6.1 Trích chọn đặc trưng văn 47 2.6.2 Sử dụng thuật toán SVM để phân loại văn 50 2.7 Kết luận chương 53 CHƯƠNG III ÁP DỤNG THUẬT TOÁN SUPPORT VECTOR MACHINE PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TIẾNG VIỆT 54 3.1 Ứng dụng SVM vào tốn phân loại văn hành tiếng Việt quan nhà nước tỉnh Bắc Kạn 54 3.2 Áp dụng phân loại văn 56 3.3 Xây dựng chương trình thử nghiệm ứng dụng phân loại văn áp dụng vào máy tìm kiếm văn hành tiếng Việt 57 3.3.1 Mơ tả tốn 57 3.3.2 Quá trình tiền xử lý văn 59 3.3.3 Vector hóa trích chọn đặc trưng văn 60 3.3.4 Đánh giá phân lớp 60 3.3.5 Chương trình thực nghiệm 62 3.3.6 Kết thực nghiệm 62 3.4 Kết luận chương 63 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 64 TÀI LIỆU THAM KHẢO 65 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu DANH MỤC CÁC TỪ VIẾT TẮT n va ac th si vi Từ viết tắt Giải thích lu an n va Cơ sở liệu KDD Knowledge Discovery from Data IDF Inverse Document Frequency kNN K-Nearest Neighbor NB Naϊve Bayers SVM Support Vector Machine S3VM Semi-Supervised Support Vector Machine TBL Transformation - based Learning TF Term Frequency WFST Weighted Finite - State Transducer p ie gh tn to CSDL d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ DANH MỤC CÁC HÌNH an Lu n va ac th si vii Hình 1.1 Các bước trình phát tri thức từ CSDL (KDD) Hình 1.2 Quy trình phân loại văn 13 Hình 2.1 Biểu diễn văn theo mơ hình xác suất 34 Hình 2.2 Minh họa hình học thuật tốn SVM 40 Hình 2.3 Chi tiết giai đoạn huấn luyện 50 Hình 2.4 Mơ hình SVM 51 Hình 3.1 Chi tiết giai đoạn huấn luyện 58 Hình 3.2 Chi tiết giai đoạn phân lớp 59 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu DANH MỤC CÁC BẢNG n va ac th si viii Bảng 3.1 Bộ liệu thử nghiệm 62 Bảng 3.2 Kết phân lớp liệu kiểm tra 63 Bảng 3.3 Đánh giá hiệu suất phân lớp 63 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si MỞ ĐẦU Đặt vấn đề Trong thời đại bùng nổ Công nghệ thông tin nay, phương thức sử dụng văn giấy truyền thống dần số hóa, chuyển sang dạng văn điện tử lưu trữ máy tính chia sẻ, truyền tải mạng Với nhiều tính ưu việt tài liệu số như: Lưu trữ gọn nhẹ, linh hoạt; thời gian lưu trữ lâu dài; dễ hiệu chỉnh đặc biệt tiện dụng trao đổi, chia sẻ nên lu ngày nay, số lượng văn điện tử sử dụng quan nhà nước an tăng lên nhanh chóng Do đó, vấn đề đặt làm để tìm va n kiếm khai thác thơng tin từ nguồn liệu phong phú Các kỹ thuật để ie gh tn to giải vấn đề gọi “Text Mining” hay Khai phá liệu văn Khai phá liệu văn đề cập đến tiến trình trích lọc mẫu hình p thơng tin hay tri thức đáng quan tâm có giá trị từ tài liệu văn nl w Trong đó, phân loại văn toán lĩnh vực khai phá d oa liệu văn Phân loại văn cơng việc phân tích nội dung văn an lu sau định (hay dự đốn) văn thuộc nhóm nhóm u nf va văn cho trước Văn phân loại thuộc nhóm, nhiều nhóm, khơng thuộc nhóm văn mà ta định nghĩa trước Phân loại ll oi m văn thực nhiều cách sử dụng tiếp cận lý thuyết tập z at nh thô, cách tiếp cận theo luật kết hợp dựa cách tiếp cận máy học Đây lĩnh vực mang tính khoa học cao, ứng dụng nhiều z tốn thực tế tìm kiếm thơng tin, lọc văn bản, tổng hợp tin tức tự @ l gm động, thư viện điện tử,… Do vậy, học viên định chọn đề tài “Phân loại m co văn hành tiếng Việt ứng dụng vào quan nhà nước tỉnh Bắc Kạn” để nghiên cứu, thực luận văn tốt nghiệp an Lu Mục tiêu đề tài luận văn khảo sát, tìm hiểu số phương pháp n va ac th si phân loại văn thường sử dụng nay, sở đề xuất lựa chọn phương án phân loại văn tiếng Việt tự động ứng dụng thử nghiệm phân loại cho đối tượng cụ thể văn hành tiếng Việt Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu bao gồm: Các thuật toán phân loại văn vấn đề liên quan đến toán phân loại văn tiếng Việt Phạm vi nghiên cứu luận văn tập trung vào số thuật tốn phân loại văn thơng dụng; đặc trưng văn tiếng Việt; kỹ thuật liên lu quan xử lý phân loại văn ứng dụng thuật toán học bán giám sát an va phân loại văn tiếng Việt n Hướng nghiên cứu đề tài to gh tn Nghiên cứu lý thuyết khai phá liệu, khai phá liệu văn p ie toán phân loại văn với số thuật toán phân loại văn thông dụng Naϊve Bayers, K-Nearest Neighbor, Support Vector Machine oa nl w Nghiên cứu đặc trưng văn tiếng Việt kỹ thuật liên quan xử lý phân loại văn tiếng Việt tách từ, biểu diễn văn bản, d an lu đánh trọng số từ, tính độ tương đồng văn u nf va Từ kết thu tiến hành cài đặt ứng dụng tốn phân loại văn hành tiếng Việt ll m oi Những nội dung cấu trúc sau: z at nh Nội dung luận văn trình bày chương với tổ chức z @ Chương Tổng quan phân loại văn tiếng Việt l gm Chương trình bày khái quát khai phá liệu, khai phá liệu văn m co toán phân loại văn tiếng Việt; đồng thời làm rõ đặc trưng văn tiếng Việt giới thiệu sơ công tác quản lý văn an Lu quan thuộc tỉnh Bắc Kạn n va ac th si 52 có kích thước bình phương số lượng mẫu huấn luyện Trong toán thực tế, điều khơng khả thi thơng thường kích thước tập liệu huấn luyện thường lớn (có thể lên tới hàng chục nghìn mẫu) Nhiều thuật toán khác phát triển để giải vấn đề nêu Những thuật toán dựa việc phân rã tập liệu huấn luyện thành nhóm liệu, giúp cho tốn quy hoạch tồn phương giải với kích thước nhỏ Sau đó, thuật tốn kiểm tra điều kiện KKT (Karush-KuhnTucker) để xác định phương án tối ưu lu Một số thuật tốn huấn luyện dựa vào tính chất: Nếu tập liệu an va huấn luyện tốn quy hoạch tồn phương cần giải bước có n mẫu vi phạm điều kiện KKT, sau giải tốn này, hàm gh tn to mục tiêu tăng Như vậy, chuỗi tốn quy hoạch tồn phương p ie với mẫu vi phạm điều kiện KKT đảm bảo hội tụ đến phương án tối ưu Do đó, ta trì tập liệu làm việc đủ lớn có oa nl w kích thước cố định bước huấn luyện, ta loại bỏ thêm vào số lượng mẫu d an lu Các ưu điểm SVM phân loại văn bản: u nf va Như biết, phân loa ̣i văn tiến trình đưa văn chưa biết chủ đề vào lớp văn biết (tương ứng với chủ đề hay lĩnh vực ll oi m khác nhau) Mỗi lĩnh vực xác định số tài liệu mẫu lĩnh vực z at nh Để thực q trình phân lớp, phương pháp huấn luyện sử dụng để xây dựng tập phân lớp từ tài liệu mẫu, sau dùng tập phân lớp để z @ dự đoán lớp tài liệu (chưa biết chủ đề) l gm Chúng ta thấy từ thuật toán phân lớp hai lớp SVM đến m co thuật tốn phân lớp đa lớp có đặc điểm chung yêu cầu văn phải biểu diễn dạng vector đặc trưng, nhiên thuật toán khác an Lu phải sử dụng uớc lượng tham số ngưỡng tối ưu, thuật tốn n va ac th si 53 SVM tự tìm tham số tối ưu Trong phương pháp SVM phương pháp sử dụng không gian vector đặc trưng lớn (hơn 10.000 chiều), phương pháp khác có số chiều bé nhiều (như Naïve Bayes 2000, k-Nearest Neighbors 2415…) Phương pháp phân lớp sử dụng thuật toán SVM nhiều tác giả nghiên cứu, so sánh với phương pháp phân loại khác Naïve Bayes, kNearest Neighbors SVM có nhiều ưu điểm, phù hợp phương pháp khác việc ứng dụng giải toán phân loa ̣i văn lu Và thực tế, thí nghiệm phân loa ̣i văn tiếng Anh SVM an va đạt độ xác phân lớp cao tỏ xuất sắc so với phương pháp n phân loa ̣i văn khác [4] Do vậy, luận văn lựa chọn phương pháp sử dụng 2.7 Kết luận chương p ie gh tn to thuật toán SVM để giải toán phân loại văn chương sau Chương trình bày chi tiết toán phân loại văn tiếng Việt oa nl w với thuật toán phân loại khái niệm liên quan như: Các kỹ thuật việc xử lý văn để phân loại tách từ, đánh trọng số từ d an lu văn bản, mơ hình biểu diễn văn bản, tính độ tương đồng văn u nf va Nội dung chương tập trung phân tích, làm rõ số giải pháp kỹ thuật liên quan, qua định hướng áp dụng việc giải toán phân ll oi m loại văn phương pháp trích chọn đặc trưng, mơ hình biểu diễn văn bản, z at nh phương pháp đánh trọng số từ, thuật toán phân loại Kết nghiên cứu chương sở để giải toán phân loại văn tiếng Việt z m co l gm @ chương sau an Lu n va ac th si 54 CHƯƠNG III ÁP DỤNG THUẬT TOÁN SUPPORT VECTOR MACHINE PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TIẾNG VIỆT 3.1 Ứng dụng SVM vào tốn phân loại văn hành tiếng Việt quan nhà nước tỉnh Bắc Kạn Ở chương 2, luận văn tập trung giới thiệu số thuật tốn phân loại văn điển Support Vector Machine (SVM), K-Nearest Neighbor (kNN) Naïve Bayes (NB) Các thuật tốn có hướng tiếp cận khác lu có điểm chung, sử dụng tập huấn luyện với mẫu an liệu gán nhãn để dự đoán giá trị hàm phân lớp cho đối va n tượng đầu vào Người ta gọi thuật tốn học có giám sát Nhiệm vụ tn to chương trình học có giám sát huấn luyện khả dự đoán giá trị đầu ie gh cho hàm có đối tượng đầu vào hợp lệ thông qua liệu huấn luyện p Chương trình học phải tiến hành tổng qt hóa từ liệu sẵn có để nl w đưa dự đốn tình [4] d oa Trong phần này, luâ ̣n văn giới thiệu phương thức cải tiến an lu thuật toán SVM bán giám sát SVM (Semi-Supervised Support Vector va Machine - S3VM) [4] Bán giám sát SVM đưa nhằm nâng SVM lên ll u nf mức cao Trong thuật tốn học có giám sát sử dụng liệu oi m huấn luyện gán nhãn học bán giám sát sử dụng liệu gán nhãn z at nh kết hợp với liệu chưa gán nhãn Bài toán truyền dẫn dự đoán giá trị hàm phân lớp tới điểm cho tập liệu chưa gán nhãn z Cho tập huấn luyện gồm liệu gán nhãn (training set) @ l gm tập liệu chưa gán nhãn (working set), S3VM xây dựng máy hỗ trợ vector sử dụng training set working set Mục đích để gán nhãn m co cho liệu working set cách tốt có thể, sau sử dụng hỗn hợp an Lu liệu huấn luyện gán nhãn cho trước (training set) liệu working set n va ac th si 55 vừa gán nhãn để huấn luyện phân lớp liệu Nếu working set rỗng (toàn liệu gán nhãn) tốn lại trở thành tốn học có giám sát SVM Ngược lại, training set rỗng, tức liệu huấn luyện hồn tồn chưa gán nhãn, tốn trở thành hình thể học máy khác gọi học không giám sát Học bán giám sát xảy training set working set không rỗng Để hiểu cách rõ ràng cụ thể S3VM, cần hiểu SVM trình bày chi tiết phần trước Trong luận văn tìm hiểu thuật lu tốn S3VM toán phân lớp nhị phân an va Cho trước tập huấn luyện gồm training set working set bao gồm n n liệu Mục đích gán nhãn cho liệu chưa gán nhãn to gh tn Với hai lớp cho trước gồm lớp dương (lớp +1) lớp âm (lớp –1) p ie Mỗi liệu xem điểm không gian vector Mỗi điểm i thuộc training set có sai số ηi điểm j thuộc working set có hai sai số oa nl w ξj (sai số phân lớp với giả sử j thuộc lớp +1) zj (sai số phân lớp với giả sử j thuộc lớp –1) d an lu Nội dung thuật toán S3VM [4],[11],[12]: u nf va Đầu vào: Tập huấn luyện gồm liệu có nhãn chưa có nhãn: ll D = {(xi, yi) | xi  RP, yi  {-1, 0, 1}, i = 1, 2, , n} oi m Tập liệu gán nhãn D gồm 𝑙 liệu: z at nh L = {(xi, yi) | xi  RP, yi  {-1, 1}, i = 1, 2, , 𝑙} Tập liệu chưa có nhãn D gồm 𝑘 liệu: z gm @ K = {(xj, yj) | xj  RP, yj = 0, j = 1, 2, , 𝑘} m co sai số nhỏ l Đầu ra: Một siêu phẳng h phân chia liệu D thành hai nhóm với an Lu n va ac th si 56 Thực thuật toán: ‖𝑤‖2 theo 𝑤, 𝑏, 𝑦𝑗 Giải toán tối ưu: 𝑦 (𝑤𝑥 + 𝑏) ≥ 1; 𝑖 = 1, , 𝑙 𝑖 𝑖 { 𝑦𝑗 (𝑤𝑥𝑗 + 𝑏) ≥ 1; 𝑖 = 1, , 𝑘 Cực tiểu hóa (3.1) Cụ thể hơn, ta giải tốn sau: 𝑙 𝑘 𝑖=1 𝑗=1  ′ { ‖𝑤‖ + ∑ max(0,1 − 𝑦𝑖 (𝑤𝑥𝑖 + 𝑏)) + ∑ max (0,1 − 𝑦𝑗 (𝑤𝑥𝑗 + 𝑏))} 𝑤,𝑏,𝑦𝑗 2𝑙 2𝑘 lu Vấn đề ta cần phải xác định nhãn yj điểm j tập an liệu chưa gán nhãn K Ta thực tìm kiếm siêu phẳng w ghi va n nhãn ví dụ khơng có nhãn, hàm mục tiêu SVM tn to giảm thiểu, bị ràng buộc 𝑟 phần nhỏ liệu khơng có nhãn ie gh phân loại tích cực Giá trị 𝑟 xác định theo cơng thức: p 𝑘 w 𝑟 = ∑ 𝑚𝑎𝑥(0, sign(𝑤𝑥𝑗 + 𝑏)) 𝑘 (3.2) oa nl 𝑗=1 d Tập liệu chưa gán nhãn (working set) sau gán nhãn lu an đưa vào tập liệu huấn luyện, sử dụng thuật toán SVM để học u nf va tạo SVM mới, SVM S3VM có siêu phẳng Sau áp ll dụng siêu phẳng để phân lớp mẫu liệu đưa vào m oi 3.2 Áp dụng phân loại văn z at nh Để áp dụng vào phân loa ̣i văn bản, thuật toán S3VM xem tài liêụ vector f(d1, d2,…, dn) Áp dụng phương trình tổng quát siêu phẳng tìm z 𝑓(𝑥) = 𝑤𝑥 + 𝑏 hay cịn viết theo dạng sau: 𝑛 𝑖=1 (3.3) an Lu 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑏 + ∑ 𝑤𝑖 𝑥𝑖 m co l gm @ thuật toán SVM (2.16): n va ac th si 57 Thay văn tương ứng vào phương trình siêu phẳng này: 𝑛 𝑓(𝑑1 , 𝑑2 , … , 𝑑𝑛 ) = 𝑏 + ∑ 𝑤𝑖 𝑑𝑖 (3.4) 𝑖=1 Nếu: f(d) ≥ 0, văn bản thuộc lớp +1, f(d) < văn bản thuộc lớp –1 Có thể thấy q trình áp dụng thuật toán S3VM vào toán phân lớp văn bản việc thay vector trọng số biểu diễn văn bản vào phương trình siêu phẳng S3VM, từ tìm nhãn lớp văn chưa gán nhãn lu Như vậy, thực chất trình phân lớp bán giám sát áp dụng an n va văn là: Tập liệu huấn luyện văn bản, tập liệu chưa gán tn to nhãn (working set) văn văn có nhãn tập Giải thuật S3VM phương pháp cải tiến giải thuật SVM, p ie gh huấn luyện trỏ tới w giải thuật tận dụng ưu điểm SVM có độ xác cao, oa nl đồng thời tận dụng nguồn liệu huấn luyện khơng gán nhãn sẵn có d nhằm giải toán phân lớp cách tối ưu lu u nf va an 3.3 Xây dựng chương trình thử nghiệm ứng dụng phân loại văn áp dụng vào máy tìm kiếm văn hành tiếng Việt 3.3.1 Mơ tả tốn ll oi m Cho n văn bản thuô ̣c các lĩnh vực khác Yêu cầ u đặt cần phải z at nh xây dựng ứng dụng thử nghiệm áp dụng giải thuật phân lớp để phân loại n văn bản này theo các lĩnh vực khác dựa vào các văn bản mẫu đã z đươ ̣c huấ n luyện theo các lĩnh vực khác đó @ gm Như phân tích phần trên, phạm vi đề tài này, luận văn sử đoạn: Giai đoạn huấn luyện giai đoạn phân lớp m co l dụng thuật tốn SVM để xây dựng mơ hình phân loại văn bản, bao gồm hai giai an Lu n va ac th si 58 a Giai đoạn huấn luyện: Để xây dựng mơ hình ứng dụng thử nghiệm, cần có tập huấn luyện với phần tử tập huấn luyện xác định nhãn lớp (lĩnh vực) thể mô hình mã hóa sử dụng khơng gian vector (đã trình bày chi tiết Mục 2.3 - Các mơ hình biểu diễn văn bản) Sau đó, định nghĩa lớp mơ hình thủ tục huấn luyện, với lớp mơ hình họ tham số phân loại, thủ tục huấn luyện với giải thuật lựa chọn SVM để chọn họ tham số tối ưu cho phân loại Chi lu tiết giai đoạn huấn luyện mô tả sơ đồ sau: an n va p ie gh tn to d oa nl w lu u nf Trong đó: va an Hình 3.1 Chi tiết giai đoạn huấn luyện ll + Dữ liệu huấn luyện: Kho liệu thu thập oi m + Tiền xử lý: Xử lý chuẩn hóa liệu huấn luyện z at nh + Véc tơ hóa: Mã hóa văn với mơ hình trọng số z + Trích chọn đặc trưng: Loại bỏ từ (đặc trưng) không quan trọng @ gm (không chứa thông tin đặc trưng) khỏi tài liệu nhằm nâng cao hiệu suất phân l loại giảm độ phức tạp thuật toán huấn luyện an Lu tham số tối ưu (sử dụng thuật toán SVM) m co + Thuật toán huấn luyện: Thủ tục huấn luyện phân lớp để tìm họ n va ac th si 59 + Đánh giá: Bước đánh giá hiệu suất (chất lượng) phân lớp Thủ tục huấn luyện thực thi lặp lại nhiều lần để tìm họ tham số tối ưu sau lần lặp b Giai đoạn phân lớp: Sau hoàn thành giai đoạn huấn luyện, mơ hình phân lớp áp dụng cho văn cần phân loại Chi tiết giai đoạn phân lớp mô tả sơ đồ sau: lu an n va p ie gh tn to w oa nl Hình 3.2 Chi tiết giai đoạn phân lớp d 3.3.2 Quá trình tiền xử lý văn lu va an Văn trước vector hóa, tức trước đưa vào sử dụng u nf mơ hình phân loại, cần phải tiền xử lý Quá trình tiền xử lý giúp nâng ll cao hiệu suất phân loại giảm độ phức tạp thuật tốn huấn luyện Tùy vào m oi mục đích phân loại mà có phương pháp tiền xử lý văn z at nh khác nhau, như: z - Chuyển văn chữ thường; @ gm - Loại bỏ ký tự đặc biệt (ví dụ như: ~; @; #; $; %; &; *; ); l - Thực tách từ: Sử dụng công cụ tách từ vnTokenizer, version 4.1.1 an Lu (dấu “|” sử dụng để ngăn cách từ) m co để phân tách từ Kết ta thu file chứa từ phân tách n va ac th si 60 - Loại bỏ từ dừng hay từ tầm thường (stopword): Thực loại bỏ từ khơng có ý nghĩa sau tách từ dựa danh mục từ dừng có trước 3.3.3 Vector hóa trích chọn đặc trưng văn Như trình bày phần trên, mơ hình khơng gian vector, văn d biểu diễn dạng vector đặc trưng f(d1, d2,…, dn), n số lượng đặc trưng hay số chiều vector văn bản, di trọng số đặc trưng thứ i Để trích chọn đặc trưng văn ta sử dụng phương pháp TF*IDF giới lu thiệu Mục 2.6.1 Chương II an va Giả sử: Ta có m tài liệu thuộc lớp P; n tài liệu có chứa từ A (m≥ n n) Khi đó: to tf(A) = [số lần xuất A T] / [tổng số từ có T] p ie gh tn + Độ phổ biến từ A tài liệu (văn bản) T chứa nó: w + Độ đo IDF từ A m tài liệu mẫu thuộc lớp P, có n tài oa nl liệu chứa từ A: idf(A) = log(m/n) Từ ta tính độ đo TF*IDF (chính trọng số từ A lớp d an lu P): TF*IDF(A) = tf(A)*idf(A) u nf va 3.3.4 Đánh giá phân lớp Sau tìm họ tham số tối ưu cho phân lớp (hay ll oi m nói phân lớp huấn luyện xong), nhiệm vụ cần phải z at nh đánh giá (kiểm tra) phân lớp cho kết Quá trình kiểm tra thực tập liệu khác với tập liệu huấn luyện, gọi tập z Với tham số: l gm @ liệu kiểm tra Để đơn giản, ta xét phân lớp nhị phân (phân hai lớp) gán vào lớp; m co + a: Là số lượng đối tượng thuộc lớp xét phân lớp an Lu n va ac th si 61 + b: Là số lượng đối tượng không thuộc lớp xét phân lớp gán vào lớp; + c: Là số lượng đối tượng thuộc lớp xét bị phân lớp loại khỏi lớp; + d: Là số lượng đối tượng không thuộc lớp xét phân lớp loại khỏi lớp Để đánh giá chất lượng phân lớp, có hai đơn vị đo lường quan trọng độ đắn (accuracy) đo công thức lu an (error) tính bẳng cơng thức 𝑐+𝑏 va 𝑎+𝑏+𝑐+𝑑 𝑎+𝑑 𝑎+𝑏+𝑐+𝑑 độ sai lỗi Các độ đo phản ánh đầy đủ n chất lượng phân lớp Tuy nhiên, đánh giá phân lớp, thường người gh tn to ta xét đến đối tượng thuộc lớp phân lớp đúng, p ie đối tượng khơng thuộc lớp quan tâm Do đó, số độ đo khác w định nghĩa như: 𝑎 an lu + Recall (độ bao phủ, độ đầy đủ): 𝑎 (3.6) 𝑎+𝑐 𝑏 (3.7) 𝑏+𝑑 u nf va + Fallout (độ loại bỏ): (3.5) 𝑎+𝑏 d oa nl + Precision (độ xác): ll Tuy nhiên, số trường hợp thực tế, tính độ đo precision m oi độ đo recall riêng rẽ cho kết không cân đối Do đó, để thuận tiện, người z at nh ta kết hợp hai độ đo vào đơn vị đo tổng quát Để thực z điều này, người ta sử dụng đơn vị đo lường F1 định nghĩa sau: an Lu + P: Là độ xác (Precision); m co Trong đó: (3.8) l 1 𝛼 + (1 − 𝛼) 𝑃 𝑅 gm @ 𝐹1 = n va ac th si 62 + R: Là độ bao phủ (Recall); + α: Là hệ số xác định cân độ xác độ bao phủ Giá trị α = thường chọn cho cân P R Với giá trị này, độ đo tính đơn giản là: F1 = 2*R*P/(R + P) (3.9) 3.3.5 Chương trình thực nghiệm Chương trình thực nghiệm xây dựng sở sử dụng công cụ mã nguồn mở có sẵn chia sẻ thư viện LIBSVM, cơng cụ lập trình Visual Studio 2013 hệ quản trị CSDL Microsoft Access 2013 lu Bộ liệu huấn luyện bao gồm 43 tập văn bản, gán nhãn phân loại an va thủ công vào lĩnh vực: Giáo dục (ID=1); Kinh tế (ID=2); Thể thao (ID=3); n Tin học (ID=4) to gh tn Bộ liệu kiểm tra bao gồm 249 văn hành tiếng Việt thuộc p ie lĩnh vực nêu Các văn thu thập từ sở liệu văn hành phát hành, đăng tải công khai hệ thống cổng thông tin điện oa nl w tử quan nhà nước Việc đánh giá phân lớp dựa vào số độ xác (precision), d an lu độ bao phủ (recall) F1 u nf va 3.3.6 Kết thực nghiệm Bảng 3.1 Bộ liệu thử nghiệm ll Tổng số mẫu Giáo dục 10 60 70 Kinh tế 10 58 68 Thể thao 12 45 57 Tin học 11 86 97 Tổng cộng 43 249 oi Số mẫu kiểm tra @ m Số mẫu huấn luyện Tên lớp z at nh z m co l gm 292 an Lu n va ac th si 63 Bảng 3.2 Kết phân lớp liệu kiểm tra Tên lớp ID Tổng số Giáo dục 54 60 Kinh tế 2 52 58 Thể thao 2 41 45 Tin học 77 86 Bảng 3.3 Đánh giá hiệu suất phân lớp lu Tên lớp an n va Recall F1 Giáo dục 88,89% 93,33% 91,06% Kinh tế 89,83% 91,38% 90,60% Thể thao 93,18% 91,11% 92,13% Tin học 95,18% 91,86% 93,49% Trung bình 91,82% p ie gh tn to Precision w oa nl Độ xác phân lớp văn thuộc lĩnh vực đạt tỷ lệ d ~90%; độ bao phủ >90% Kết thực nghiệm khẳng định tính hiệu lu an thuật tốn SVM áp dụng vào toán phân lớp văn u nf va 3.4 Kết luận chương ll Chương trình bày thuật tốn học bán giám sát S3VM áp dụng m oi thuật toán việc phân loại văn tiếng Việt để xây dựng chương trình z at nh thử nghiệm đơn giản dựa ngôn ngữ lập trình Visual C# cơng cụ lập trình Visual Studio 2013, hệ quản trị CSDL Microsoft Access 2013 tiến z m co l gm @ hành chạy thử nghiệm chương trình với số liệu đầu vào an Lu n va ac th si 64 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Đánh giá kết thực đề tài Qua nghiên cứu thực hiện, luận văn đạt kết sau: - Trình bày tốn phân loại văn sở lý thuyết toán xây dựng hệ thống phân loại văn tiếng Việt - Giới thiệu thuật toán phân loại văn SVM, kNN, NB nêu phương pháp sử dụng SVM để phân loại văn tiếng Việt - Thực cài đặt thuật toán học bán giám sát SVM để xây dựng lu an chương trình thử nghiệm phân loại văn tiếng Việt; tiến hành chạy thử va n nghiệm chương trình với số liệu đầu vào đơn giản tn to Tuy giải mục tiêu đề ra, luận văn đánh giá ie gh phân loại văn dựa liệu có sẵn sở lý thuyết p chưa thực xây dựng ứng dụng hồn thiện để đánh giá xác nl w ưu, nhược điểm hướng tiếp cận Chương trình thử nghiệm cịn d oa đơn giản, dừng lại mức thực thuật toán liệu an lu đầu vào file văn truyền thống có định dạng đơn giản (*.txt), chưa hỗ va trợ việc đọc trực tiếp từ file word, PDF, u nf Hướng phát triển ll Luận văn giải phân loại văn dựa tảng lý oi m z at nh thuyết ứng dụng sẵn có Để mở rộng tính thực tế cho luận văn cần tiếp tục xây dựng ứng dụng cụ thể áp dụng giải pháp lựa chọn, ứng dụng z cho việc xây dựng hệ thống phân loại tự động văn tiếng Việt @ gm Nghiên cứu áp dụng số giải thuật tính tốn độ tương đồng ngữ m co l nghĩa mạng ngữ nghĩa để cải tiến mơ hình phân loại văn tiếng Việt an Lu n va ac th si 65 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy (2009), Giáo trình khai phá liệu Web, NXB Giáo dục, Hà Nội [2] Ủy ban Khoa học Xã hội Việt Nam (1983), Ngữ pháp tiếng Việt, NXB Khoa học Xã hội, Hà Nội [3] Nguyễn Thị Kim Anh, Trịnh Thị Ngọc Hương (2016), Nghiên cứu kỹ thuật đánh giá độ tương đồng văn ứng dụng so sánh văn tiếng Việt, Báo lu an cáo nghiên cứu khoa học, Đại học Hàng hải Việt Nam, Hải Phòng n va [4] Lê Hồng Dương, Ngơ Quốc Vinh (2016), Nghiên cứu thuật toán phân tn to lớp sử dụng trình học máy bán giám sát, ứng dụng việc phân lớp trang ie gh web, Báo cáo nghiên cứu khoa học, Đại học Hàng hải Việt Nam, Hải Phòng p [5] Trần Thị Thu Thảo, Vũ Thị Chinh (2012), Xây dựng hệ thống phân loại tài Tiếng Anh d oa nl w liệu tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Lạc Hồng, Đồng Nai an lu [6] Jiawei Han, Micheline Kamber, Jian Pei (2012), Data Mining: va Conceptsand Techniques, Third Edition, Morgan Kaufmann Publishers ll u nf [7] Steven Bird, Ewan Klein, Edward Loper (2009), Natural language oi m processing with Python, O'Reilly Media, America z at nh [8] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), “Vietnamese Word Segmentation”, The sixth Natural Language Processing Pacific Rim z Symposium, Tokyo, Japan, pp 749-756 @ gm [9] Eric Brill (1995), “Transformation-Based Error-Driven Learning and Computational Linguistics, 21(4), pp 543–565 m co l Natural Language Processing: A Case Study in Part of Speech Tagging”, an Lu n va ac th si 66 [10] T Joachims (1997), “A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization”, Proceedings of International Conference on Machine Learning, San Mateo, CA, pp 143-151 [11] K Bennett, A Demiriz (1998), “Semi - Supervised Support Vector Machines”, Advances in Neural information processing systems, 12, p.368-374 [12] T Joachims (1997), “Text Categorization with Support Vector Machine: Learning with Many Relevant Feautures”, Cornell Computer [13] Alex Smola, S.V.N Vishwanathan (2008), Introduction to Machine lu Learning, Departments of Statistics and Computer Science Purdue University, an n va College of Engineering and Computer Science, Australian National University p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si

(Luận văn) phân loại văn bản hành chính tiếng việt và ứng dụng vào các cơ quan nhà nước tỉnh bắc kạn

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan