(Luận văn thạc sĩ) phân loại văn bản hành chính tiếng việt và ứng dụng vào các cơ quan nhà nước tỉnh bắc kạn

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG LÈNG HỒNG LÂM PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TIẾNG VIỆT VÀ ỨNG DỤNG VÀO CÁC CƠ QUAN NHÀ NƯỚC TỈNH BẮC KẠN Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2017 LỜI CAM ĐOAN ii Tôi xin cam đoan sản phẩm nghiên cứu, tìm hiểu cá nhân tơi Các số liệu, kết trình bày luận văn trung thực Những nội dung trình bày luận văn thân, tổng hợp từ nguồn tài liệu có nguồn gốc rõ ràng trích dẫn hợp pháp, đầy đủ Tơi xin hoàn toàn chịu trách nhiệm cho lời cam đoan Thái Nguyên, tháng năm 2017 HỌC VIÊN Lèng Hoàng Lâm LỜI CẢM ƠN iii Trân trọng cảm ơn thầy giáo, cô giáo trường Đại học Công nghệ thông tin Truyền thông Thái Nguyên; giảng viên đến từ Viện Hàn lâm Khoa học Công nghệ Việt Nam, Trường Đại học Quốc gia Hà Nội tạo điều kiện tốt cho học viên trình học tập làm luận văn Đặc biệt, xin bày tỏ lòng biết ơn chân thành sâu sắc tới thầy giáo, PGS.TS Đoàn Văn Ban, người định hướng ln tận tình bảo, hướng dẫn em việc nghiên cứu, thực luận văn Trong suốt trình học tập thực đề tài, học viên nhận ủng hộ, động viên gia đình, đồng nghiệp, đặc biệt quan tâm tạo điều kiện Ban lãnh đạo Trung tâm Công nghệ thông tin Truyền thông tỉnh Bắc Kạn - nơi học viên công tác Xin trân trọng cảm ơn! Thái Nguyên, tháng năm 2017 HỌC VIÊN Lèng Hoàng Lâm MỤC LỤC iv LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG vii MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 1.1 Khai phá liệu 1.2 Khai phá liệu văn 1.3 Phân loại văn 11 1.3.1 Giới thiệu toán phân loại văn 11 1.3.2 Quy trình phân loại văn 12 1.3.3 Phân loại văn tiếng Việt 13 1.4 Đặc trưng văn tiếng Việt 14 1.4.1 Các đơn vị tiếng Việt 14 1.4.2 Ngữ pháp tiếng Việt 17 1.4.3 Từ tiếng Việt 18 1.4.4 Câu tiếng Việt 20 1.4.5 Các đặc điểm tả văn tiếng Việt 23 1.5 Công tác quản lý văn quan tỉnh Bắc Kạn 23 1.6 Kết luận chương 25 CHƯƠNG II CÁC KỸ THUẬT TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 25 2.1 Tách từ văn 26 2.1.1 Phương pháp khớp tối đa 27 2.1.2 Mơ hình tách từ WFST mạng Neural 28 2.1.3 Phương pháp học dựa vào biến đổi trạng thái 29 2.1.4 Loại bỏ từ dừng 31 2.2 Trọng số từ văn 31 2.2.1 Phương pháp Boolean 32 2.2.2 Phương pháp dựa tần số 32 v 2.3 Các mơ hình biểu diễn văn 33 2.3.1 Mơ hình Boolean 33 2.3.2 Mơ hình xác suất 33 2.3.3 Mơ hình khơng gian vector 34 2.4 Độ tương đồng văn 36 2.5 Thuật toán phân loại văn 39 2.5.1 Thuật toán Support Vector Machine (SVM) 39 2.5.2 Thuật toán K-Nearest Neighbor (kNN) 43 2.5.3 Thuật toán Naϊve Bayers (NB) 44 2.6 Phân loại văn tiếng Việt 47 2.6.1 Trích chọn đặc trưng văn 47 2.6.2 Sử dụng thuật toán SVM để phân loại văn 50 2.7 Kết luận chương 53 CHƯƠNG III ÁP DỤNG THUẬT TOÁN SUPPORT VECTOR MACHINE PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TIẾNG VIỆT 54 3.1 Ứng dụng SVM vào toán phân loại văn hành tiếng Việt quan nhà nước tỉnh Bắc Kạn 54 3.2 Áp dụng phân loại văn 56 3.3 Xây dựng chương trình thử nghiệm ứng dụng phân loại văn áp dụng vào máy tìm kiếm văn hành tiếng Việt 57 3.3.1 Mơ tả tốn 57 3.3.2 Quá trình tiền xử lý văn 59 3.3.3 Vector hóa trích chọn đặc trưng văn 60 3.3.4 Đánh giá phân lớp 60 3.3.5 Chương trình thực nghiệm 62 3.3.6 Kết thực nghiệm 62 3.4 Kết luận chương 63 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 64 TÀI LIỆU THAM KHẢO 65 DANH MỤC CÁC TỪ VIẾT TẮT vi Từ viết tắt Giải thích CSDL Cơ sở liệu KDD Knowledge Discovery from Data IDF Inverse Document Frequency kNN K-Nearest Neighbor NB Naϊve Bayers SVM Support Vector Machine S3VM Semi-Supervised Support Vector Machine TBL Transformation - based Learning TF Term Frequency WFST Weighted Finite - State Transducer DANH MỤC CÁC HÌNH vii Hình 1.1 Các bước q trình phát tri thức từ CSDL (KDD) Hình 1.2 Quy trình phân loại văn 13 Hình 2.1 Biểu diễn văn theo mơ hình xác suất 34 Hình 2.2 Minh họa hình học thuật tốn SVM 40 Hình 2.3 Chi tiết giai đoạn huấn luyện 50 Hình 2.4 Mơ hình SVM 51 Hình 3.1 Chi tiết giai đoạn huấn luyện 58 Hình 3.2 Chi tiết giai đoạn phân lớp 59 DANH MỤC CÁC BẢNG viii Bảng 3.1 Bộ liệu thử nghiệm 62 Bảng 3.2 Kết phân lớp liệu kiểm tra 63 Bảng 3.3 Đánh giá hiệu suất phân lớp 63 MỞ ĐẦU Đặt vấn đề Trong thời đại bùng nổ Công nghệ thông tin nay, phương thức sử dụng văn giấy truyền thống dần số hóa, chuyển sang dạng văn điện tử lưu trữ máy tính chia sẻ, truyền tải mạng Với nhiều tính ưu việt tài liệu số như: Lưu trữ gọn nhẹ, linh hoạt; thời gian lưu trữ lâu dài; dễ hiệu chỉnh đặc biệt tiện dụng trao đổi, chia sẻ nên ngày nay, số lượng văn điện tử sử dụng quan nhà nước tăng lên nhanh chóng Do đó, vấn đề đặt làm để tìm kiếm khai thác thông tin từ nguồn liệu phong phú Các kỹ thuật để giải vấn đề gọi “Text Mining” hay Khai phá liệu văn Khai phá liệu văn đề cập đến tiến trình trích lọc mẫu hình thơng tin hay tri thức đáng quan tâm có giá trị từ tài liệu văn Trong đó, phân loại văn toán lĩnh vực khai phá liệu văn Phân loại văn cơng việc phân tích nội dung văn sau định (hay dự đốn) văn thuộc nhóm nhóm văn cho trước Văn phân loại thuộc nhóm, nhiều nhóm, khơng thuộc nhóm văn mà ta định nghĩa trước Phân loại văn thực nhiều cách sử dụng tiếp cận lý thuyết tập thô, cách tiếp cận theo luật kết hợp dựa cách tiếp cận máy học Đây lĩnh vực mang tính khoa học cao, ứng dụng nhiều tốn thực tế tìm kiếm thông tin, lọc văn bản, tổng hợp tin tức tự động, thư viện điện tử,… Do vậy, học viên định chọn đề tài “Phân loại văn hành tiếng Việt ứng dụng vào quan nhà nước tỉnh Bắc Kạn” để nghiên cứu, thực luận văn tốt nghiệp Mục tiêu đề tài luận văn khảo sát, tìm hiểu số phương pháp phân loại văn thường sử dụng nay, sở đề xuất lựa chọn phương án phân loại văn tiếng Việt tự động ứng dụng thử nghiệm phân loại cho đối tượng cụ thể văn hành tiếng Việt Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu bao gồm: Các thuật toán phân loại văn vấn đề liên quan đến toán phân loại văn tiếng Việt Phạm vi nghiên cứu luận văn tập trung vào số thuật tốn phân loại văn thơng dụng; đặc trưng văn tiếng Việt; kỹ thuật liên quan xử lý phân loại văn ứng dụng thuật toán học bán giám sát phân loại văn tiếng Việt Hướng nghiên cứu đề tài Nghiên cứu lý thuyết khai phá liệu, khai phá liệu văn toán phân loại văn với số thuật toán phân loại văn thông dụng Naϊve Bayers, K-Nearest Neighbor, Support Vector Machine Nghiên cứu đặc trưng văn tiếng Việt kỹ thuật liên quan xử lý phân loại văn tiếng Việt tách từ, biểu diễn văn bản, đánh trọng số từ, tính độ tương đồng văn Từ kết thu tiến hành cài đặt ứng dụng tốn phân loại văn hành tiếng Việt Những nội dung Nội dung luận văn trình bày chương với tổ chức cấu trúc sau: Chương Tổng quan phân loại văn tiếng Việt Chương trình bày khái quát khai phá liệu, khai phá liệu văn toán phân loại văn tiếng Việt; đồng thời làm rõ đặc trưng văn tiếng Việt giới thiệu sơ công tác quản lý văn quan thuộc tỉnh Bắc Kạn 52 có kích thước bình phương số lượng mẫu huấn luyện Trong toán thực tế, điều khơng khả thi thơng thường kích thước tập liệu huấn luyện thường lớn (có thể lên tới hàng chục nghìn mẫu) Nhiều thuật toán khác phát triển để giải vấn đề nêu Những thuật toán dựa việc phân rã tập liệu huấn luyện thành nhóm liệu, giúp cho tốn quy hoạch tồn phương giải với kích thước nhỏ Sau đó, thuật tốn kiểm tra điều kiện KKT (Karush-KuhnTucker) để xác định phương án tối ưu Một số thuật tốn huấn luyện dựa vào tính chất: Nếu tập liệu huấn luyện toán quy hoạch toàn phương cần giải bước có mẫu vi phạm điều kiện KKT, sau giải tốn này, hàm mục tiêu tăng Như vậy, chuỗi toán quy hoạch tồn phương với mẫu vi phạm điều kiện KKT đảm bảo hội tụ đến phương án tối ưu Do đó, ta trì tập liệu làm việc đủ lớn có kích thước cố định bước huấn luyện, ta loại bỏ thêm vào số lượng mẫu Các ưu điểm SVM phân loại văn bản: Như biết, phân loa ̣i văn tiến trình đưa văn chưa biết chủ đề vào lớp văn biết (tương ứng với chủ đề hay lĩnh vực khác nhau) Mỗi lĩnh vực xác định số tài liệu mẫu lĩnh vực Để thực trình phân lớp, phương pháp huấn luyện sử dụng để xây dựng tập phân lớp từ tài liệu mẫu, sau dùng tập phân lớp để dự đoán lớp tài liệu (chưa biết chủ đề) Chúng ta thấy từ thuật toán phân lớp hai lớp SVM đến thuật tốn phân lớp đa lớp có đặc điểm chung yêu cầu văn phải biểu diễn dạng vector đặc trưng, nhiên thuật toán khác phải sử dụng uớc lượng tham số ngưỡng tối ưu, thuật tốn 53 SVM tự tìm tham số tối ưu Trong phương pháp SVM phương pháp sử dụng không gian vector đặc trưng lớn (hơn 10.000 chiều), phương pháp khác có số chiều bé nhiều (như Nạve Bayes 2000, k-Nearest Neighbors 2415…) Phương pháp phân lớp sử dụng thuật toán SVM nhiều tác giả nghiên cứu, so sánh với phương pháp phân loại khác Naïve Bayes, kNearest Neighbors SVM có nhiều ưu điểm, phù hợp phương pháp khác việc ứng dụng giải toán phân loa ̣i văn Và thực tế, thí nghiệm phân loa ̣i văn tiếng Anh SVM đạt độ xác phân lớp cao tỏ xuất sắc so với phương pháp phân loa ̣i văn khác [4] Do vậy, luận văn lựa chọn phương pháp sử dụng thuật toán SVM để giải toán phân loại văn chương sau 2.7 Kết luận chương Chương trình bày chi tiết tốn phân loại văn tiếng Việt với thuật toán phân loại khái niệm liên quan như: Các kỹ thuật việc xử lý văn để phân loại tách từ, đánh trọng số từ văn bản, mơ hình biểu diễn văn bản, tính độ tương đồng văn Nội dung chương tập trung phân tích, làm rõ số giải pháp kỹ thuật liên quan, qua định hướng áp dụng việc giải toán phân loại văn phương pháp trích chọn đặc trưng, mơ hình biểu diễn văn bản, phương pháp đánh trọng số từ, thuật toán phân loại Kết nghiên cứu chương sở để giải toán phân loại văn tiếng Việt chương sau 54 CHƯƠNG III ÁP DỤNG THUẬT TOÁN SUPPORT VECTOR MACHINE PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TIẾNG VIỆT 3.1 Ứng dụng SVM vào toán phân loại văn hành tiếng Việt quan nhà nước tỉnh Bắc Kạn Ở chương 2, luận văn tập trung giới thiệu số thuật toán phân loại văn điển Support Vector Machine (SVM), K-Nearest Neighbor (kNN) Nạve Bayes (NB) Các thuật tốn có hướng tiếp cận khác có điểm chung, sử dụng tập huấn luyện với mẫu liệu gán nhãn để dự đoán giá trị hàm phân lớp cho đối tượng đầu vào Người ta gọi thuật tốn học có giám sát Nhiệm vụ chương trình học có giám sát huấn luyện khả dự đốn giá trị đầu cho hàm có đối tượng đầu vào hợp lệ thông qua liệu huấn luyện Chương trình học phải tiến hành tổng quát hóa từ liệu sẵn có để đưa dự đốn tình [4] Trong phần này, luâ ̣n văn giới thiệu phương thức cải tiến thuật toán SVM bán giám sát SVM (Semi-Supervised Support Vector Machine - S3VM) [4] Bán giám sát SVM đưa nhằm nâng SVM lên mức cao Trong thuật tốn học có giám sát sử dụng liệu huấn luyện gán nhãn học bán giám sát sử dụng liệu gán nhãn kết hợp với liệu chưa gán nhãn Bài toán truyền dẫn dự đoán giá trị hàm phân lớp tới điểm cho tập liệu chưa gán nhãn Cho tập huấn luyện gồm liệu gán nhãn (training set) tập liệu chưa gán nhãn (working set), S3VM xây dựng máy hỗ trợ vector sử dụng training set working set Mục đích để gán nhãn cho liệu working set cách tốt có thể, sau sử dụng hỗn hợp liệu huấn luyện gán nhãn cho trước (training set) liệu working set 55 vừa gán nhãn để huấn luyện phân lớp liệu Nếu working set rỗng (toàn liệu gán nhãn) tốn lại trở thành tốn học có giám sát SVM Ngược lại, training set rỗng, tức liệu huấn luyện hoàn toàn chưa gán nhãn, toán trở thành hình thể học máy khác gọi học khơng giám sát Học bán giám sát xảy training set working set không rỗng Để hiểu cách rõ ràng cụ thể S3VM, cần hiểu SVM trình bày chi tiết phần trước Trong luận văn tìm hiểu thuật toán S3VM toán phân lớp nhị phân Cho trước tập huấn luyện gồm training set working set bao gồm n liệu Mục đích gán nhãn cho liệu chưa gán nhãn Với hai lớp cho trước gồm lớp dương (lớp +1) lớp âm (lớp –1) Mỗi liệu xem điểm không gian vector Mỗi điểm i thuộc training set có sai số ηi điểm j thuộc working set có hai sai số ξj (sai số phân lớp với giả sử j thuộc lớp +1) zj (sai số phân lớp với giả sử j thuộc lớp –1) Nội dung thuật toán S3VM [4],[11],[12]: Đầu vào: Tập huấn luyện gồm liệu có nhãn chưa có nhãn: D = {(xi, yi) | xi  RP, yi  {-1, 0, 1}, i = 1, 2, , n} Tập liệu gán nhãn D gồm 𝑙 liệu: L = {(xi, yi) | xi  RP, yi  {-1, 1}, i = 1, 2, , 𝑙} Tập liệu chưa có nhãn D gồm 𝑘 liệu: K = {(xj, yj) | xj  RP, yj = 0, j = 1, 2, , 𝑘} Đầu ra: Một siêu phẳng h phân chia liệu D thành hai nhóm với sai số nhỏ 56 Thực thuật toán: ‖𝑤‖2 theo 𝑤, 𝑏, 𝑦𝑗 Giải toán tối ưu: 𝑦 (𝑤𝑥 + 𝑏) ≥ 1; 𝑖 = 1, , 𝑙 𝑖 𝑖 { 𝑦𝑗 (𝑤𝑥𝑗 + 𝑏) ≥ 1; 𝑖 = 1, , 𝑘 Cực tiểu hóa (3.1) Cụ thể hơn, ta giải toán sau: 𝑙 𝑘 𝑖=1 𝑗=1 ′ { ‖𝑤‖ + ∑ max(0,1 − 𝑦𝑖 (𝑤𝑥𝑖 + 𝑏)) + ∑ max (0,1 − 𝑦𝑗 (𝑤𝑥𝑗 + 𝑏))} 𝑤,𝑏,𝑦𝑗 2𝑘 2𝑙  Vấn đề ta cần phải xác định nhãn yj điểm j tập liệu chưa gán nhãn K Ta thực tìm kiếm siêu phẳng w ghi nhãn ví dụ khơng có nhãn, hàm mục tiêu SVM giảm thiểu, bị ràng buộc 𝑟 phần nhỏ liệu khơng có nhãn phân loại tích cực Giá trị 𝑟 xác định theo công thức: 𝑘 𝑟 = ∑ 𝑚𝑎𝑥(0, sign(𝑤𝑥𝑗 + 𝑏)) 𝑘 𝑗=1 (3.2) Tập liệu chưa gán nhãn (working set) sau gán nhãn đưa vào tập liệu huấn luyện, sử dụng thuật toán SVM để học tạo SVM mới, SVM S3VM có siêu phẳng Sau áp dụng siêu phẳng để phân lớp mẫu liệu đưa vào 3.2 Áp dụng phân loại văn Để áp dụng vào phân loa ̣i văn bản, thuật toán S3VM xem tài liêụ vector f(d1, d2,…, dn) Áp dụng phương trình tổng qt siêu phẳng tìm thuật tốn SVM (2.16): 𝑓(𝑥) = 𝑤𝑥 + 𝑏 hay cịn viết theo dạng sau: 𝑛 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑏 + ∑ 𝑤𝑖 𝑥𝑖 𝑖=1 (3.3) 57 Thay văn tương ứng vào phương trình siêu phẳng này: 𝑛 𝑓(𝑑1 , 𝑑2 , … , 𝑑𝑛 ) = 𝑏 + ∑ 𝑤𝑖 𝑑𝑖 𝑖=1 (3.4) Nếu: f(d) ≥ 0, văn bản thuộc lớp +1, f(d) < văn bản thuộc lớp –1 Có thể thấy q trình áp dụng thuật tốn S3VM vào tốn phân lớp văn bản việc thay vector trọng số biểu diễn văn bản vào phương trình siêu phẳng S3VM, từ tìm nhãn lớp văn chưa gán nhãn Như vậy, thực chất trình phân lớp bán giám sát áp dụng văn là: Tập liệu huấn luyện văn bản, tập liệu chưa gán nhãn (working set) văn văn có nhãn tập huấn luyện trỏ tới Giải thuật S3VM phương pháp cải tiến giải thuật SVM, giải thuật tận dụng ưu điểm SVM có độ xác cao, đồng thời tận dụng nguồn liệu huấn luyện không gán nhãn sẵn có nhằm giải tốn phân lớp cách tối ưu 3.3 Xây dựng chương trình thử nghiệm ứng dụng phân loại văn áp dụng vào máy tìm kiếm văn hành tiếng Việt 3.3.1 Mơ tả tốn Cho n văn bản th ̣c các lĩnh vực khác Yêu cầ u đặt cần phải xây dựng ứng dụng thử nghiệm áp dụng giải thuật phân lớp để phân loại n văn bản này theo các lĩnh vực khác dựa vào các văn bản mẫu đã đươ ̣c huấ n luyện theo các lĩnh vực khác đó Như phân tích phần trên, phạm vi đề tài này, luận văn sử dụng thuật toán SVM để xây dựng mơ hình phân loại văn bản, bao gồm hai giai đoạn: Giai đoạn huấn luyện giai đoạn phân lớp 58 a Giai đoạn huấn luyện: Để xây dựng mơ hình ứng dụng thử nghiệm, cần có tập huấn luyện với phần tử tập huấn luyện xác định nhãn lớp (lĩnh vực) thể mô hình mã hóa sử dụng khơng gian vector (đã trình bày chi tiết Mục 2.3 - Các mơ hình biểu diễn văn bản) Sau đó, định nghĩa lớp mơ hình thủ tục huấn luyện, với lớp mơ hình họ tham số phân loại, thủ tục huấn luyện với giải thuật lựa chọn SVM để chọn họ tham số tối ưu cho phân loại Chi tiết giai đoạn huấn luyện mô tả sơ đồ sau: Hình 3.1 Chi tiết giai đoạn huấn luyện Trong đó: + Dữ liệu huấn luyện: Kho liệu thu thập + Tiền xử lý: Xử lý chuẩn hóa liệu huấn luyện + Véc tơ hóa: Mã hóa văn với mơ hình trọng số + Trích chọn đặc trưng: Loại bỏ từ (đặc trưng) không quan trọng (không chứa thông tin đặc trưng) khỏi tài liệu nhằm nâng cao hiệu suất phân loại giảm độ phức tạp thuật toán huấn luyện + Thuật toán huấn luyện: Thủ tục huấn luyện phân lớp để tìm họ tham số tối ưu (sử dụng thuật toán SVM) 59 + Đánh giá: Bước đánh giá hiệu suất (chất lượng) phân lớp Thủ tục huấn luyện thực thi lặp lại nhiều lần để tìm họ tham số tối ưu sau lần lặp b Giai đoạn phân lớp: Sau hoàn thành giai đoạn huấn luyện, mơ hình phân lớp áp dụng cho văn cần phân loại Chi tiết giai đoạn phân lớp mô tả sơ đồ sau: Hình 3.2 Chi tiết giai đoạn phân lớp 3.3.2 Quá trình tiền xử lý văn Văn trước vector hóa, tức trước đưa vào sử dụng mơ hình phân loại, cần phải tiền xử lý Quá trình tiền xử lý giúp nâng cao hiệu suất phân loại giảm độ phức tạp thuật tốn huấn luyện Tùy vào mục đích phân loại mà có phương pháp tiền xử lý văn khác nhau, như: - Chuyển văn chữ thường; - Loại bỏ ký tự đặc biệt (ví dụ như: ~; @; #; $; %; &; *; ); - Thực tách từ: Sử dụng công cụ tách từ vnTokenizer, version 4.1.1 để phân tách từ Kết ta thu file chứa từ phân tách (dấu “|” sử dụng để ngăn cách từ) 60 - Loại bỏ từ dừng hay từ tầm thường (stopword): Thực loại bỏ từ khơng có ý nghĩa sau tách từ dựa danh mục từ dừng có trước 3.3.3 Vector hóa trích chọn đặc trưng văn Như trình bày phần trên, mơ hình khơng gian vector, văn d biểu diễn dạng vector đặc trưng f(d1, d2,…, dn), n số lượng đặc trưng hay số chiều vector văn bản, di trọng số đặc trưng thứ i Để trích chọn đặc trưng văn ta sử dụng phương pháp TF*IDF giới thiệu Mục 2.6.1 Chương II Giả sử: Ta có m tài liệu thuộc lớp P; n tài liệu có chứa từ A (m≥ n) Khi đó: + Độ phổ biến từ A tài liệu (văn bản) T chứa nó: tf(A) = [số lần xuất A T] / [tổng số từ có T] + Độ đo IDF từ A m tài liệu mẫu thuộc lớp P, có n tài liệu chứa từ A: idf(A) = log(m/n) Từ ta tính độ đo TF*IDF (chính trọng số từ A lớp P): TF*IDF(A) = tf(A)*idf(A) 3.3.4 Đánh giá phân lớp Sau tìm họ tham số tối ưu cho phân lớp (hay nói phân lớp huấn luyện xong), nhiệm vụ cần phải đánh giá (kiểm tra) phân lớp cho kết Q trình kiểm tra thực tập liệu khác với tập liệu huấn luyện, gọi tập liệu kiểm tra Để đơn giản, ta xét phân lớp nhị phân (phân hai lớp) Với tham số: + a: Là số lượng đối tượng thuộc lớp xét phân lớp gán vào lớp; 61 + b: Là số lượng đối tượng không thuộc lớp xét phân lớp gán vào lớp; + c: Là số lượng đối tượng thuộc lớp xét bị phân lớp loại khỏi lớp; + d: Là số lượng đối tượng không thuộc lớp xét phân lớp loại khỏi lớp Để đánh giá chất lượng phân lớp, có hai đơn vị đo lường quan trọng độ đắn (accuracy) đo công thức (error) tính bẳng cơng thức 𝑐+𝑏 𝑎+𝑏+𝑐+𝑑 𝑎+𝑑 𝑎+𝑏+𝑐+𝑑 độ sai lỗi Các độ đo phản ánh đầy đủ chất lượng phân lớp Tuy nhiên, đánh giá phân lớp, thường người ta xét đến đối tượng thuộc lớp phân lớp đúng, cịn đối tượng khơng thuộc lớp quan tâm Do đó, số độ đo khác định nghĩa như: + Precision (độ xác): 𝑎 𝑎+𝑏 + Recall (độ bao phủ, độ đầy đủ): + Fallout (độ loại bỏ): 𝑏 𝑏+𝑑 (3.5) 𝑎 𝑎+𝑐 (3.6) (3.7) Tuy nhiên, số trường hợp thực tế, tính độ đo precision độ đo recall riêng rẽ cho kết khơng cân đối Do đó, để thuận tiện, người ta kết hợp hai độ đo vào đơn vị đo tổng quát Để thực điều này, người ta sử dụng đơn vị đo lường F1 định nghĩa sau: 𝐹1 = Trong đó: 1 𝛼 + (1 − 𝛼) 𝑅 𝑃 + P: Là độ xác (Precision); (3.8) 62 + R: Là độ bao phủ (Recall); + α: Là hệ số xác định cân độ xác độ bao phủ Giá trị α = thường chọn cho cân P R Với giá trị này, độ đo tính đơn giản là: F1 = 2*R*P/(R + P) (3.9) 3.3.5 Chương trình thực nghiệm Chương trình thực nghiệm xây dựng sở sử dụng cơng cụ mã nguồn mở có sẵn chia sẻ thư viện LIBSVM, công cụ lập trình Visual Studio 2013 hệ quản trị CSDL Microsoft Access 2013 Bộ liệu huấn luyện bao gồm 43 tập văn bản, gán nhãn phân loại thủ công vào lĩnh vực: Giáo dục (ID=1); Kinh tế (ID=2); Thể thao (ID=3); Tin học (ID=4) Bộ liệu kiểm tra bao gồm 249 văn hành tiếng Việt thuộc lĩnh vực nêu Các văn thu thập từ sở liệu văn hành phát hành, đăng tải cơng khai hệ thống cổng thông tin điện tử quan nhà nước Việc đánh giá phân lớp dựa vào số độ xác (precision), độ bao phủ (recall) F1 3.3.6 Kết thực nghiệm Bảng 3.1 Bộ liệu thử nghiệm Số mẫu huấn luyện Số mẫu kiểm tra Tổng số mẫu Giáo dục 10 60 70 Kinh tế 10 58 68 Thể thao 12 45 57 Tin học 11 86 97 Tổng cộng 43 249 292 Tên lớp 63 Bảng 3.2 Kết phân lớp liệu kiểm tra Tên lớp ID Tổng số Giáo dục 54 60 Kinh tế 2 52 58 Thể thao 2 41 45 Tin học 77 86 Bảng 3.3 Đánh giá hiệu suất phân lớp Tên lớp Precision Recall F1 Giáo dục 88,89% 93,33% 91,06% Kinh tế 89,83% 91,38% 90,60% Thể thao 93,18% 91,11% 92,13% Tin học 95,18% 91,86% 93,49% Trung bình 91,82% Độ xác phân lớp văn thuộc lĩnh vực đạt tỷ lệ ~90%; độ bao phủ >90% Kết thực nghiệm khẳng định tính hiệu thuật tốn SVM áp dụng vào toán phân lớp văn 3.4 Kết luận chương Chương trình bày thuật toán học bán giám sát S3VM áp dụng thuật toán việc phân loại văn tiếng Việt để xây dựng chương trình thử nghiệm đơn giản dựa ngơn ngữ lập trình Visual C# cơng cụ lập trình Visual Studio 2013, hệ quản trị CSDL Microsoft Access 2013 tiến hành chạy thử nghiệm chương trình với số liệu đầu vào 64 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Đánh giá kết thực đề tài Qua nghiên cứu thực hiện, luận văn đạt kết sau: - Trình bày tốn phân loại văn sở lý thuyết toán xây dựng hệ thống phân loại văn tiếng Việt - Giới thiệu thuật toán phân loại văn SVM, kNN, NB nêu phương pháp sử dụng SVM để phân loại văn tiếng Việt - Thực cài đặt thuật toán học bán giám sát SVM để xây dựng chương trình thử nghiệm phân loại văn tiếng Việt; tiến hành chạy thử nghiệm chương trình với số liệu đầu vào đơn giản Tuy giải mục tiêu đề ra, luận văn đánh giá phân loại văn dựa liệu có sẵn sở lý thuyết chưa thực xây dựng ứng dụng hồn thiện để đánh giá xác ưu, nhược điểm hướng tiếp cận Chương trình thử nghiệm đơn giản, dừng lại mức thực thuật toán liệu đầu vào file văn truyền thống có định dạng đơn giản (*.txt), chưa hỗ trợ việc đọc trực tiếp từ file word, PDF, Hướng phát triển Luận văn giải phân loại văn dựa tảng lý thuyết ứng dụng sẵn có Để mở rộng tính thực tế cho luận văn cần tiếp tục xây dựng ứng dụng cụ thể áp dụng giải pháp lựa chọn, ứng dụng cho việc xây dựng hệ thống phân loại tự động văn tiếng Việt Nghiên cứu áp dụng số giải thuật tính tốn độ tương đồng ngữ nghĩa mạng ngữ nghĩa để cải tiến mơ hình phân loại văn tiếng Việt 65 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy (2009), Giáo trình khai phá liệu Web, NXB Giáo dục, Hà Nội [2] Ủy ban Khoa học Xã hội Việt Nam (1983), Ngữ pháp tiếng Việt, NXB Khoa học Xã hội, Hà Nội [3] Nguyễn Thị Kim Anh, Trịnh Thị Ngọc Hương (2016), Nghiên cứu kỹ thuật đánh giá độ tương đồng văn ứng dụng so sánh văn tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Hàng hải Việt Nam, Hải Phòng [4] Lê Hồng Dương, Ngơ Quốc Vinh (2016), Nghiên cứu thuật tốn phân lớp sử dụng q trình học máy bán giám sát, ứng dụng việc phân lớp trang web, Báo cáo nghiên cứu khoa học, Đại học Hàng hải Việt Nam, Hải Phòng [5] Trần Thị Thu Thảo, Vũ Thị Chinh (2012), Xây dựng hệ thống phân loại tài liệu tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Lạc Hồng, Đồng Nai Tiếng Anh [6] Jiawei Han, Micheline Kamber, Jian Pei (2012), Data Mining: Conceptsand Techniques, Third Edition, Morgan Kaufmann Publishers [7] Steven Bird, Ewan Klein, Edward Loper (2009), Natural language processing with Python, O'Reilly Media, America [8] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), “Vietnamese Word Segmentation”, The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, pp 749-756 [9] Eric Brill (1995), “Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging”, Computational Linguistics, 21(4), pp 543–565 66 [10] T Joachims (1997), “A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization”, Proceedings of International Conference on Machine Learning, San Mateo, CA, pp 143-151 [11] K Bennett, A Demiriz (1998), “Semi - Supervised Support Vector Machines”, Advances in Neural information processing systems, 12, p.368-374 [12] T Joachims (1997), “Text Categorization with Support Vector Machine: Learning with Many Relevant Feautures”, Cornell Computer [13] Alex Smola, S.V.N Vishwanathan (2008), Introduction to Machine Learning, Departments of Statistics and Computer Science Purdue University, College of Engineering and Computer Science, Australian National University ... VECTOR MACHINE PHÂN LOẠI VĂN BẢN HÀNH CHÍNH TIẾNG VIỆT 54 3.1 Ứng dụng SVM vào tốn phân loại văn hành tiếng Việt quan nhà nước tỉnh Bắc Kạn 54 3.2 Áp dụng phân loại văn 56... lý văn quan thuộc tỉnh Bắc Kạn 3 Chương 2: Các kỹ thuật phân loại văn tiếng Việt Chương trình bày tốn phân loại văn tiếng Việt với thuật toán phân loại kỹ thuật việc xử lý văn tiếng Việt để phân. .. liên quan đến toán phân loại văn tiếng Việt số thuật toán thường sử dụng phân loại văn Ứng dụng thuật toán học bán giám sát SVM vào toán phân loại văn tiếng Việt Ý nghĩa thực tiễn: Luận văn đề

(Luận văn thạc sĩ) phân loại văn bản hành chính tiếng việt và ứng dụng vào các cơ quan nhà nước tỉnh bắc kạn

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan