7. Nội dung luận văn
3.2.5. Giao diện chương trình
Chương trình thử nghiệm được viết trên ngơn ngữ C# trong bộ Microsoft Visual Studio Community 2017 đồng thời sử dụng các thư viên hỗ trợ như Libsvm; IKVM.NET.
Hình 3.3. Giao diện chương trình 3.2.6. Các bước sử dụng chương trình thử nghiệm
Bước đầu tiên ta sử dụng 200 văn bản của tập huấn luyện trích rút các đặc trưng đưa vào từ điển phục vụ cho việc tách từ chi tiết của từ điển được mơ tả ở hình 3.4.
Hình 3.4 dữ liệu từ điển
Bước thứ hai ta chọn thư mục chứa dữ liệu văn bản cần phân loại. Văn bản cần phân loại cĩ dạng text.doc hoặc text.docx.
Bước thứ ba chọn dữ liệu đã được huấn luyện (training). Vì theo ý tưởng ban đầu nghiên cứu về luận văn là học máy cĩ giám sát nên việc gán nhãn cho dữ liệu huấn luyện phải gán nhãn bằng tay, việc gán nhãn này sử dụng file.csv để đưa thêm dữ liệu mới cần được huấn luyện, chi tiết của dữ liệu gán nhãn được mơ tả ở hình 3.5.
Hình 3.5. Dữ liệu được gán nhãn
Sau khi gán nhãn cho tập dữ liệu ta tiến hành huấn luyện cho tâp gán nhãn.
Hình 3.6. Dữ liệu đã được huấn luyện
Sau khi các bước đã được chọn ta tiến hành thực hiện việc phân loại văn bản, chi tiết của việc chọn ở các bước được miêu tả ở hình 3.7.
Hình 3.7. Sau khi đã chọn xong các mục 3.2.7. Kết quả phân loại văn bản
Sau khi thực hiện phân loại ta được kết quả như hình 3.8
Qua bảng 3.9 cho thấy sau khi phân loại và so sánh với kết quả giữa văn bản kiểm thử và văn bản được máy phân loại thu được kết quả phần tăm trung bình là 96.93%.
Bảng 3.9. Tỷ lệ % phân loại văn bản
Bảng đánh giá kết quả phân loại văn bản
STT Phân lớp Tập kiểm thử Tập phân loại bằng máy Tập phân loại sai phân lớp Tỉ lệ % 1 CNTT 60 59 1 98.33% 2 Dân số 36 35 1 97.22% 3 Giao thơng 56 51 5 91.07% 4 Mơi trường 34 34 0 100% 5 Nơng nghiệp 65 65 0 100% 6 Thủy sản 16 15 1 93.75% 7 Tài chính 33 33 0 100% 8 Xây dựng 43 40 3 93.02% 9 Giáo dục 48 48 0 100% 10 Y tế 49 47 1 95.91% Phần trăm trung bình 96.93%
3.3. Đánh giá kết quả thực nghiệm
Việc tiến hành thực nghiệm trên tập dữ liệu cần phân lớp với số lượng văn bản là 440 cho 10 phân lớp cho kết quả tương đối chính xác.
Do số lượng dữ liệu kiểm thử cho từng lớp cĩ số chênh lệch chưa cao nên khả năng dự đốn của bộ phân lớp khá tốt. Muốn khả năng dự đốn cĩ độ chính xác cao hơn nữa thì tập dữ liệu huấn luyện cần phải học thêm nhiều về số lượng, đảm bảo cung cấp đầy đủ các ràng buộc ….
Ngồi ra việc xác định từ, cụm từ trong văn bản hành chính sử dụng cho việc huấn luyện cũng là một điều đáng quan tâm, vì cĩ nhiều văn bản con người đọc cịn chưa xác định được xếp vào thể loại nào. Hiện nay cĩ rất nhiều phương pháp học máy để ứng dụng trong việc phân loại tài liệu tiếng Việt, tuy nhiên cĩ rất ít đề tài viết về ứng dung các phương pháp học máy để phân loại văn bản hành chính nên làm cho việc so sánh, đánh giá kết quả cũng cịn hạn chế.
Kết quả thực nghiệm cho thấy xây dựng bộ phân lớp văn bản tiếng việt sử dụng mơ hình SVM cho kết quả rất tốt.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm cĩ thể khẳng định rằng bài tốn phân lớp văn bản hành chính thực sự cĩ ý nghĩa rất quan trọng trong việc quản lý, tìm kiếm, lưu trữ thơng tin trên nguồn tài nguyên lớn, đặc biệt với nguồn tài nguyên về lĩnh vực hành chính.
Luận văn tìm hiểu, nghiên cứu các thuật tốn phổ biến hiện nay, từ đĩ đưa ra phương pháp và thuật tốn ứng dụng vào bài tốn phân lớp dữ liệu văn bản hành chính.
Về mặt nội dung, luận văn đã đạt được những kết quả sau: - Nghiên cứu tổng quan về học máy và học máy cĩ giám sát.
- Nghiên cứu tổng quan về phân lớp và phân loại văn bản tiếng việt với các bài tốn như phân loại tin tức điện tử, phân loại văn bản trong tài chính, ngân hàng, phân lại thư rác…
- Nghiên cứu một số thuật tốn phân loại như KNN, Nạve Bayes và SVM từ đĩ đưa ra bài tốn áp dụng vào phân loại văn bản trong lĩnh vực hành chính.
- Xây dựng từ điển áp dụng vào việc tách từ.
- Xây dựng tập dữ liệu nhãn/lớp áp dụng vào việc huấn luyện.
- Xây dựng chương trình thực nghiệm cho việc phân loại văn bản. Chương trình được viết trên ngơn ngữ c# trong bộ Microsoft Visual Studio Community 2017, tích hợp module tiền xử lý văn bản và module phân lớp (SVM). Kết quả thực nghiệm trên tập dữ liệu về lĩnh vực hành chính cho thấy kết quả phân loại khá tốt 96.93% trên tổng số 440 văn bản đầu vào.
Bên cạnh đĩ, do hạn chế về mặt thời gian và kiến thức nên luận văn chỉ dừng lại ở việc sử dụng hàm nhân Linear chưa sử dụng các hàm nhân khác như Polynomial, Radial Basic Function nên việc so sánh để chọn ra phương án tốt nhất là cịn hạn chế. Ngồi ra cịn hạn chế về việc nghiên cứu văn phong được sử dụng trong văn bản hành chính.
Tương lai, luân văn tiếp tục hồn thiện các mặt hạn chế được đưa ra ở trên đĩ là sử dụng một số hàm nhân khác để tìm ra được bài tốn hiệu quả nhất đối với bài tốn phân loại văn bản trong lĩnh vực hành chính.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1]. Lưu Tuấn Anh , "Ứng dụng phương pháp Pointwise vào bài tốn tách từ cho tiếng Việt", Natural Language Processing Laboratory Department of Electrical Engineering, Nagaoka University of Technology 940-2188, Nagaoka City, Niigata, Japan.
[2]. Nguyễn Thị Thùy Dương. (2015), Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt, Luận văn thạc sỹ khoa học máy tính, trường Đại học Thái Nguyên.
[3]. Trần Cao Đệ, Phạm Nguyên Khang ( 2012), "Phân loại văn bản với máy học vector hỗ trợ và cây quyết định", Tạp chí khoa học, tr. 52-63.
[4]. Nguyễn Linh Giang, Nguyễn Mạnh Hiển. (2004), "Phân loại văn bản tiếng Việt với bộ phân loại vector hỗ trợ SVM", Bài báo khoa học, Hà nội. [5]. Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2006), "Phân loại văn bản tiếng
Việt với bộ phân loại vectơ hỗ trợ SVM", Tạp chí CNTT&TT.
[6]. Lương Thị Minh Hồng (2006), Phân loại văn bản bằng phương pháp Support Vector Machines, Luận văn thạc sĩ khoa học Cơng nghệ thơng tin, trường Đại học Bách Khoa Hà nội.
[7]. Nguyễn Thị Thúy Kiều (2011), Phân loại tự động văn bản trong hệ thống điều hành tác nghiệp tại Sở Thơng tin truyền thơng Quảng Nam, Luận văn thạc sỹ khoa học máy tính, trường Đại học Đà Nẵng.
[8]. Trần Thị Oanh (2008), Mơ hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng việt, luận văn thạc sĩ, trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội.
[9]. Nguyễn Thị Hải Yến (2007), "Phân lớp bán giám sát và ứng dụng thuật tốn SVM vào phân lớp trang web".
Tiếng Anh:
[10]. Arturo Montejo-Rasez (2005), "Automatic Text Categorization of document in the High Energy Physics domain".
[11].Thorsten Joachims (1998), "Text Categorization with Support Vector Machines:Learning with Many Relevant Features", University Dortmund.
[12].Rong Hu (2011), "Active Learning for Text Classification", School of Computing, Dublin Institute of Techonology.
[13].J.Oles (2001), "Text Catergorization Base on Regulazired Linear Classification Methods", Mathematical Sciences Department, IBM T.J Watson Research Center, NewYork.
[14]. Corinna Cortes (1995), "Support-Vector Networks", Machine Learning, tr. 20, pp.273-297.
[15]. Vapnik (1963), "Pattern recognition using generalized portrait method",
Automation and Remote Control, tr. 24, 774-780.
[16]. Chervonenkis (1964), "further develop the Generalized Portrait algorithm".
Internet:
[17]. Nghiên cứu tổng quan về học máy, truy cập ngày-02/01/2017, tại trang web
http://luanvan.net.vn/luan-van/tong-quan-ve-hoc-may-71851/.
[18]. Các phương pháp học máy, truy cập ngày-27/01/2017, tại trang web
https://caphuuquan.blogspot.com/2016/05/machine-learning-la-gi.html.
[19]. Học bán giám sát, truy cập ngày-27/3/2017, tại trang web
https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_n%E1%BB%ADa_gi%
C3%A1m_s%C3%A1t.
[20]. Học tăng cường, truy cập ngày-02/3/2017, tại trang web
https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_t%C4%83ng_c%C6%B
0%E1%BB%9Dng.
[21]. Các ứng dụng của học máy, truy cập ngày-14/4/2017, tại trang web
https://csstudyfun.wordpress.com/2008/07/26/cac-khai-
ni%E1%BB%87m-trong-h%E1%BB%8Dc-may-machine-learning-1-
t%E1%BB%95ng-quan/.
[22]. ChristianSPerone, truy cập ngày-24/4/2017, tại trang web
https://plus.google.com/+ChristianSPerone.
[23]. Phạm Anh Phương P. Pattern Recognition Support Vector Machines, , truy cập ngày-12/5/2017, tại trang web