7. Nội dung luận văn
3.5. Đánh giá kết quả thực nghiệm
Việc tiến hành thực nghiệm trên tập dữ liệu cần phân lớp với số lượng văn bản là 440 cho 10 phân lớp cho kết quả tương đối chính xác.
Do số lượng dữ liệu kiểm thử cho từng lớp cĩ số chênh lệch chưa cao nên khả năng dự đốn của bộ phân lớp khá tốt. Muốn khả năng dự đốn cĩ độ chính xác cao hơn nữa thì tập dữ liệu huấn luyện cần phải học thêm nhiều về số lượng, đảm bảo cung cấp đầy đủ các ràng buộc ….
Ngồi ra việc xác định từ, cụm từ trong văn bản hành chính sử dụng cho việc huấn luyện cũng là một điều đáng quan tâm, vì cĩ nhiều văn bản con người đọc cịn
chưa xác định được xếp vào thể loại nào. Hiện nay cĩ rất nhiều phương pháp học máy để ứng dụng trong việc phân loại tài liệu tiếng Việt, tuy nhiên cĩ rất ít đề tài viết về ứng dung các phương pháp học máy để phân loại văn bản hành chính nên làm cho việc so sánh, đánh giá kết quả cũng cịn hạn chế.
Khi tiến hành thực nghiệm chương trình thực nghiệm chiếm khơng gian bộ nhớ và tốc độ xử lý của CPU của máy tính khơng quá cao theo hình 3.8
Hình 3.8. Thơng số hệ thống chương trình thử nghiệm sử dụng
Kết quả thực nghiệm cho thấy xây dựng bộ phân lớp văn bản tiếng việt sử dụng mơ hình SVM cho kết quả rất tốt.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm cĩ thể khẳng định rằng bài tốn phân lớp văn bản hành chính thực sự cĩ ý nghĩa rất quan trọng trong việc quản lý, tìm kiếm, lưu trữ thơng tin trên nguồn tài nguyên lớn, đặc biệt với nguồn tài nguyên về lĩnh vực hành chính.
Luận văn tìm hiểu, nghiên cứu các thuật tốn phổ biến hiện nay, từ đĩ đưa ra phương pháp và thuật tốn ứng dụng vào bài tốn phân lớp dữ liệu văn bản hành chính.
Dưới sự hướng dẫn tận tình của PGS.TS Huỳnh Cơng Pháp trong thời gian nghiên cứu và thực hiện viết luận văn tốt nghiệp với đề tài “Nghiên cứu phương pháp học máy cĩ giám sát để phân loại văn bản tại Văn phịng UBND tỉnh Quảng Ngãi” em đã rút ra một số nhận xét sau
1. Kết quả đạt được
- Nghiên cứu lý thuyết tổng quan về học máy và học máy cĩ giám sát.
- Nghiên cứu lý thuyết tổng quan về phân lớp và phân loại văn bản tiếng việt với các bài tốn như phân loại tin tức điện tử, phân loại văn bản trong tài chính, ngân hàng, phân lại thư rác…
- Nghiên cứu lý thuyết một số thuật tốn phân loại như KNN, Nạve Bayes và SVM từ đĩ đưa ra bài tốn áp dụng vào phân loại văn bản trong lĩnh vực hành chính.
- Nghiên cứu, xây dựng từ điển áp dụng vào việc tách từ. - Xây dựng tập dữ liệu nhãn/lớp áp dụng vào việc huấn luyện.
- Xây dựng chương trình thực nghiệm cho việc phân loại văn bản. Chương trình được viết trên ngơn ngữ c# trong bộ Microsoft Visual Studio Community 2017, tích hợp module tiền xử lý văn bản và module phân lớp (SVM). Kết quả thực nghiệm trên tập dữ liệu về lĩnh vực hành chính cho thấy kết quả phân loại khá tốt 96.93% trên tổng số 440 văn bản đầu vào.
2. Hạn chế
- Do hạn chế về mặt thời gian và kiến thức nên luận văn chỉ dừng lại ở việc sử dụng hàm nhân Linear chưa sử dụng các hàm nhân khác như Polynomial, Radial Basic Function nên việc so sánh để chọn ra phương án tốt nhất là cịn hạn chế. Ngồi ra cịn hạn chế về việc nghiên cứu văn phong được sử dụng trong văn bản hành chính.
- Tác giả chỉ mới tiến hành thử nghiệm bài tốn phân lớp với bộ dữ liệu chưa đủ lớn, thử nghiệm cịn đơn giản.
3. Hướng phát triển
- Luận văn tiếp tục hồn thiện các mặt hạn chế được đưa ra ở trên đĩ là sử dụng một số hàm nhân khác để tìm ra được bài tốn hiệu quả nhất đối với bài tốn phân loại văn bản trong lĩnh vực hành chính.
- Nghiên cứu xây dựng bộ dữ liệu lớn hơn đáp ứng trong cơng việc phân lớp cho văn bản hành chính.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1]. Trần Cao Đệ, Phạm Nguyên Khang (2012), "Phân loại văn bản với máy học vector hỗ trợ và cây quyết định", Tạp chí khoa học, tr. 52-63.
[2]. Nguyễn Linh Giang N.M.H. (2004), "Phân loại văn bản tiếng Việt với bộ phân loại vector hỗ trợ SVM", Bài báo khoa học, Hà Nội.
[3]. Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2006), "Phân loại văn bản tiếng Việt với bộ phân loại vectơ hỗ trợ SVM", Tạp chí CNTT&TT.
[4]. Yến N.T.H. (2007), "Phân lớp bán giám sát và ứng dụng thuật tốn SVM vào phân lớp trang web".
Tiếng Anh:
[5]. Arturo Montejo-Rasez (2005), "Automatic Text Categorization of document in the High Energy Physics domain".
[6]. Chervonenkis V.a. (1964), "further develop the Generalized Portrait algorithm". [7]. Chih-Chung Chang and Chil-Jen Lin (2004), "LIBSVM: a Library for Support
Vector Machines", National Taiwan University.
[8]. Corinna Cortes V.V. (1995), "Support-Vector Networks", Machine Learning, tr. 20, pp.273-297.
[9]. Friedman J. (1996), "Another Approach to Polychotomous Classifications",
Technical report, Stanford university, US.
[10]. J. Platt N.C.a.J.S.-T. (2000), "Large Margin DAGs for Multiclass Classification",
In Advances in Neural Information Processing Systems. volume 2, tr. pp. 547-
553.
[11]. J.Oles T.Z.v.F. (2001), "Text Catergorization Base on Regulazired Linear Classification Methods", Mathematical Sciences Department, IBM T.J Watson Research Center, NewYork.
[12]. Joachims T. (1998), ""Making large-Scale Support Vector Machine Learning Practical”, in Advances in Kernel Methods - Support Vector Learning", B. Schưlkopf and C. Burges and A. Smola (ed.), MIT-Press, Cambridge, MA.
[13]. R. Collobert and S. Bengio, "Svmtorch: Support Vector Machines for Large- scale Regression Problems", The Journal of Machine Learning Research, . Vol. 1, 2001, tr. pp 143 – 160.
[14]. Rong Hu (2011), "Active Learning for Text Classification", School of Computing, Dublin Institute of Techonology.
[15]. Thorsten Joachims (1998), "Text Categorization with Support Vector Machines: Learning with Many Relevant Features", University Dortmund.
[16]. Vapnik V.a.A.L. (1963), "Pattern recognition using generalized portrait method",
Automation and Remote Control, tr. 24, 774-780.
Internet
[17]. Các phương pháp học máy, truy cập ngày-27/01/2017, tại trang web
https://caphuuquan.blogspot.com/2016/05/machine-learning-la-gi.html.
[18]. Các ứng dụng của học máy, truy cập ngày-14/4/2017, tại trang web
https://csstudyfun.wordpress.com/2008/07/26/cac-khai-ni%E1%BB%87m-trong- h%E1%BB%8Dc-may-machine-learning-1-t%E1%BB%95ng-quan/.
[19]. ChristianSPerone, truy cập ngày-24/4/2017, tại trang web https://plus.google.com /+ChristianSPerone.
[20]. Nghiên cứu tổng quan về học máy, truy cập ngày-02/01/2017, tại trang web
http://luanvan.net.vn/luan-van/tong-quan-ve-hoc-may-71851/.
[21]. Học bán giám sát, truy cập ngày-27/3/2017, tại trang web https://vi.wikipedia.org /wiki/H%E1%BB%8Dc_n%E1%BB%ADa_gi%C3%A1m_s%C3%A1t.
[22]. Học tăng cường, truy cập ngày-02/3/2017, tại trang web https://vi.wikipedia.org/ wiki/H%E1%BB%8Dc_t%C4%83ng_c%C6%B0%E1%BB%9Dng.
[23]. Phạm Anh Phương P. Pattern Recognition Support Vector Machines, , truy cập ngày-12/5/2017, tại trang web https://www.google.com.vn /?gws _rd= ssl#q =LTND03-SVMs.
S6: dUl/QD-DHSP Da Nfmg, ngay OJ thcing 01 nam 2017
QUYETDfNH
.. N� vi�c gi.to d� t�ti va trach nhi�m hu6'ng dfin lu�n van th�c si HJ�U TRU'ONG TRU'ONG D�I HQC SU' PHJ).M
Can cfr Nghj djnh s6 32/CP ngay 04 thang 4 nam 1994 cua Chinh phu ve vi�c thanh l�p D?i h9c Ba N5ng;
Can ctr Thong tu s6 08/2014/TT-BGDDT ngay 20/3/2014 .cua Be) GD&DT ve vi?c ban hanh Quy cbe t6 cht'.rc Va hot;1t d9ng Clla dt;1i hQC vung Va cac ca SO giao d\IC dt;1i hQC thnnh vien;
Cfm cfr Quy@t djnh s6 6950/QB-DHDN ngay O 1/12/2014 cua Giam d6c Dt;1i h9c
Dft N5ng ban hanh Quy djnh nhi�m vv, quy€n ht;1n cua Dt;1i h9c Da N5ng, cac ca sa giao
d\lC dt;1i hQC thanh Vien Va. CaC dan VJ tnJC thu9c;
Can cfr Thong tu s6 15/2014/TT-BGDDT ngay 15/5/2014 cua Be) Giao dvc va Dao tt;10 v8 vi�c ban hanh Quy ch� Dao tt;10 trinh d9 th�c sI;
Can cfr Quy�t djnh s6 3 160/QD-DHDN ngay 22/6/2015 cua Giam d6c Dt;1i h9c Da N�ng v€ vi9c cong nh?n h9c vien cao h9c trung tuy�n;
Can cu· Quy�t dinh 1060/QD-DHSP ngay 01/11/2016 cua Hi�u tru&ng Trncmg Dt;1i h9c Su ph?m- DHDN ve vi�c ban hanh Quy djnh dao tt;10 trinh de) tht;1c sI;
Xet de nghj cua ong Tnr&ng Phong Dao tt;10, QUYET DfNH:
Oi�u l: Giao cho h9c vien Le Thanh Trang, chuyen nganh H� th6ng thong tin, kh6a 31 thvc hi�n d� tai lu�n van Nghien cu·u phuong phcip h9c may a€ phdn lor;ii van ban tr;ii Van phr)ng UBND tlnh Quang Ngai, du6i S\l' hu6ng d�n cua TS. Huynh Cong Phcip, Truong Cao aling Cong nghi thong tin- DHDN;
Di�u 2: H9c vien cao h9c va nguai hu6ng d�n c6 ten 6 Di�u 1 duqc huang dtc quyen !qi va thµc hi�n nhi�m V\l dung theo Quy ch� dao tt;10 trinh d9 tlwc Sl do B('> Giita d�JC va Dao t<;'!O ban hanh va Quy dinh ve dao tc:to trinh d9 th�c sI cua Dt;1i h9c Da N5ng;
Hi6u 3: Cf1c ong (ba) Truang phong T6 chfrc - Hanh chinh, Dao tt;10, K� hot;1ch -Tai chinh, de Khoa hfru quan, nguo·i hu6·ng dfin lu?n van va h9c vien c6 ten tren can Ctr Quy€t dinh thi hanh. ,v
HI.¢ U TRU'ONG
No'i 11h�11: - Nhll' DiJu 3,
---
1 l. Trucrng ban kiem phi�u c6ng b6 k�t qua 12. K�t lu�n cua Hc)i d6ng
b) Yeu du chinh, sfra v� n9i dung:
,..r-- ?
({cLu ( ( <.(1
d) DiSm danh gia: B�ng s6: __ ·...,t>f-i __ B�ng chii':_-"-{y=
j'l-' __ {k...._..�-;__._a ... a�/:.,...,z 13. Tac gia lu� van phat bi�u y ki�n
14. Chu tjch Hc)i d6ng tuyen b6 b� m�c
THU KY HOIDONG CH
J_. � N �f�(Jf'd
\�r- Yz� . 'XAC NH�N CUA T_ . R , �
U'0NG DA.I HQC Sll PH.i:\,M
NHAN XET PI-L\N BIEN LtlAN VAN THAC SY . . . .
HQ va ten ngm'>'i nh�n xc.t: l-lm111g Thi Thanh l-h1
H9c ham:
ChU)'Cl1 nganh: C6ng ngh� Thong tin
Hoc vi: . . Ti�n sy-
Co· quan cong tac: Tru6'ng Di;ii Jwc Kinh TJ, 8�1i hoc 8a N�ng
Hq va ten hqc vien cao h9c: LI� THANH TRANG
Ten d� tai lu�n van: Nghien CLJ'Ll phum1g phap hoc may Cl) giam sat c1� phan loc;ii Yan ban t.;ii van phong UBND T1nh Quang Ngai.
\1 KIEN NH�N XET
1. Tinh dp thi�t ctia d� tai:
Ngay nay. vi¢c t'.rng d�rng CNTT vao trong c6ng tac quan lf cCmg nhu h6 Lrq ra quy�t djnh 11gi1y cang ph6 bi�n. Vi¢c t'.rng d�1112 CNTT elf phfm lo�1i cac van ban theo i-t:rng lo�1i, tCrng chC1 d� plwc v�, vi�c luu trO' va tim ki€m c1<\i v6i cac co quan, O?C bi�t 'lc:l CO' quan hanh chinh la mot nhu du thi�t tl11,rc. Mot trong nhCi'ng ky thu�t phl,IC Vl;I vi�c phan lo�i nay la phLwng phap may b9c. T�i _UBND tinh Qui1ng Ngai, hang nam cc) khoang 15.000 van ban duo·c ban ht.mh, chua tinh d6n nht1'ng van b:111 d0n. Vl th�. d� tai Nghien cfru phum1g phap h9c may c6 giam s,H de phan lo<,1i van ban l�i van ph6ng UBND Ti'nh Quang Ngai C() linh khoa hQC va Lh\fC ti�n cao. dap l'.rng nhu du dp thi�L cC,a elem vi.
2. Co· so· khoa hQC va tl11.rc tiin va phum1g phap NC:
Lu�n van c6 tfnh khoa hoc va tht,rc ti�n. Phuung phap nghien CLl'U phtl lwp.
3. Kit qui1 nghien Cll'U
LU?ll v5n duqc trlnh bay lrong 55 trang (tinh ca ph�n 1110' dau) chia lam 03 clmang.
Clmang I, dai 17 trang. lu�n van trinh bay 1)1 thuy�t v� may hoc, phan 16p dCi' li�u, phan 16p van ban va de cong trinh lien quan d�n fr l)1 ng6n ngO' tv nhien.
Chuc.mg 2 d::ii 20 trang. lu(m van gi6i thi�u v� h� th6ng cac vun ban quan li1 nha mr6·c. Ph.in cu6i la gi<)'i thic;u vf. thu?l toan phan lo?i SVM d6 ph{in lo�i van b,in.
Name of thesis: Studies on .supervised machine learning to classify documents in the Office of Quang Ngai Provincial People's Committee
Major: Information System
Full name of Master student: Le Thanh Trang
Supervisors: Assoc. Prof. Huynh Cong Phap, Ph.D.
Training institution: Danang Education University, the University ofDanang
Summary:
The thesis consists of three chapters: Chapter 1 is a study on overview of machine learning theory, data stratification and text classification; Chapter 2 is the concept of State administrative documents and Support Vector Machine (SVM); Chapter 3 is a pilot software program using supervised machine learning to classify documents at Quang Ngai Provincial People's Committee Office.
Based on the theory, the software is constructed for the classification of administrative documents. It is developed in accordance with the regulations, which are defined in the laws, decrees, circulars and guidance of the competent State's units.
As writing the software, the writer also studied the information classification framework, which is made by the State Reco11ds Management and Archives Department of Vietnam.
Although it is just a test software, the results are effective and satisfactory to the actual situation in the Office of Quang Ngai Provincial People's Committee.
The thesis's science significance is the successful combination of study and application of machine learning and multilayer SVM to classify documents following topics.
The thesis's practical consequence is the suitable and effective application of the supervised machine learning in the Office of Quang Ngai Provincial People's Committee.
However, there are some limitations and shortcomings in the research. The thesis's author only uses Linear and did not apply Polynomial, Radial Basic Function. The author uses multilayer SVM with limited data, so the test is still simple. The study of administrative documents styles is not vanous.
Student
Assoc.Prof.Huynh Cong Phap, Ph.D Le Thanh Trang