7. Nội dung luận văn
3.4. Xây dựng chương trình thử nghiệm
3.4.1. Mơi trường thực nghiệm
Bảng 3.3. Thiết bị thực nghiệm
STT Cấu hình Thơng số
1 CPU Intel® Core™ i3-4030 @ 1.90GHZ
2 RAM 4.00 GB
3 OS Windows 10 – 64-bit
3.3.2 Thư viện nguồn hỗ trợ
Bảng3.4. Thư viện nguồn hỗ trợ
STT Tên thư viện Nguồn
1 LIBSVM https://www.csie.ntu.edu.tw/~cjlin/libsvm/
2 Từ điển tách từ http://viet.jnlp.org/dongdu
3.4.3. Dữ liệu và chương trình
Dữ liệu dùng để thực nghiệm bài tốn phân lớp văn bản được lấy từ CSDL văn bản của Văn phịng UBND tỉnh Quảng Ngãi.
Tập dữ liệu huấn luyện bao gồm 200 văn bản được trích rút đặc trưng phục vụ cho việc phân tích các chủ đề.
10 chủ đề ( mỗi chủ đề chứa hơn 20 văn bản) phục vụ cho việc kiểm thử chương trình.
Dữ liệu từ điển chứa 309 từ và cụm từ phục vụ cho việc tách từ.
Bảng 3.5. Dữ liệu học và kiểm tra
STT Tên loại Số lượng
1 Tổng số dữ liệu 640
2 Tập dữ liệu huấn luyện 200
3 Tập dữ liệu kiểm thử 440
Phân lớp dữ liệu được xây dựng dựa trên 10 lớp bao gồm: CNTT, dân số, giao thơng, nơng nghiệp, thủy sản, tài chính, xây dựng, y tế, xúc tiến, mơi trường. Số lượng văn bản dùng cho việc huấn luyện cũng như số lượng văn bản cho mỗi lớp được mơ tả trong bảng 3.6.
Bảng 3.6. Tập số lượng dữ liệu huấn luyện
STT Phân lớp Thư mục Số lượng văn bản
1 Cơng nghệ thơng tin CNTT 20
2 Dân số Dan so 15
3 Giao thơng Giao thong 20
4 Nơng nghiệp Nong nghiep 25
5 Thủy sản Thuy san 10
6 Tài chính Tài chính 20
7 Xây dựng Xay dung 30
8 Y tế Y te 25
9 Xúc tiến đầu tư Xuc tien 20
10 Mơi trường moi truong 15
Tổng số 200
Tập dữ liệu dùng để kiểm thử được miêu tả trong bảng 3.7, số lượng văn bản trong mỗi lớp tỷ lệ với số lượng văn bản trong tập dữ liệu huấn luyện.
Bảng 3.7. Tập số lượng dữ liệu kiểm thử
STT Phân lớp Thư mục Số lượng văn bản
1 Cơng nghệ thơng tin CNTT 60
2 Dân số Dan so 36
3 Giao thơng Giao thong 56
4 Nơng nghiệp Nong nghiep 65
5 Thủy sản Thuy san 16
6 Tài chính Tai chinh 33
7 Xây dựng Xay dung 43
8 Y tế Y te 49
9 Xúc tiến Xuc tien 48
10 Mơi trường moi truong 34
Tổng số 440
3.4.4. Xây dựng bộ từ điển danh từ
Từ tập dữ liệu học ban đầu sau khi chuẩn hĩa văn bản ta xây dựng bộ từ điển bao gồm các từ và các cụm từ dùng để gán nhãn. Để xây dựng bộ từ điển ta phải xây dựng thủ cơng dựa trên việc gán nhãn và lưu vào dữ liệu. Bảng 3.8 thể hiện việc gán nhãn từ loại mà luận văn sử dụng.
Bảng 3.8. Gán nhãn từ loại Danh từ Gán nhãn Chủ đề Tin học 1 CNTT CNTT 1 CNTT Giới tính 2 dân số Gia đình 2 dân số .... ... ...
Ơ nhiễm 10 mơi trường
3.4.5. Giao diện chương trình
Chương trình thử nghiệm được viết trên ngơn ngữ C# trong bộ Microsoft Visual Studio Community 2017 đồng thời sử dụng thư viên hỗ trợ như Libsvm.
Hình 3.2. Giao diện chương trình
3.4.6. Các bước sử dụng chương trình thử nghiệm
Bước đầu tiên ta sử dụng bộ từ điển khoảng 6000 từ do Lưu Tuấn Anh và Yamamoto Kazuhide biên soạn, phục vụ cho việc tách từ. Chi tiết của từ điển được mơ tả ở hình 3.4.
Hình 3.3. Dữ liệu từ điển
Bước thứ hai ta chọn thư mục chứa dữ liệu văn bản cần phân loại. Văn bản cần phân loại cĩ dạng .doc hoặc .docx.
Bước thứ ba chọn dữ liệu đã được huấn luyện (training). Vì theo ý tưởng ban đầu nghiên cứu về luận văn là học máy cĩ giám sát nên việc gán nhãn cho dữ liệu huấn luyện phải gán nhãn bằng tay, việc gán nhãn này sử dụng file.csv để đưa thêm dữ liệu mới cần được huấn luyện, chi tiết của dữ liệu gán nhãn được mơ tả ở hình 3.5.
Sau khi gán nhãn cho tập dữ liệu ta tiến hành huấn luyện cho tâp gán nhãn.
Hình 3.5. Dữ liệu đã được huấn luyện
Bước thứ ba là bước xác định k-fold. K-fold là một trong những phương pháp kiểm tra độ chính xác của máy học (Cross-validation), với phương pháp này tập dữ liệu được chia đều thành k tâp (folds) cĩ kính thước xấp xỉ nhau. Dây là kỹ thuật chủ yếu được sử dụng trong xây dựng phân tích dự báo (predictive Model). Trong đĩ dữ liệu gốc được chia thành n phần bằng nhau (n-fold), và quá trình Train/Test Model thực hiện lặp lại n lần. Tại mỗi lần Train/Test Model, một phần dữ liệu dùng để Test và (n-1) phần cịn lại dùng để Train. (Người ta đã chứng minh 10-fold Cross- Validation là tối ưu).
Bước thứ tư là xác định hằng số C là một tham số tùy chọn C > 0 (C càng lớn thì lượng phạt lỗi càng cao). Hằng số C được dùng để điều chỉnh tầm quan trọng giữa margin và sự phạt lỗi.
Sau khi các bước đã được chọn ta tiến hành thực hiện việc phân loại văn bản, chi tiết của việc chọn ở các bước được miêu tả ở hình 3.7.
Hình 3.6. Sau khi đã chọn xong các mục
3.4.7. Kết quả phân loại văn bản
Sau khi thực hiện phân loại ta được kết quả như hình 3.8
Qua bảng 3.9 cho thấy sau khi phân loại và so sánh với kết quả giữa văn bản kiểm thử và văn bản được máy phân loại thu được kết quả phần tăm trung bình là 96.93%.
Bảng 3.9. Tỷ lệ % phân loại văn bản
Bảng đánh giá kết quả phân loại văn bản
STT Phân lớp Tập kiểm thử Tập phân loại bằng máy Tập phân loại sai phân lớp Tỉ lệ % 1 CNTT 60 59 1 98.33% 2 Dân số 36 35 1 97.22% 3 Giao thơng 56 51 5 91.07% 4 Mơi trường 34 34 0 100% 5 Nơng nghiệp 65 65 0 100% 6 Thủy sản 16 15 1 93.75% 7 Tài chính 33 33 0 100% 8 Xây dựng 43 40 3 93.02% 9 Xúc tiến 48 48 0 100% 10 Y tế 49 47 1 95.91% Phần trăm trung bình 96.93%
3.5. ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM
Việc tiến hành thực nghiệm trên tập dữ liệu cần phân lớp với số lượng văn bản là 440 cho 10 phân lớp cho kết quả tương đối chính xác.
Do số lượng dữ liệu kiểm thử cho từng lớp cĩ số chênh lệch chưa cao nên khả năng dự đốn của bộ phân lớp khá tốt. Muốn khả năng dự đốn cĩ độ chính xác cao hơn nữa thì tập dữ liệu huấn luyện cần phải học thêm nhiều về số lượng, đảm bảo cung cấp đầy đủ các ràng buộc ….
Ngồi ra việc xác định từ, cụm từ trong văn bản hành chính sử dụng cho việc huấn luyện cũng là một điều đáng quan tâm, vì cĩ nhiều văn bản con người đọc cịn
chưa xác định được xếp vào thể loại nào. Hiện nay cĩ rất nhiều phương pháp học máy để ứng dụng trong việc phân loại tài liệu tiếng Việt, tuy nhiên cĩ rất ít đề tài viết về ứng dung các phương pháp học máy để phân loại văn bản hành chính nên làm cho việc so sánh, đánh giá kết quả cũng cịn hạn chế.
Khi tiến hành thực nghiệm chương trình thực nghiệm chiếm khơng gian bộ nhớ và tốc độ xử lý của CPU của máy tính khơng quá cao theo hình 3.8
Hình 3.8. Thơng số hệ thống chương trình thử nghiệm sử dụng
Kết quả thực nghiệm cho thấy xây dựng bộ phân lớp văn bản tiếng việt sử dụng mơ hình SVM cho kết quả rất tốt.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm cĩ thể khẳng định rằng bài tốn phân lớp văn bản hành chính thực sự cĩ ý nghĩa rất quan trọng trong việc quản lý, tìm kiếm, lưu trữ thơng tin trên nguồn tài nguyên lớn, đặc biệt với nguồn tài nguyên về lĩnh vực hành chính.
Luận văn tìm hiểu, nghiên cứu các thuật tốn phổ biến hiện nay, từ đĩ đưa ra phương pháp và thuật tốn ứng dụng vào bài tốn phân lớp dữ liệu văn bản hành chính.
Dưới sự hướng dẫn tận tình của PGS.TS Huỳnh Cơng Pháp trong thời gian nghiên cứu và thực hiện viết luận văn tốt nghiệp với đề tài “Nghiên cứu phương pháp học máy cĩ giám sát để phân loại văn bản tại Văn phịng UBND tỉnh Quảng Ngãi” em đã rút ra một số nhận xét sau
1. Kết quả đạt được
- Nghiên cứu lý thuyết tổng quan về học máy và học máy cĩ giám sát.
- Nghiên cứu lý thuyết tổng quan về phân lớp và phân loại văn bản tiếng việt với các bài tốn như phân loại tin tức điện tử, phân loại văn bản trong tài chính, ngân hàng, phân lại thư rác…
- Nghiên cứu lý thuyết một số thuật tốn phân loại như KNN, Nạve Bayes và SVM từ đĩ đưa ra bài tốn áp dụng vào phân loại văn bản trong lĩnh vực hành chính.
- Nghiên cứu, xây dựng từ điển áp dụng vào việc tách từ. - Xây dựng tập dữ liệu nhãn/lớp áp dụng vào việc huấn luyện.
- Xây dựng chương trình thực nghiệm cho việc phân loại văn bản. Chương trình được viết trên ngơn ngữ c# trong bộ Microsoft Visual Studio Community 2017, tích hợp module tiền xử lý văn bản và module phân lớp (SVM). Kết quả thực nghiệm trên tập dữ liệu về lĩnh vực hành chính cho thấy kết quả phân loại khá tốt 96.93% trên tổng số 440 văn bản đầu vào.
2. Hạn chế
- Do hạn chế về mặt thời gian và kiến thức nên luận văn chỉ dừng lại ở việc sử dụng hàm nhân Linear chưa sử dụng các hàm nhân khác như Polynomial, Radial Basic Function nên việc so sánh để chọn ra phương án tốt nhất là cịn hạn chế. Ngồi ra cịn hạn chế về việc nghiên cứu văn phong được sử dụng trong văn bản hành chính.
- Tác giả chỉ mới tiến hành thử nghiệm bài tốn phân lớp với bộ dữ liệu chưa đủ lớn, thử nghiệm cịn đơn giản.
3. Hướng phát triển
- Luận văn tiếp tục hồn thiện các mặt hạn chế được đưa ra ở trên đĩ là sử dụng một số hàm nhân khác để tìm ra được bài tốn hiệu quả nhất đối với bài tốn phân loại văn bản trong lĩnh vực hành chính.
- Nghiên cứu xây dựng bộ dữ liệu lớn hơn đáp ứng trong cơng việc phân lớp cho văn bản hành chính.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1]. Trần Cao Đệ, Phạm Nguyên Khang (2012), "Phân loại văn bản với máy học vector hỗ trợ và cây quyết định", Tạp chí khoa học, tr. 52-63.
[2]. Nguyễn Linh Giang N.M.H. (2004), "Phân loại văn bản tiếng Việt với bộ phân loại vector hỗ trợ SVM", Bài báo khoa học, Hà Nội.
[3]. Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2006), "Phân loại văn bản tiếng Việt với bộ phân loại vectơ hỗ trợ SVM", Tạp chí CNTT&TT.
[4]. Yến N.T.H. (2007), "Phân lớp bán giám sát và ứng dụng thuật tốn SVM vào phân lớp trang web".
Tiếng Anh:
[5]. Arturo Montejo-Rasez (2005), "Automatic Text Categorization of document in the High Energy Physics domain".
[6]. Chervonenkis V.a. (1964), "further develop the Generalized Portrait algorithm". [7]. Chih-Chung Chang and Chil-Jen Lin (2004), "LIBSVM: a Library for Support
Vector Machines", National Taiwan University.
[8]. Corinna Cortes V.V. (1995), "Support-Vector Networks", Machine Learning, tr. 20, pp.273-297.
[9]. Friedman J. (1996), "Another Approach to Polychotomous Classifications",
Technical report, Stanford university, US.
[10]. J. Platt N.C.a.J.S.-T. (2000), "Large Margin DAGs for Multiclass Classification",
In Advances in Neural Information Processing Systems. volume 2, tr. pp. 547-
553.
[11]. J.Oles T.Z.v.F. (2001), "Text Catergorization Base on Regulazired Linear Classification Methods", Mathematical Sciences Department, IBM T.J Watson Research Center, NewYork.
[12]. Joachims T. (1998), ""Making large-Scale Support Vector Machine Learning Practical”, in Advances in Kernel Methods - Support Vector Learning", B. Schưlkopf and C. Burges and A. Smola (ed.), MIT-Press, Cambridge, MA.
[13]. R. Collobert and S. Bengio, "Svmtorch: Support Vector Machines for Large- scale Regression Problems", The Journal of Machine Learning Research, . Vol. 1, 2001, tr. pp 143 – 160.
[14]. Rong Hu (2011), "Active Learning for Text Classification", School of Computing, Dublin Institute of Techonology.
[15]. Thorsten Joachims (1998), "Text Categorization with Support Vector Machines: Learning with Many Relevant Features", University Dortmund.
[16]. Vapnik V.a.A.L. (1963), "Pattern recognition using generalized portrait method",
Automation and Remote Control, tr. 24, 774-780.
Internet
[17]. Các phương pháp học máy, truy cập ngày-27/01/2017, tại trang web
https://caphuuquan.blogspot.com/2016/05/machine-learning-la-gi.html.
[18]. Các ứng dụng của học máy, truy cập ngày-14/4/2017, tại trang web
https://csstudyfun.wordpress.com/2008/07/26/cac-khai-ni%E1%BB%87m-trong- h%E1%BB%8Dc-may-machine-learning-1-t%E1%BB%95ng-quan/.
[19]. ChristianSPerone, truy cập ngày-24/4/2017, tại trang web https://plus.google.com /+ChristianSPerone.
[20]. Nghiên cứu tổng quan về học máy, truy cập ngày-02/01/2017, tại trang web
http://luanvan.net.vn/luan-van/tong-quan-ve-hoc-may-71851/.
[21]. Học bán giám sát, truy cập ngày-27/3/2017, tại trang web https://vi.wikipedia.org /wiki/H%E1%BB%8Dc_n%E1%BB%ADa_gi%C3%A1m_s%C3%A1t.
[22]. Học tăng cường, truy cập ngày-02/3/2017, tại trang web https://vi.wikipedia.org/ wiki/H%E1%BB%8Dc_t%C4%83ng_c%C6%B0%E1%BB%9Dng.
[23]. Phạm Anh Phương P. Pattern Recognition Support Vector Machines, , truy cập ngày-12/5/2017, tại trang web https://www.google.com.vn /?gws _rd= ssl#q =LTND03-SVMs.
S6: dUl/QD-DHSP Da Nfmg, ngay OJ thcing 01 nam 2017
QUYETDfNH
.. N� vi�c gi.to d� t�ti va trach nhi�m hu6'ng dfin lu�n van th�c si HJ�U TRU'ONG TRU'ONG D�I HQC SU' PHJ).M
Can cfr Nghj djnh s6 32/CP ngay 04 thang 4 nam 1994 cua Chinh phu ve vi�c thanh l�p D?i h9c Ba N5ng;
Can ctr Thong tu s6 08/2014/TT-BGDDT ngay 20/3/2014 .cua Be) GD&DT ve vi?c ban hanh Quy cbe t6 cht'.rc Va hot;1t d9ng Clla dt;1i hQC vung Va cac ca SO giao d\IC dt;1i hQC thnnh vien;
Cfm cfr Quy@t djnh s6 6950/QB-DHDN ngay O 1/12/2014 cua Giam d6c Dt;1i h9c
Dft N5ng ban hanh Quy djnh nhi�m vv, quy€n ht;1n cua Dt;1i h9c Da N5ng, cac ca sa giao
d\lC dt;1i hQC thanh Vien Va. CaC dan VJ tnJC thu9c;
Can cfr Thong tu s6 15/2014/TT-BGDDT ngay 15/5/2014 cua Be) Giao dvc va Dao tt;10 v8 vi�c ban hanh Quy ch� Dao tt;10 trinh d9 th�c sI;
Can cfr Quy�t djnh s6 3 160/QD-DHDN ngay 22/6/2015 cua Giam d6c Dt;1i h9c Da N�ng v€ vi9c cong nh?n h9c vien cao h9c trung tuy�n;
Can cu· Quy�t dinh 1060/QD-DHSP ngay 01/11/2016 cua Hi�u tru&ng Trncmg Dt;1i h9c Su ph?m- DHDN ve vi�c ban hanh Quy djnh dao tt;10 trinh de) tht;1c sI;
Xet de nghj cua ong Tnr&ng Phong Dao tt;10, QUYET DfNH:
Oi�u l: Giao cho h9c vien Le Thanh Trang, chuyen nganh H� th6ng thong tin, kh6a 31 thvc hi�n d� tai lu�n van Nghien cu·u phuong phcip h9c may a€ phdn lor;ii van ban tr;ii Van phr)ng UBND tlnh Quang Ngai, du6i S\l' hu6ng d�n cua TS. Huynh Cong Phcip, Truong Cao aling Cong nghi thong tin- DHDN;
Di�u 2: H9c vien cao h9c va nguai hu6ng d�n c6 ten 6 Di�u 1 duqc huang dtc quyen !qi va thµc hi�n nhi�m V\l dung theo Quy ch� dao tt;10 trinh d9 tlwc Sl do B('> Giita d�JC va Dao t<;'!O ban hanh va Quy dinh ve dao tc:to trinh d9 th�c sI cua Dt;1i h9c Da N5ng;
Hi6u 3: Cf1c ong (ba) Truang phong T6 chfrc - Hanh chinh, Dao tt;10, K� hot;1ch -Tai chinh, de Khoa hfru quan, nguo·i hu6·ng dfin lu?n van va h9c vien c6 ten tren can Ctr Quy€t dinh thi hanh. ,v
HI.¢ U TRU'ONG
No'i 11h�11: - Nhll' DiJu 3,
---
1 l. Trucrng ban kiem phi�u c6ng b6 k�t qua 12. K�t lu�n cua Hc)i d6ng
b) Yeu du chinh, sfra v� n9i dung:
,..r-- ?
({cLu ( ( <.(1
d) DiSm danh gia: B�ng s6: __ ·...,t>f-i __ B�ng chii':_-"-{y=
j'l-' __ {k...._..�-;__._a ... a�/:.,...,z 13. Tac gia lu� van phat bi�u y ki�n
14. Chu tjch Hc)i d6ng tuyen b6 b� m�c
THU KY HOIDONG CH
J_. � N �f�(Jf'd
\�r- Yz� . 'XAC NH�N CUA T_ . R , �
U'0NG DA.I HQC Sll PH.i:\,M
NHAN XET PI-L\N BIEN LtlAN VAN THAC SY . . . .
HQ va ten ngm'>'i nh�n xc.t: l-lm111g Thi Thanh l-h1
H9c ham:
ChU)'Cl1 nganh: C6ng ngh� Thong tin
Hoc vi: . . Ti�n sy-
Co· quan cong tac: Tru6'ng Di;ii Jwc Kinh TJ, 8�1i hoc 8a N�ng
Hq va ten hqc vien cao h9c: LI� THANH TRANG
Ten d� tai lu�n van: Nghien CLJ'Ll phum1g phap hoc may Cl) giam sat c1� phan loc;ii