Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
4,22 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM LÊ THANH TRANG NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG UBND TỈNH QUẢNG NGÃI LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng - Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM LÊ THANH TRANG NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG UBND TỈNH QUẢNG NGÃI Chuyên ngành: Hệ thống thông tin Mã số: 61.49.01.04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Người hướng dẫn khoa học: PGS.TS HUỲNH CÔNG PHÁP Đà Nẵng - Năm 2017 LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực Những tư liệu sử dụng luận văn có nguồn gốc trích dẫn rõ ràng, đầy đủ Tác giả luận văn Lê Thanh Trang MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn luận văn Nội dung luận văn CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ HỌC MÁY 1.1.1 Phân loại phương pháp học máy 1.1.2 Các ứng dụng học máy .8 1.2 TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU 1.2.1 Giới thiệu phân lớp 1.2.2 Các loại phân lớp liệu 1.3 PHÂN LỚP VĂN BẢN 10 1.3.1 Khái niệm 10 1.3.2 Định nghĩa phân lớp văn bản: .11 1.3.3 Mơ hình phân lớp văn 12 1.3.4 Các bước xây dựng phân lớp văn .13 1.3.5 Các bước tiền xử lý liệu 14 1.3.6 Phương pháp tách từ tiếng Việt 14 1.3.7 Loại bỏ từ dừng 15 1.3.8 Phương pháp biểu diễn văn 16 1.4 CÁC CƠNG TRÌNH LIÊN QUAN ĐẾN VẤN ĐỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ PHÂN LỚP VĂN BẢN .19 CHƯƠNG ÁP DỤNG MƠ HÌNH HỌC MÁY SUPPORT VECTOR MACHINES (SVM) VÀO PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG UBND TỈNH QUẢNG NGÃI 22 2.1 Khái niệm học máy 22 2.2 Bộ phân loại Support Vector Machines (SVM) .22 2.2.1 Siêu phẳng tối ưu 24 2.2.2 Phân lớp mềm 27 2.2.3 Trường hợp phân tách phi tuyến 31 2.2.4 Một số hàm nhân (Kernel) thông dụng 32 2.2.5 SVM đa lớp 33 2.2.6 Các thuật toán huấn luyện 35 2.2.7 Phương pháp tách từ .36 2.2.8 Phương pháp Kiểm tra chéo (cross validation) 36 2.3.9 Các yếu tố tác động đến kết phân loại văn bản: 37 2.4 KẾT CHƯƠNG 37 CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM TRONG BÀI TỐN HỌC MÁY CĨ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG UBND TỈNH QUẢNG NGÃI .39 3.1 Ngôn ngữ tiếng Việt 39 3.2 Khái niệm văn quản lý nhà nước 40 3.2.1 Văn quản lý nhà nước 40 3.2.2 Văn quản lý hành nhà nước 40 3.2.3 Phân loại văn quản lý nhà nước 41 3.2.4 Ngơn ngữ văn hành 41 3.2.5 Khung phân loại thống thông tin 42 3.3 Bài toán phân lớp Văn phòng UBND tỉnh Quảng Ngãi 43 3.3.1 Phát biểu toán 43 3.3.2 Phương pháp phân lớp SVM đa lớp 44 3.3.3 Mơ hình SVM đa lớp cho toán phân lớp văn 44 3.4 Xây dựng chương trình thử nghiệm .46 3.4.1 Môi trường thực nghiệm .46 3.3.2 Thư viện nguồn hỗ trợ 46 3.4.3 Dữ liệu chương trình 46 3.4.4 Xây dựng từ điển danh từ 48 3.4.5 Giao diện chương trình 49 3.4.6 Các bước sử dụng chương trình thử nghiệm 49 3.5 Đánh giá kết thực nghiệm 53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 55 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI (BẢN SAO) DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu Thuật ngữ CNTT Công nghệ thông tin CPU Central Processing Unit CSDL Cở sở liệu CV Corters Vapnik IDF Inverse Document KKT Karush-Kuhn-Tucker KNN K-nearest neighbors (K láng giềng gần nhất) ML Machine Learning NB Naïve Bayes QP Quadratic Programming RBF Radial Basic Function RFC Relative Frequency Count TB Terabyte (thuật ngữ đo lường để dung lượng lưu trữ máy tính) TF Term Frequency TF – IDF Term frequency – inverse document frequency DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang 3.1 Văn trước qua tách từ 45 3.2 Văn sau qua tách từ 46 3.3 Thiết bị thực nghiệm 46 3.4 Thư viện nguồn hỗ trợ 46 3.5 Dữ liệu học kiểm tra 47 3.6 Tập số lượng liệu huấn luyện 47 3.7 Tập số lượng liệu kiểm thử 48 3.8 Gán nhãn từ loại 48 3.9 Tỷ lệ % phân loại văn 53 DANH MỤC CÁC HÌNH VẼ Số hiệu Tên hình hình Trang 1.1 Mơ hình thuật tốn học máy có giám sát 1.2 Hoạt động phân loại tập tài liệu 10 1.3 Sơ đồ khung hệ thống phân lớp văn 13 1.4 Mô tả bước xây dựng phân lớp 13 1.5 Mơ hình khơng gian vector[27] 19 2.1 Mơ hình SVM 23 2.2 Biểu diễn siêu phẳng lề cực đại cho phân lớp SVM hai lớp 24 2.3 Siêu phẳng tách tuyến tính 25 2.4 Phân lớp mềm 27 2.5 Ánh xạ liệu vào không gian khác với số chiều cao 31 3.1 Mô hình tốn phân lớp văn liệu văn hành 45 3.2 Giao diện chương trình 49 3.3 Dữ liệu từ điển 50 3.4 Dữ liệu gán nhãn 50 3.5 Dữ liệu huấn luyện 51 3.6 Sau chọn xong mục 52 3.7 Kết phân loại văn 52 3.8 Thông số hệ thống chương trình thử nghiệm sử dụng 54 MỞ ĐẦU Lý chọn đề tài Hiện lượng lớn liệu văn có sẵn lĩnh vực khác thu thập, lưu trữ Việc phân loại văn tiến trình xếp tài liệu văn vào nhiều tài liệu vào nhóm chủ đề, để sử dụng vấn đề ngày trở nên cần thiết Vì thế, vấn đề phân lớp dự đoán khâu quan trọng học máy khai phá liệu Một công cụ đánh giá mạnh tinh vi cho tốn phân lớp phi tuyến kỹ thuật Support Vector Machines (SVM) Corters Vapnik giới thiệu vào năm 1995[14] Nhiều ứng dụng xây dựng dựa kỹ thuật SVM hiệu SVM mơ hình xây dựng siêu phẳng tập hợp siêu phẳng không gian nhiều chiều vơ hạn chiều, sử dụng cho phân loại, hồi quy, nhiệm vụ khác Trong nhiều trường hợp, phân chia lớp liệu cách tuyến tính khơng gian ban đầu dùng để mô tả vấn đề Vì vậy, nhiều cần phải ánh xạ điểm liệu không gian ban đầu vào không gian nhiều chiều hơn, để việc phân tính chúng trở nên dễ dàng không gian Gần đây, nhà nghiên cứu thực sử dụng kỹ thuật học máy để kết hợp tự động phân loại tài liệu cách sử dụng tập huấn luyện để thông qua phân loại tới tập đặc trưng tập tài liệu Quy trình học máy khởi tạo một kiểm tra tài liệu mẫu để định tập đặc trưng tối thiểu mà sinh kết phân loại mong muốn Trong giai đoạn huấn luyện giám sát không giám sát Trong hai trường hợp tập phân loại định nghĩa quyền ưu tiên, khơng giống phân nhóm mà định nghĩa phân loại dựa đặc trưng tài liệu thực Các kỹ thuật học không giám sát sử dụng đặc trưng tài liệu huấn luyện giải thuật định phân loại tài liệu thuộc vào Các kỹ thuật học có giám sát sử dụng tập tài liệu huấn luyện mà kết hợp phân loại để định tập đặc trưng tài liệu tạo kết mong muốn 54 chưa xác định xếp vào thể loại Hiện có nhiều phương pháp học máy để ứng dụng việc phân loại tài liệu tiếng Việt, nhiên có đề tài viết ứng dung phương pháp học máy để phân loại văn hành nên làm cho việc so sánh, đánh giá kết hạn chế Khi tiến hành thực nghiệm chương trình thực nghiệm chiếm khơng gian nhớ tốc độ xử lý CPU máy tính khơng q cao theo hình 3.8 Hình 3.8 Thơng số hệ thống chương trình thử nghiệm sử dụng Kết thực nghiệm cho thấy xây dựng phân lớp văn tiếng việt sử dụng mơ hình SVM cho kết tốt 55 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Từ việc nghiên cứu lý thuyết kết thực nghiệm khẳng định tốn phân lớp văn hành thực có ý nghĩa quan trọng việc quản lý, tìm kiếm, lưu trữ thông tin nguồn tài nguyên lớn, đặc biệt với nguồn tài nguyên lĩnh vực hành Luận văn tìm hiểu, nghiên cứu thuật tốn phổ biến nay, từ đưa phương pháp thuật toán ứng dụng vào toán phân lớp liệu văn hành Dưới hướng dẫn tận tình PGS.TS Huỳnh Cơng Pháp thời gian nghiên cứu thực viết luận văn tốt nghiệp với đề tài “Nghiên cứu phương pháp học máy có giám sát để phân loại văn Văn phòng UBND tỉnh Quảng Ngãi” em rút số nhận xét sau Kết đạt - Nghiên cứu lý thuyết tổng quan học máy học máy có giám sát - Nghiên cứu lý thuyết tổng quan phân lớp phân loại văn tiếng việt với toán phân loại tin tức điện tử, phân loại văn tài chính, ngân hàng, phân lại thư rác… - Nghiên cứu lý thuyết số thuật tốn phân loại KNN, Nạve Bayes SVM từ đưa tốn áp dụng vào phân loại văn lĩnh vực hành - Nghiên cứu, xây dựng từ điển áp dụng vào việc tách từ - Xây dựng tập liệu nhãn/lớp áp dụng vào việc huấn luyện - Xây dựng chương trình thực nghiệm cho việc phân loại văn Chương trình viết ngôn ngữ c# Microsoft Visual Studio Community 2017, tích hợp module tiền xử lý văn module phân lớp (SVM) Kết thực nghiệm tập liệu lĩnh vực hành cho thấy kết phân loại tốt 96.93% tổng số 440 văn đầu vào 56 Hạn chế - Do hạn chế mặt thời gian kiến thức nên luận văn dừng lại việc sử dụng hàm nhân Linear chưa sử dụng hàm nhân khác Polynomial, Radial Basic Function nên việc so sánh để chọn phương án tốt hạn chế Ngồi cịn hạn chế việc nghiên cứu văn phong sử dụng văn hành - Tác giả tiến hành thử nghiệm toán phân lớp với liệu chưa đủ lớn, thử nghiệm đơn giản Hướng phát triển - Luận văn tiếp tục hoàn thiện mặt hạn chế đưa sử dụng số hàm nhân khác để tìm toán hiệu toán phân loại văn lĩnh vực hành - Nghiên cứu xây dựng liệu lớn đáp ứng cơng việc phân lớp cho văn hành TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Trần Cao Đệ, Phạm Nguyên Khang (2012), "Phân loại văn với máy học vector hỗ trợ định", Tạp chí khoa học, tr 52-63 [2] Nguyễn Linh Giang N.M.H (2004), "Phân loại văn tiếng Việt với phân loại vector hỗ trợ SVM", Bài báo khoa học, Hà Nội [3] Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2006), "Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM", Tạp chí CNTT&TT [4] Yến N.T.H (2007), "Phân lớp bán giám sát ứng dụng thuật toán SVM vào phân lớp trang web" Tiếng Anh: [5] Arturo Montejo-Rasez (2005), "Automatic Text Categorization of document in the High Energy Physics domain" [6] Chervonenkis V.a (1964), "further develop the Generalized Portrait algorithm" [7] Chih-Chung Chang and Chil-Jen Lin (2004), "LIBSVM: a Library for Support Vector Machines", National Taiwan University [8] Corinna Cortes V.V (1995), "Support-Vector Networks", Machine Learning, tr 20, pp.273-297 [9] Friedman J (1996), "Another Approach to Polychotomous Classifications", Technical report, Stanford university, US [10] J Platt N.C.a.J.S.-T (2000), "Large Margin DAGs for Multiclass Classification", In Advances in Neural Information Processing Systems volume 2, tr pp 547553 [11] J.Oles T.Z.v.F (2001), "Text Catergorization Base on Regulazired Linear Classification Methods", Mathematical Sciences Department, IBM T.J Watson Research Center, NewYork [12] Joachims T (1998), ""Making large-Scale Support Vector Machine Learning Practical”, in Advances in Kernel Methods - Support Vector Learning", B Schölkopf and C Burges and A Smola (ed.), MIT-Press, Cambridge, MA [13] R Collobert and S Bengio, "Svmtorch: Support Vector Machines for Largescale Regression Problems", The Journal of Machine Learning Research, Vol 1, 2001, tr pp 143 – 160 [14] Rong Hu (2011), "Active Learning for Text Classification", School of Computing, Dublin Institute of Techonology [15] Thorsten Joachims (1998), "Text Categorization with Support Vector Machines: Learning with Many Relevant Features", University Dortmund [16] Vapnik V.a.A.L (1963), "Pattern recognition using generalized portrait method", Automation and Remote Control, tr 24, 774-780 Internet [17] Các phương pháp học máy, truy cập ngày-27/01/2017, trang web https://caphuuquan.blogspot.com/2016/05/machine-learning-la-gi.html [18] Các ứng dụng học máy, truy cập ngày-14/4/2017, trang web https://csstudyfun.wordpress.com/2008/07/26/cac-khai-ni%E1%BB%87m-trongh%E1%BB%8Dc-may-machine-learning-1-t%E1%BB%95ng-quan/ [19] ChristianSPerone, truy cập ngày-24/4/2017, trang web https://plus.google.com /+ChristianSPerone [20] Nghiên cứu tổng quan học máy, truy cập ngày-02/01/2017, trang web http://luanvan.net.vn/luan-van/tong-quan-ve-hoc-may-71851/ [21] Học bán giám sát, truy cập ngày-27/3/2017, trang web https://vi.wikipedia.org /wiki/H%E1%BB%8Dc_n%E1%BB%ADa_gi%C3%A1m_s%C3%A1t [22] Học tăng cường, truy cập ngày-02/3/2017, trang web https://vi.wikipedia.org/ wiki/H%E1%BB%8Dc_t%C4%83ng_c%C6%B0%E1%BB%9Dng [23] Phạm Anh Phương P Pattern Recognition Support Vector Machines, , truy cập ngày-12/5/2017, trang web https://www.google.com.vn /?gws _rd= ssl#q =LTND03-SVMs DAI H()C DA NA NG f TRllONG H�I HQC Sl PH�M S6: dUl/QD-DHSP C()NG HOA XA H()I CHU NGHIA VItT NAM D(k l�p - Tg - H�nh ph(1c Da Nfmg, OJ thcing 01 nam 2017 QUYETDfNH N� vi�c gi.to d� t�ti va trach nhi�m hu6'ng dfin lu�n van th�c si HJ�U TRU'ONG TRU'ONGD�I HQC SU' PHJ).M Can cfr Nghj djnh s6 32/CP 04 thang nam 1994 cua Chinh phu ve vi�c l�p D?i h9c Ba N5ng; Can ctr Thong tu s6 08/2014/TT-BGDDT 20/3/2014 cua Be) GD&DT ve vi?c ban hanh Quy cbe t6 cht'.rc Va hot;1t d9ng Clla dt;1i hQC vung Va cac ca SO giao d\IC dt;1i hQC thnnh vien; Cfm cfr Quy@t djnh s6 6950/QB-DHDN O1/12/2014 cua Giam d6c Dt;1i h9c Dft N5ng ban hanh Quy djnh nhi�m vv, quy€n ht;1n cua Dt;1i h9c Da N5ng, cac ca sa giao d\lC dt;1i hQC Vien Va CaC dan VJ tnJC thu9c; Can cfr Thong tu s6 15/2014/TT-BGDDT 15/5/2014 cua Be) Giao dvc va Dao tt;10 v8 vi�c ban hanh Quy ch� Dao tt;10 trinh d9 th�c sI; Can cfr Quy�t djnh s6 3160/QD-DHDN 22/6/2015 cua Giam d6c Dt;1i h9c Da N�ng v€ vi9c cong nh?n h9c vien cao h9c trung tuy�n; Can cu· Quy�t dinh 1060/QD-DHSP 01/11/2016 cua Hi�u tru&ng Trncmg Dt;1i h9c Su ph?m- DHDN ve vi�c ban hanh Quy djnh dao tt;10 trinh de) tht;1c sI; Xet de nghj cua ong Tnr&ng Phong Dao tt;10, QUYETDfNH: Oi�u l: Giao cho h9c vien Le Thanh Trang, chuyen nganh H� th6ng thong tin, kh6a 31 thvc hi�n d� tai lu�n van Nghien cu·u phuong phcip h9c may a€ phdn lor;ii van ban tr;ii Van phr)ng UBND tlnh Quang Ngai, du6i S\l' hu6ng d�n cua TS Huynh Cong Phcip, Truong Cao aling Cong nghi thong tin- DHDN; Di�u 2: H9c vien cao h9c va nguai hu6ng d�n c6 ten Di�u duqc huang dtc quyen !qi va thµc hi�n nhi�m V\l dung theo Quy ch� dao tt;10 trinh d9 tlwc Sl B('> Giita d�JC va Dao t