Đánh giá kết quả thực nghiệm

Một phần của tài liệu 28008_1712202001857492ToanvanToTranVanThao (Trang 59 - 91)

7. Nội dung luận văn

3.3.Đánh giá kết quả thực nghiệm

Việc tiến hành thực nghiệm trên tập dữ liệu cần phân lớp với số lượng văn bản là 440 cho 10 phân lớp cho kết quả tương đối chính xác.

Do số lượng dữ liệu kiểm thử cho từng lớp cĩ số chênh lệch chưa cao nên khả năng dự đốn của bộ phân lớp khá tốt. Muốn khả năng dự đốn cĩ độ chính xác cao hơn nữa thì tập dữ liệu huấn luyện cần phải học thêm nhiều về số lượng, đảm bảo cung cấp đầy đủ các ràng buộc ….

Ngồi ra việc xác định từ, cụm từ trong văn bản hành chính sử dụng cho việc huấn luyện cũng là một điều đáng quan tâm, vì cĩ nhiều văn bản con người đọc cịn chưa xác định được xếp vào thể loại nào. Hiện nay cĩ rất nhiều phương pháp học máy để ứng dụng trong việc phân loại tài liệu tiếng Việt, tuy nhiên cĩ rất ít đề tài viết về ứng dung các phương pháp học máy để phân loại văn bản hành chính nên làm cho việc so sánh, đánh giá kết quả cũng cịn hạn chế.

Kết quả thực nghiệm cho thấy xây dựng bộ phân lớp văn bản tiếng việt sử dụng mơ hình SVM cho kết quả rất tốt.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm cĩ thể khẳng định rằng bài tốn phân lớp văn bản hành chính thực sự cĩ ý nghĩa rất quan trọng trong việc quản lý, tìm kiếm, lưu trữ thơng tin trên nguồn tài nguyên lớn, đặc biệt với nguồn tài nguyên về lĩnh vực hành chính.

Luận văn tìm hiểu, nghiên cứu các thuật tốn phổ biến hiện nay, từ đĩ đưa ra phương pháp và thuật tốn ứng dụng vào bài tốn phân lớp dữ liệu văn bản hành chính.

Về mặt nội dung, luận văn đã đạt được những kết quả sau: - Nghiên cứu tổng quan về học máy và học máy cĩ giám sát.

- Nghiên cứu tổng quan về phân lớp và phân loại văn bản tiếng việt với các bài tốn như phân loại tin tức điện tử, phân loại văn bản trong tài chính, ngân hàng, phân lại thư rác…

- Nghiên cứu một số thuật tốn phân loại như KNN, Nạve Bayes và SVM từ đĩ đưa ra bài tốn áp dụng vào phân loại văn bản trong lĩnh vực hành chính.

- Xây dựng từ điển áp dụng vào việc tách từ.

- Xây dựng tập dữ liệu nhãn/lớp áp dụng vào việc huấn luyện.

- Xây dựng chương trình thực nghiệm cho việc phân loại văn bản. Chương trình được viết trên ngơn ngữ c# trong bộ Microsoft Visual Studio Community 2017, tích hợp module tiền xử lý văn bản và module phân lớp (SVM). Kết quả thực nghiệm trên tập dữ liệu về lĩnh vực hành chính cho thấy kết quả phân loại khá tốt 96.93% trên tổng số 440 văn bản đầu vào.

Bên cạnh đĩ, do hạn chế về mặt thời gian và kiến thức nên luận văn chỉ dừng lại ở việc sử dụng hàm nhân Linear chưa sử dụng các hàm nhân khác như Polynomial, Radial Basic Function nên việc so sánh để chọn ra phương án tốt nhất là cịn hạn chế. Ngồi ra cịn hạn chế về việc nghiên cứu văn phong được sử dụng trong văn bản hành chính.

Tương lai, luân văn tiếp tục hồn thiện các mặt hạn chế được đưa ra ở trên đĩ là sử dụng một số hàm nhân khác để tìm ra được bài tốn hiệu quả nhất đối với bài tốn phân loại văn bản trong lĩnh vực hành chính.

TÀI LIỆU THAM KHẢO

Tiếng Việt:

[1]. Lưu Tuấn Anh , "Ứng dụng phương pháp Pointwise vào bài tốn tách từ cho tiếng Việt", Natural Language Processing Laboratory Department of Electrical Engineering, Nagaoka University of Technology 940-2188, Nagaoka City, Niigata, Japan.

[2]. Nguyễn Thị Thùy Dương. (2015), Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt, Luận văn thạc sỹ khoa học máy tính, trường Đại học Thái Nguyên.

[3]. Trần Cao Đệ, Phạm Nguyên Khang ( 2012), "Phân loại văn bản với máy học vector hỗ trợ và cây quyết định", Tạp chí khoa học, tr. 52-63.

[4]. Nguyễn Linh Giang, Nguyễn Mạnh Hiển. (2004), "Phân loại văn bản tiếng Việt với bộ phân loại vector hỗ trợ SVM", Bài báo khoa học, Hà nội. [5]. Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2006), "Phân loại văn bản tiếng

Việt với bộ phân loại vectơ hỗ trợ SVM", Tạp chí CNTT&TT.

[6]. Lương Thị Minh Hồng (2006), Phân loại văn bản bằng phương pháp Support Vector Machines, Luận văn thạc sĩ khoa học Cơng nghệ thơng tin, trường Đại học Bách Khoa Hà nội.

[7]. Nguyễn Thị Thúy Kiều (2011), Phân loại tự động văn bản trong hệ thống điều hành tác nghiệp tại Sở Thơng tin truyền thơng Quảng Nam, Luận văn thạc sỹ khoa học máy tính, trường Đại học Đà Nẵng.

[8]. Trần Thị Oanh (2008), Mơ hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng việt, luận văn thạc sĩ, trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội.

[9]. Nguyễn Thị Hải Yến (2007), "Phân lớp bán giám sát và ứng dụng thuật tốn SVM vào phân lớp trang web".

Tiếng Anh:

[10]. Arturo Montejo-Rasez (2005), "Automatic Text Categorization of document in the High Energy Physics domain".

[11].Thorsten Joachims (1998), "Text Categorization with Support Vector Machines:Learning with Many Relevant Features", University Dortmund.

[12].Rong Hu (2011), "Active Learning for Text Classification", School of Computing, Dublin Institute of Techonology.

[13].J.Oles (2001), "Text Catergorization Base on Regulazired Linear Classification Methods", Mathematical Sciences Department, IBM T.J Watson Research Center, NewYork. (adsbygoogle = window.adsbygoogle || []).push({});

[14]. Corinna Cortes (1995), "Support-Vector Networks", Machine Learning, tr. 20, pp.273-297.

[15]. Vapnik (1963), "Pattern recognition using generalized portrait method",

Automation and Remote Control, tr. 24, 774-780.

[16]. Chervonenkis (1964), "further develop the Generalized Portrait algorithm".

Internet:

[17]. Nghiên cứu tổng quan về học máy, truy cập ngày-02/01/2017, tại trang web

http://luanvan.net.vn/luan-van/tong-quan-ve-hoc-may-71851/.

[18]. Các phương pháp học máy, truy cập ngày-27/01/2017, tại trang web

https://caphuuquan.blogspot.com/2016/05/machine-learning-la-gi.html.

[19]. Học bán giám sát, truy cập ngày-27/3/2017, tại trang web

https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_n%E1%BB%ADa_gi%

C3%A1m_s%C3%A1t.

[20]. Học tăng cường, truy cập ngày-02/3/2017, tại trang web

https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_t%C4%83ng_c%C6%B

0%E1%BB%9Dng.

[21]. Các ứng dụng của học máy, truy cập ngày-14/4/2017, tại trang web

https://csstudyfun.wordpress.com/2008/07/26/cac-khai-

ni%E1%BB%87m-trong-h%E1%BB%8Dc-may-machine-learning-1-

t%E1%BB%95ng-quan/.

[22]. ChristianSPerone, truy cập ngày-24/4/2017, tại trang web

https://plus.google.com/+ChristianSPerone.

[23]. Phạm Anh Phương P. Pattern Recognition Support Vector Machines, , truy cập ngày-12/5/2017, tại trang web

Một phần của tài liệu 28008_1712202001857492ToanvanToTranVanThao (Trang 59 - 91)