Kết luận chƣơng 3

Một phần của tài liệu Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt (Trang 66 - 70)

Trong chƣơng này, trình bày chi tiết từ phân tích thiết kế của hệ thống và các giao diện của hệ thống. Các chức năng chính của hệ thống cũng đƣợc mơ tả rõ ràng, đầy đủ.

Đánh giá kết quả của phƣơng pháp luận văn thực hiện cài đặt cho kết quả tốt hơn các phƣơng pháp truyền thống và số đặc trƣng giảm hơn 60% so

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

với cách trích rút đặc trƣng truyền thống, cho thấy rằng phƣơng pháp này thực sự cĩ ý nghĩa. Trong luận văn cũng sử dụng cách đánh giá bởi chuyên gia con ngƣời cho kết quả chấp nhận đƣợc.

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Với các yêu cầu đặt ra về việc nắm bắt thuật tốn Naive Bayes để hiểu cách thức phân loại văn bản trong tiếng Việt từ đĩ áp dụng vào phân loại các bài báo trong các lĩnh vực Cơng nghệ thơng tin theo các chuyên ngành khác nhau dựa trên việc khảo sát một số hội thảo các chuyên ngành CNTT trong nƣớc, chƣơng trình cơ bản đáp ứng đƣợc các yêu cầu trên. Cùng với đĩ chƣơng trình đáp ứng thêm một số chức năng: thêm, xĩa, sửa, quản lý các bài báo một cách dễ dàng, thuận tiện.

Sau thời gian thực hiện nghiên cứu luận văn đã thành cơng một số cơng việc cụ thể sau:

- Khảo sát tài liệu thuộc chính chuyên ngành Cơng nghệ thơng tin để tìm hiểu đặc trƣng riêng.

- Nghiên cứu thuật tốn theo cơng trình số [8] và thực hiện việc đánh giá thử nghiệm.

- Xây dựng phần mềm phân loại theo phƣơng pháp của luận văn nghiên cứu.

Hƣớng phát triển của đề tài:

- Xây dựng danh sách hồn thiện các từ phổ thơng, ký tự đặc biệt nhằm loại bỏ các yếu tố gây nhiễu trong quá trình huấn luyện cũng nhƣ phân loại văn bản.

- Tiếp tục huấn luyện thêm dữ liệu để bộ đặc trƣng của bộ chuyên ngành đƣợc chính xác hơn.

- Thực hiện thử nghiệm trên số lƣợng lớn các bài báo chƣa đƣợc phân loại.

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt

[1]. Nguyễn Linh Giang, Nguyễn Mạnh Hiển,Phân loại văn bản tiếng Việt với

bộ phân loại vectơ hỗ trợ SVM

[2]. Nguyễn Hữu Quỳnh, Ngữ pháp Tiếng Việt, NXB Từ điển Bách Khoa,

2001.

Tài liệu tiếng Anh

[3].Ha Nguyen Thi Thu, Quynh Nguyen Huu, Khanh Nguyen Thi Hong,

Hung Le Manh, Optimization for Vietnamese Text Classification Problem

by Reducing Feature Set, 2012 6th International Conference on New Trends in Information Science, Service Science and Data Mining, pp. 209-214, 2012.

[4]. C. Apte, F. Damerau, S. Weiss,Automated Learning of Decision Rules for

Text Categorization,ACM Transactions on Information Systems, 12(3), pp. 233–251, 1994.

[5]. Novovicova J., Malik A., and Pudil P., “Feature Selection Using

Improved Mutual Information for Text Classification”, SSPR&SPR 2004, LNCS 3138, pp. 1010–1017, 2004.

[6]. Eui-Hong Han, Text Categorization Using Weight Adjusted k-

Nearest Neighbor Classification. PhD thesis, University of Minnesota, October 1999.

[7]. A. Basu, C. Watters, and M. Shepherd, Support Vector Machines for Text

Categorization, Proceedings of the 36th Hawaii International Conference on SystemSciences (HICSS’03), 0-7695-1874-5/03, 2003.

[8]. Aigars Mahinovs and Ashutosh Tiwari, Text Classification Method

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

[9]. Hiroshi Shimodaira, Text Classification using Naive Bayes, Learning and

Data Note, 10 February 2015.

[10]. Mark Steyvers, Tom Griffiths, Probabilistic Topic Models, In: In T.

Landauer, D McNamara, S. Dennis, and W. Kintsch (eds),Latent Semantic Analysis: A Road to Meaning. Laurence Erlbaum, 2014.

[11]. Ha Nguyen Thi Thu, Tinh Thanh Dao, Vinh Ho Ngoc, Thanh Nguyen

Hai, Building Vietnamese Topic Modeling Based on Core Terms and

Applying in Text Classification, 2015 Fifth International Conference on Communication Systems and Network Technologies, pp 1284-1288, @2015 IEEEDOI 10.1109/CSNT.2015.22.

Một phần của tài liệu Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt (Trang 66 - 70)

Tải bản đầy đủ (PDF)

(70 trang)