Đánh giá thử nghiệm

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân loại thư rác bằng phương pháp học máy (Trang 63 - 67)

Theo kết quả thực nghiệm cho thấy phương pháp Nạve Bayes cho kết quả kém hơn so với phương pháp SVM. Tuy nhiên, phương pháp Bayes cĩ ưu thế rõ rệt về tốc độ phân loại do cĩ độ phức tạp tính tốn thấp hơn trong khi SVM địi hỏi khối lượng và thời gian tính tốn lớn hơn nhiều. Trong các thử nghiệm, tổng thời gian huấn luyện và phân loại bằng SVM lớn hơn Bayes đơn giản từ 10 tới 50 lần.

Chúng ta cĩ thể thấy từ các thuật tốn phân lớp hai lớp như SVM đến các thuật tốn phân lớp đa lớp đều cĩ đặc điểm chung là yêu cầu văn bản nĩi chung và thư điện tử nĩi riêng phải được biểu diễn dưới dạng vector đặc trưng, tuy nhiên các thuật tốn khác đều phải sử dụng các uớc lượng tham số và ngưỡng tối ưu trong khi đĩ thuật tốn SVM cĩ thể tự tìm ra các tham số tối ưu này. Trong các phương pháp thì SVM là phương pháp sử dụng khơng gian vector đặc trưng lớn nhất (hơn 10.000 chiều) trong khi đĩ các phương pháp khác cĩ số chiều bé hơn nhiều (như Nạve Bayes là 2000, k-Nearest Neighbors là 2415…).

Trong cơng trình cơng bố năm 1999, Joachims [13] đã so sánh SVM với Nạve Bayesian, k-Nearest Neighbour, Rocchio, và C4.5 và đến năm 2003, Joachims cũng đã chứng minh rằng SVM làm việc rất tốt cùng với các đặc tính được đề cập trước đây của văn bản. Các kết quả cho thấy rằng SVM đưa ra độ chính xác phân lớp tốt nhất khi so sánh với các phương pháp khác.

Kiritchenko và Matwin [10] đã nghiên cứu và so sánh phương pháp SVM với kỹ thuật Nạve Bayesian, sau đĩ đã chứng minh được rằng SVM là phương pháp tốt nhất cho phân lớp thư điện tử cũng như phân lớp văn bản.

Những phân tích của các tác giả trên đây cho thấy SVM cĩ nhiều điểm phù hợp cho việc ứng dụng phân lớp thư điện tử. Và trên thực tế, các thí nghiệm phân lớp thư rác tiếng Anh chỉ ra rằng SVM đạt độ chính xác phân lớp cao và tỏ ra xuất sắc hơn so với các phương pháp phân lớp khác. Đĩ cũng chính là lý do tại sao SVM đang là lựa chọn hàng đầu cho các bài tốn phân loại thư rác.

56

3.4. Kết luận chương

Trong chương 3 đã trình bày được những thử nghiệm sử dụng hai thuật tốn Nạve Bayes và SVM trong phân loại thư rác

Đã nêu được yêu cầu về bài tốn cũng như dữ liệu đầu vào, kết quả ra của hệ thống.

Một số trang màn hình minh họa quá trình thực nghiệm của luận văn. Đồng thời cũng đánh giá kết quả thực nghiệm và so sánh được hai thuật tốn nĩi trên.

57

KẾT LUẬN

Các kết quả đạt được

Luận văn đã đề cập nhu cầu của lọc thư rác và cơng cụ học máy, dùng để huấn luyện hệ thống biết thư rác, rồi nhận dạng thư rác, ngăn chặn thư rác. Chặn thư rác sẽ làm tăng hiệu quả khai thác hệ thống, đặc biệt hệ thống thư điện tử.

Luận văn đã trình bày hai lớp thuật toán quan trọng của bài toán học máy. Đĩ là (i) thuật toán mạng Bayes đơn giản; và (ii) thuâ ̣t toán máy vec tơ tựa SVM. Các thuâ ̣t toán này được sử du ̣ng để lọc thư rác trong một hệ thống thư điện tử cụ thể.

Chương cuối của luận văn đã trình bày kết quả thực nghiệm, cho phép lọc các thư rác, trong tập dữ liệu mẫu.

Hướng phát triển luận văn

Tuy nhiên, do cịn hạn chế về mặt thời gian và kiến thức nên luận văn chưa đi sâu vào nghiên cứu bài tốn lọc thư rác tiếng Việt. Trong tương lai, luận văn cĩ thể sẽ được nghiên cứu tiếp theo hướng sau:

Khi áp du ̣ng những thuật toán phân loại một khĩ khăn gặp phải là xây dựng được tâ ̣p hợp từ vựng và các mẫu huấn luyê ̣n đủ lớn. Vấn đề này liên quan tới viê ̣c phân tách mơ ̣t câu thành các từ và cụm từ mơ ̣t cách chính xác. Luận văn có thể được tiếp tu ̣c phát triển theo hướng nghiên cứu mở rơ ̣ng ứng du ̣ng các bơ ̣ từ điển sẵn cĩ và xây dựng các mẫu huấn luyê ̣n tiêu chuẩn về thư tiếng Việt bao gồm cĩ dấu và khơng cĩ dấu cũng như điều chỉnh các tham sớ của giải thuâ ̣t phân loa ̣i để nâng cao đơ ̣ chính xác.

58

DANH MỤC TÀI LIỆU THAM KHẢO

TIẾNG VIỆT

[1] Đinh Thị Phương Thu, Hồng Vĩnh Sơn, Huỳnh Quyết Thắng, Phương án xây dựng tập mẫu cho bài tốn phân lớp văn bản tiếng Việt, nguyên lý, giải thuật, thử nghiệm và đánh giá kết quả, Tạp chí Khoa học và cơng nghệ, 2005.

[2] Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2005), “Phân loại văn bản tiếng Việt sử dụng support vector machines”, Chuyên san nghiên cứu tạp chí Bưu chính Viễn thơng, số 15.

[3] Nguyễn Thanh Hùng (2006), “Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng thuật di truyền và thống kê trên Internet”,

Chuyên san nghiên cứu tạp chí Bưu chính viễn thơng, số 16.

[4] Trần Ngân Bình, Võ Huỳnh Trâm, “Trí tuệ nhân tạo”, Đại học Cần thơ Phiên bản trực tuyến: http://voer.edu.vn/c764b3239

TIẾNG ANH

[5] C. BURGES (1998), “A tutorial on Support Vector Machines for pattern recognition”, Proceedings of Int Conference on Data Mining and Knowledge Discovery, Vol 2, No 2, (pp 121-167).

[6] C. Cortes and V. Vapnik. Support-Vector Networks, “Machine Learning”, 20, 1995

[7] M. F. Caropreso, S. Matwin, and F. Sebastiani. “A learner-independent evaluation of the usefulness of statistical phrases for automated text categorization”. In A. G. Chin, editor, Text Databases and Document Management: Theory and Practice, pages 78-102. 2001.

[8]. Androutsopoulos, G. Palioras, V. Karkaletsis, G. Sakkis, C. Spyropoulos, P. Stamatopoulos (2000), “Learning to filter spam e-mail: a comparison of a Nai¨ve Bayesian and memory-based approach”, in: Proc. 4th

59

European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD), (pp. 1–13).

[9] J. Platt. Sequential minimal optimization: “A fast algorithm for training support vector machines”. Technical Report 98-14, Microsoft Research, Redmond, Washington, April 1998.

[10] Kriritchenko, Matwin (2001),“Email classification with co-training”. Proceeding CASCON '01 Proceedings of the 2001 conference of the Centre for Advanced Studies on Collaborative research.

[11] M.F. Porter, 1980, “An algorithm for suffix stripping”, Program, 14(3) pp 130−137.

[12] R. Bekkerman, R. El-Yaniv, N. Tishby, and Y. Winter. Distributional word clusters vs. words for text categorization. Journal of Machine Learning Research, 3:1183-1208, 2003

[13] T. Joachims (1999), “Transductive Inference for Text Classification using Support Vector Machines”, International Conference on Machine Learning (ICML), 1999

[14] http://www.24h.com.vn/cong-nghe-thong-tin/viet-nam-phat-tan-thu- rac-dung-thu-3-the-gioi-c55a675442.html

[15] http://mic.gov.vn/gioithieuSPDV (bộ thơng tin và truyền thơng) [16]http://securelist.com/analysis/quarterly-spam-reports/67851/spam-and- phishing-in-the-q3-of-2014

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân loại thư rác bằng phương pháp học máy (Trang 63 - 67)