Kết quả phân lớp thư tiếng Việt

Một phần của tài liệu Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG (Trang 85 - 88)

4. Phạm vi ứng dụng

4.4.2.2. Kết quả phân lớp thư tiếng Việt

Do tập huấn luyện phải là thư tiếng Việt nên phải sử dụng thống kê trên Internet, một mặt tìm email tiếng Việt, mặt khác xin sự giúp đỡ của các diễn đàn để thu thập email tiếng Việt. Để tiến trình huấn luyện được thuận lợi, tiến hành chia dữ liệu thu thập được thành 02 loại: thư rác và thư bình thường. Cuối cùng, đã thu thập

được dữ liệu thử nghiệm gồm 385 thư rác và 100 thư bình thường để bắt đầu tiến

trình huấn luyện.

Thử nghiệm tìm token từ đơn, với tập huấn luyện như trên, đã xác định được 3042 token sử dụng được

Thử nghiệm tách từ ghép, tương tự tập huấn luyện trên, đã xác định được được 5914 tokentừ ghép.

Do lĩnh vực nghiên cứu tiếng Việt phong phú như kinh tế, khoa học, xã hội, sức khỏe, thể thao… nên việc nghiên cứu ngữ nghĩa các từ, các câu sẽ rất phức tạp và để xử lý chính xác cũng mất nhiều thời gian. Ngồi ra, theo thống kê trong bảng 1 cho thấy từ ghép tiếng Việt chủ yếu là loại từ cĩ độ dài 2 tiếng, do vậy việc tách từ chúng tơi cũng chỉ thực hiện cho từ ghép cĩ độ dài tối đa 2 tiếng. Trong giới hạn đĩ, kết quả thực nghiệm phân loại 200 thư tiếng Việt (gồm 100 thư spam 100 thư ham) và bằng cách dựa vào tập huấn luyện từ đơn và từ ghép được thể hiện bằng bảng thống kê bên dưới.

Bảng 4.3. Kết quả phân loại thư tiếng Việt

Thử nghiệm trên Kết quả phân loại Độ chính xác

Spam Ham Spam Ham

Từ đơn 79/100 90/100 79% 90%

Từ ghép 94/100 92/100 94% 92%

Vừa từ đơn vừa từ ghép 85/100 80/100 85% 80%

Dựa trên kết quả thực nghiệm, cho thấy rõ việc lọc thư spam tiếng Việt theo từ ghép cho kết quả khả quan nhất (94%) so với kết quả lọc theo từ đơn (79%) và vừa từ đơn vừa từ ghép (85%). Điều này phần nào thể hiện hướng tiếp cận đúng của đề tài.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận

Đề tài đã đạt được những kết quả sau:

- Tìm hiểu bài tốn lọc thư spam, sự ảnh hưởng của thư spam đối với người sử dụng và tài nguyên mạng.

- Tìm hiểu các phương pháp lọc thống kê và các kỹ thuật nhằm tối ưu hĩa các bước lọc thư spam đặc biệt là thuật tốn Nạve Bayes, từ đĩ chọn lọc những kỹ thuật tối ưu để xây dựng một chương trình lọc thư spam cho hiệu quả cao nhất.

- Sử dụng phương pháp tách từ đơn, từ ghép dựa trên bộ huấn luyện thư, đồng thời áp dụng thuật tốn Nạve Bayes để tiến hành lọc thư spam tiếng Việt.

- Đề xuất kỹ thuật tách câu, tách từ đơn và từ ghép trong tiếng Việt.

- Xây dựng 02 chương trình thể hiện hướng nghiên cứu, tiếp cận của đề tài. Điểm mới của đề tài này là đề xuất phương pháp lọc thư rác sử dụng thuật tốn Bayes khơng phải chỉ dựa trên các từ đơn như đối với tiếng Anh mà cịn dựa trên cả từ đơn và từ ghép trong tiếng Việt và xây dựng hệ thống lọc thư rác cĩ khả năng theo vết người sử dụng.

Kết quả thực nghiệm cho thấy hướng tiếp cận của đề tài đạt được độ chính xác cao hơn khi phân loại thư rác tiếng Việt so với phương pháp Bayesian cổ điển chỉ dùng cho các từ đơn tiếng Việt.

Hướng phát triển

Xây dựng bộ dữ liệu bao quát các lĩnh vực để cĩ thể thấy rõ hiệu quả của bộ lọc thư spam. Tập huấn luyện càng lớn thì độ chính xác của việc học từ đơn và từ ghép càng được nâng cao, gĩp phần rất lớn trong việc tính xác suất theo cơng thức Nạve Bayes.

Thư spam tại Việt Nam rất phức tạp, đơi khi người dùng nhận được thư spam cả tiếng Anh lẫn tiếng Việt. Vì vậy, hướng nghiên cứu tiếp theo là đưa ra phương pháp lọc thư rác thích hợp cho cả tiếng Anh lẫn tiếng Việt.

TÀI LIỆU THAM KHẢO

[1] Amit Sharma ,Bayesian Mail Filter for detecting spam,2008

[2] Dinh Dien, “Tu Tieng Viet” , Proceeding of ICMLC2002 Conference, Beijing, November 2002.

[3] Dinh Dien, Hoang Kiem, Nguyen Van Toan, “Vietnamese Word Semntation”, The sixth Natural Language Processing Pacific Rim Sympossium, Tokyo, Japan 2001

[4] D.Goldszmidt, Friedman, N.Geiger, Bayesian network classifiers Machine Learning, 2006

[5] Foo S., Li H, “Word Segmentation and Its Effect on Information Retrieval”, Information Processing & Management: Anh International Journal, 2004

[6] Graham, P., A plan for Spam, 2008

[7] H. Nguyen, T. Vu, N. Tran, K. Hoang , “Internet and Genertics Algorithm-base

text Categorization for Documents in Vietnamese”, Research, Innovation and

Vision of the Future, the 3rd International Conference in Computer Science, (RIVF 2005), Can Tho, Viet Nam 2005

[8] H. David D. Lewis, Ph.D.Ornarose, Inc. & David D. Lewis Consulting, Naive Bayes Text Classification for Spam Filtering , 2007

[9] Le An Ha, “A method for word segmnetation in Vietnamese”, Proceedings of Corpus Linguistics , Lancaster, UK, 2003.

[10] Scott D.Anderson, “Combining Evidence using Bayes’ Rule”, 2008

[11] Yiming Yang và Xin Liu , “A re-examination oftext categorization method” , School of computer science, Carnegie Mellon University , 2008

[12] http://www.securelist.com [13] http://www.pewinternet.org [14] http://www.dict.vietfun.com [15] http://www.vi.wikipedia.org [16] http://www.openspf.org

Một phần của tài liệu Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG (Trang 85 - 88)

Tải bản đầy đủ (PDF)

(88 trang)