So sánh với một số phương pháp khác

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu áp dụng thuật toán multinomial bayes vào phân loại văn bản (Trang 52 - 57)

Để đánh giá thêm hiệu suất của mơ hình dự đốn, luận văn đã tiến hành huấn luyện tập dữ liệu trên các mơ hình học máy phổ biến khác Multinomial Logistic Regression với cùng bộ 5-fold Cross-Validation tương tự với bước thực nghiệm thuật tốn Multinomial Bayes.

Kết quả thực nghiệm như sau bảng sau:

Bảng 3.5 Kết quả thực nghiệm thuật tốn Multinomial Logistic Regression với 5 phần cross - validation

K-Fold Precision Recall F-Score Accuracy

Fold #1 0.8555 0.8437 0.8462 0.8437 Fold #2 0.8542 0.8373 0.8413 0.8373 Fold #3 0.8625 0.8507 0.8535 0.8507 Fold #4 0.8443 0.8229 0.828 0.8229 Fold #5 0.8411 0.8245 0.8286 0.8245 Trung bình 0.8515 0.8358 0.8395 0.8358 Nhận xét:

Từ 02 lần thực nghiệm trên, thuật tốn Multinomial Bayes đạt độ chính xác 85.22% tốt hơn thuật tốn Multinomial Logistic Regression với độ chính xác xấp xỉ 83.58%.

So sánh với mơ hình tốt nhất hiện nay với bộ dữ liệu “20 Newsgroups” của nhĩm nghiên cứu Đại học Stanford cĩ tên “Stanford Classifier” đạt độ chính xác xấp xỉ 88.7% (https://nlp.stanford.edu/wiki/Software/Classifier/20_Newsgroups)

3.9. Kết luận

Trong chương này, nội dung được nêu ra là cách thức mơ tả dữ liệu và chuẩn hĩa bộ dữ liệu 20 Newsgroups được sử dụng trong luận văn. Các bước tiền xử lý dữ liệu, chạy thuật tốn phân loại Multinomial Bayes với tập dữ liệu 18758 văn bản với cơng cụ Apache Spark MLLib. Kết quả với độ chính xác trên 85.23% tốt hơn so với thuật tốn Multinomial Logistic Regression với độ chính xác 83.58% và gần với thuật tốn tốt nhất đối với bộ dữ liệu 20 Newsgroups – Stanford Classifier với độ chính xác 88.7%.

KẾT LUẬN 1. Kết quả đạt được

Luận văn tiến hành nghiên cứu giải quyết bài tốn phân loại văn bản áp dụng thuật tốn Multinomial Bayes. Từ việc giải quyết bài tốn giúp cho chúng ta tiến gần hơn đến sự thơng minh của thế giới ảo, giúp quản lý tốt hơn hệ thống thơng tin ngập tràn những nội dung. Bài tốn là nền tảng cho nhiều ứng dụng quan trọng thực tế như quảng cáo nhắm mục tiêu, các hệ thống cung cấp tiếp thị dịch vụ thương mại tới đúng người dùng…

Những kết quả chính mà luận văn đạt được:

 Nghiên cứu và tìm hiểu về thuật tốn Multinomial Bayes trên tập nhiều nhãn, đưa ra ưu điểm của thuật tốn Multinomial Bayes so với các thuật tốn phân loại văn bản khác.

 Nghiên cứu và làm thực nghiệm khi áp dụng Multinomial Bayes để đánh giá trên tập dữ liệu 20 Newsgroups – Stanford Classifier với 18758 văn bản trên cơng cụ Apache Spark MLLib cĩ được độ chính xác tốt.

 So sánh và phân tích các kết quả thực nghiệm với các mơ hình thuật tốn khác và đưa ra được trường hợp cho kết quả tốt nhất.

2. Hạn chế:

 Nghiên cứu dựa trên dữ liệu cĩ sẵn

 Kết quả thực nghiệm đạt được vẫn chưa thực sự tốt so với kỳ vọng.

 Tốc độ xử lý dữ liệu vẫn chậm khi tập dữ liệu lớn

3. Hướng phát triển

 Thu thập bộ dữ liệu lớn hồn chỉnh, phong phú về các lịch sử truy cập của người dùng Internet.

 Dựa trên nhiều đặc trưng để gĩp phần cải thiện khả năng phân loại và áp dụng cho các bài tốn thực tiễn.

 Ngồi ra nghiên cứu và thử nghiệm với một số mơ hình thuật tốn khác để tìm ra thuật tốn phù hợp với bài tốn phân loại người dùng.

DANH MỤC TÀI LIỆU THAM KHẢO

[1] Nguyễn Minh Thành (2011) – Xử lý ngơn ngữ tự nhiên – Đồ án mơn học, Đại học Quốc gia Thành phố Hồ Chí Minh (2-6) 2011.

[2] Đỗ Thanh Nghị, Phạm Nguyên Khang – Phân loại văn bản: Mơ hình túi từ và tập hợp mơ hình máy học tự động - Tạp chí Khoa học trường Đại học Cần Thơ số 28 - (10-11) 2013.

[3] Trần, C.Đ và Phạm N.K.: Phân loại văn bản với máy học véc tơ hỗ trợ và cây quyết định. Tạp chí Khoa học Trường Đại học Cần Thơ số (21a): 52-63 (2012). [4] Xiaojin Zhu (2008). Semi-Supervised Learning Literature Survey. Computer Sciences TR 1530, University of Wisconsin – Madison, February 22, (9) 2008. [5] Xiaojin Zhu (2005). Semi-Supervised Learning with Graphs. PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005.

[6] Dunja Mladenic' . Machine Learning on Non-homogeneous, Distributed Text Data. PhD. Thesis, University of Ljubljana, Slovenia. 2 (1988).

[7] Xiangrui Meng, Ameet Talwalkar, Evan Sparks, Virginia Smith, Xinghao Pan, Shivaram Venkataraman, Matei Zaharia, Rean Griffith, John Duchi, Joseph Gonzalez, Michael Franklin, Michael I. Jordan, Tim Kraska – Mlib: Scalable Ma- chine Learnig on Spark (4-6).

https://stanford.edu/~rezab/sparkworkshop/slides/xiangrui.pdf

[8] Multiclass classification - https://spark.apache.org/docs/2.2.0/mllib- evaluation-metrics.html#multiclass-classification

[9] Mendenhall's studies of word-length distribution in the works of Shakespeare and Bacon. Available from:

https://academic.oup.com/biomet/article-abstract/62/1/207/220350/Mendenhall-s- studies-of-word-length-distribution

[10] Argamon, S., Koppel, M., Fine, J. and Shimoni, A. (2003). Gender, Genre, and Writing Style in Formal Written Texts, Text 23(3), August.

[12] Sebastiani, F.: Machine learning in automated text categorization. ACM Computing Surveys 34(1), 1–47 (1999).

[13] Breiman, L.: Random forests. Machine Learning 45(1), 5–32 (2001).

[14] Lewis, D. and Gale, W (1994), “A sequential algorithm for training test clas- sifiers”. In proc, of SIGIR-94.

[15] McCallum, A., Nigam, K,: A comparion of event models for nạve Bayes text classification. Technical report, American Association for Artificial Intelli- gence Workshop on Learning for Text Categorization, 2 (1998).

http://www.cs.cmu.edu/~knigam/papers/multinomial-aaaiws98.pdf

[16] Ashraf M.Kibriya, Eibe Frank, Bernhard Pfahringer, and Geoffrey, and Geoffrey Holmes “ Multinomial Nạve Bayes for Text Categorization Revisited”, Department of Computer Science. University of Waikato – Hamilton, New Zealand (chap 2.3).

[17] Naive Bayes Classifier, Feature Engineering – Machine learning cơ bản https://machinelearningcoban.com/2017/08/08/nbc/

https://machinelearningcoban.com/general/2017/02/06/featureengineering/ [18] Dominhhai - Hồi quy logistic (Logistic Regression)

https://dominhhai.github.io/vi/404.html?fbclid=IwAR2SD5krRlkrV3QtRXfahQtUL -Ze4mz1vPjfzwHbJbUo0a6zR2YjxXe3ABA

[19] Multiclass classification - Evaluation Metrics - RDD-based API https://spark.apache.org/docs/2.2.0/mllib-evaluation-metrics.html#multiclass- classification

[20] Bài giảng khai phá dữ liệu web – Đại học cơng nghệ - Đại học Quốc Gia Hà Nội

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu áp dụng thuật toán multinomial bayes vào phân loại văn bản (Trang 52 - 57)

Tải bản đầy đủ (PDF)

(57 trang)