3.4. Đánh giá mơ hình phân lớp dữ liệu Mushroom 3.4.1 Đánh giá mơ hình bằng phương pháp Hold-out 3.4.1 Đánh giá mơ hình bằng phương pháp Hold-out
Chúng ta sẽ chia dữ liệu thành 2 phần: 70% để xây dựng mơ hình phân lớp (tập train), 30% để kiểm tra (tập test).
Bảng 3.4: Hiệu năng của mơ hình dự đốn, đánh giá bởi kiểm tra 70%
Classifier Precision Recall F-measure ACC Time Confusion matrix
Nạve Bayes 0,990 0,915 0,951 95.4042% 0.01
KNN (k=1) 1 1 1 100% 0.03
J48 1 1 1 100% 0.05
3.4.2 Đánh giá mơ hình bằng phương pháp k-fold Cross validation
Ta chọn k=10, nghĩa là chia tập dữ liệu thành 10 phần, 1 phần dùng làm tập kiểm tra (test set), 9 phần dùng để huấn luyện (train set).
Bảng 3.5: Hiệu năng của mơ hình dự đốn, đánh giá bởi kiểm tra chéo mặt (fold=10 cross-validation)
Classifier Precision Recall F-measure ACC Time Confusion matrix
Nạve Bayes 0,991 0,922 0,955 95.8272% 0.02
KNN (k=1) 1 1 1 100% 0.02
SVM 1 1 1 100% 0.98
J48 1 1 1 100% 0.03
3.5. Kết luận thực nghiệm phần lớp dữ liệu Mushroom
Qua kết quả phân lớp trên, ta thấy ngồi mơ hình Naive Bayes, các mơ hình cịn lại đều cho kết quả phân lớp rất tốt (100% phân lớp chính xác). Điều này cho thấy, các mơ hình phân lớp ở trên khá phù hợp cho bài tốn phân lớp, dự đốn nấm.
Từ kết quả của một số mơ hình phân lớp ở trên, đặc biệt là mơ hình phân lớp dựa vào cây quyết định, ta cĩ thể biết được một loại nấm cĩ độc hay khơng nhờ vào
Về đặc điểm mùi, nấm nào ăn được thường cĩ mùi hạnh nhân và mùi hoa hồi, nấm độc thường cĩ mùi hơi, tanh, và cay.
Cịn đặc điểm màu sắc, chỉ cĩ nấm màu xanh lá cây là khơng ăn được hoặc nấm cĩ độc, các lồi nấm cĩ màu loè loẹt như cam, vàng, tím đều là nấm ăn được.
Thật thú vị, thơng qua một số thuật tốn phân lớp (ví dụ: cây quyết định), ta cĩ thể phân biệt được đâu là nấm độc, đâu là nấm ăn được chỉ thơng qua một số đặc điểm nhận diện qua mùi và màu sắc.
3.6 Tổng kết chương
Chương 3 trình bày các vấn đề chính về bài tốn phân lớp/dự đốn tính chất (ăn được/cĩ độc) của nấm thơng qua việc áp dụng một số phương pháp/kỹ thuật phân lớp dữ liệu. Đặc biệt, chương trình đã xây dựng trình bày mơ hình tổng thể bài tốn phân lớp dự đốn nấm trên cơ sở áp dụng các thuật tốn phân lớp và phần mềm hỗ trợ trực quan Weka. Kết quả thực nghiệm của bài tốn được trình bày khá chi tiết trên cơ sở áp dụng phần mềm Weka và các phương pháp phổ biến như: Naive Bayes, Nearest neighbor, Support Vector Machines, Decision tree (J48).
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết quả đạt được:
Sau một thời gian làm việc, nghiên cứu dưới sự hướng dẫn tận tình của thầy giáo TS. Nguyễn Văn Núi, tơi đã đạt được các kết quả sau đây:
1. Tổng hợp được tương đối đầy đủ và chính xác khái niệm và kiến thức liên quan đến khai phá dữ liệu và phát hiện tri thức, các thuật tốn phân lớp dữ liệu và ứng dụng về việc dự dốn.
2. Giới thiệu và trình bày cơng cụ phần mềm Weka (Waikato Environment for Knowledge Analysis) là một bộ phần mềm học máy được Đại học Waikato, New Zealand phát triển bằng Java., ứng dụng trong phân lớp dữ liệu.
3. Tìm hiểu các bài tốn phân lớp dữ liệu áp dụng cho phân lớp và dự đốn nấm Mushroom.
4. Cài đặt, cấu hình phần mềm Weka và tiến hành phân lớp dữ liệu thực hiện trong phân lớp dữ liệu Mushroom.
5. Tĩm tắt và đề xuất một số tính chất tiêu biểu của nấm cĩ thể trở thành thơng tin, căn cứ chính, qua đĩ giúp phân biệt dự đốn một loại nấm bất kỳ là cĩ độc hoặc ăn được thơng qua một số mơ hình phân lớp nhất định (ví dụ: cây quyết định).
Hướng phát triển của luận văn:
Trong thời gian tới, tơi sẽ tiếp tục nghiên cứu sâu hơn về các vấn đề của phân lớp dữ liệu, đặc biệt sẽ nghiên cứu tìm hiểu sâu hơn việc ứng dụng phần mềm Weka để tiến hành phân tích dữ liệu ứng dụng trong các lĩnh vực cụ thể như phân lớp, dự đốn Mushroom.
Tiến hành nghiên cứu thêm các thuật tốn phân lớp dữ liệu, tối ưu hĩa các thuật tốn phân lớp dữ liệu, từ đĩ đề xuất mơ hình phân lớp, dự đốn vị Mushroom với độ chính xác cao hơn nữa.
TÀI LIỆU THAM KHẢO Tiếng Việt
[1]. Đỗ Phúc (2017), Giáo trình khai phá dữ liệu, NXB ĐHQG TPHCM
[2]. Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013), Giáo trình
khai phá dữ liệu, NXB Đại học Quốc gia Hà Nội.
[3]. Hà Quang Thụy (Chủ biên), Phan Xuân Hiếu – Đồn Sơn – Nguyễn Trí Thành, Nguyễn Thu Trang – Nguyễn Cẩm Tú (2009), Giáo trình khai
phá dữ liệu, NXB .Giáo dục Việt Nam
[4]. Website: https://ndhcuong.wordpress.com/hoc-phan/khai-pha-du-lieu/
[5]. Website:https://ongxuanhong.wordpress.com/2015/08/25/ap-dung-cac- phuong -phap- phan-lop-classification-tren-tap-du-lieu-mushroom/
Tiếng anh
[6]. Joydeep Ghosh (2003), Scalable Clustering, Chapter 10, pp. 247-278, Formal version appears in: The Hand book of Data Mining, Nong Ye (Ed)
[7]. Anil K. Jain and Richard C. Dubes (1988), Algorithms for clustering data, Prentice Hall, Inc., USA.
[8]. Ho Tu Bao (1998), Introduction to knowledge discovery and data mining.
[9]. Jiawei Hanand Micheline Kambel (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers.
[10]. J.Ross Quinlan (1993), C4.5: Programsfor Machine Learning, Morgan Kaufmann Publishers.
[11]. Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009
[12]. Mehmed Kantardzic; Data mininng concepts, models, methods, and algorithms; John Wiley & Sĩn, 2003
[13]. Usama Fayyad, Gregory Piatesky-Shapiro, and Padhraic Smyth; From data mining to knowledge discovery in databases
[14]. Concepts-and-Techniques-3rd-Edition-Morgan-Kaufmann-(2011)
[15]. WEKA Manual for Version 3-8-0 Remco R. Bouckaert, Eibe Frank, Mark Hall, Richard Kirkby, Peter Reutemann, Alex Seewald, David Scuse, April 14, 2016 [16]. Website: https://archive.ics.uci.edu/ml/datasets/mushroom