Cách thực hiện đối với bộ dữ liệu Colon Turmo tương tự như đối với bộ dữ liệu Madelon. Dưới đây, trình bày kết quả thực nghiệm trên bộ dữ liệu Colon Turmo qua 20 lần chạy thử, với tham số số cây (number of trees) của giải thuật RF lần lượt là 800, 1100, 1400 và 1700.
Số cây trong RF=800
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
RF_Training 0,75625 0,086982 0,59375 0,9375 RF_Validate 0,761667 0,070317 0,566667 0,9 RF_CT_Training 0,84375 0,04967 0,71875 0,90625 RF_CT_Validate 0,871667 0,05437 0,766667 0,966667
Bảng 6. 11: Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=800
Chương 6: Kết quả thực nghiệm Trang 65
Hình 6. 5: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=800
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
Thời gian (phút) 125.55 53.10 81.41 298.85
Bảng 6. 12: Độ tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=800
Số cây trong RF=1100
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
RF_Training 0.726563 0.09771 0.59375 0.90625 RF_Validate 0.786667 0.057634 0.633333 0.866667 RF_CT_Training 0.842188 0.068371 0.75 0.96875 RF_CT_Validate 0.871667 0.049883 0.766667 0.933333
Bảng 6. 13: Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=1100
Chương 6: Kết quả thực nghiệm Trang 66
Hình 6. 6: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=1100
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
Thời gian (phút) 129.49 61.23 74.53 296.51
Bảng 6. 14: Độ tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=1100
Số cây trong RF=1400
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
RF_Training 0.746875 0.096665 0.625 0.9375 RF_Validate 0.763333 0.082999 0.566667 0.866667 RF_CT_Training 0.84375 0.057354 0.75 0.96875 RF_CT_Validate 0.868333 0.045209 0.8 0.933333
Bảng 6. 15: Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=1400
Chương 6: Kết quả thực nghiệm Trang 67
Hình 6. 7: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=1400
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
Thời gian (phút) 203.63 447.20 76.93 2099.83
Bảng 6. 16: Độ tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=1400
Số cây trong RF=1700
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
RF_Training 0.746875 0.072335 0.59375 0.875 RF_Validate 0.781667 0.067082 0.666667 0.933333 RF_CT_Training 0.85625 0.038474 0.78125 0.9375 RF_CT_Validate 0.881667 0.038198 0.8 0.933333
Bảng 6. 17: Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=1700
Chương 6: Kết quả thực nghiệm Trang 68
Hình 6. 8: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=1700
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
Thời gian (phút) 123.76 103.83 76.40 553.43
Bảng 6. 18: Độ tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong RF=1700
6.2.3. Nhận xét
Kết quả thực nghiệm của phương pháp học máy đề xuất cũng thể trên bộ dữ liệu Colon Turmo cho kết quả tốt hơn so với phương pháp RF nguyên bản. Độ chính xác trung bình dự đoán của phương pháp học máy đề xuất cao hơn độ chính xác trung bình dự đoán của RF khoảng 10%, tính ổn định của phương pháp RF_CT cũng tốt hơn hẳn RF ban đầu (độ lệch chuẩn của RF_CT nhỏ hơn độ lệch chuẩn của RF).
So sánh kết quả dự đoán của phương pháp đề xuất với phương pháp ban đầu, cũng như một số phương pháp phân lớp khác trên bộ dữ liệu Colon Turmo, cho thấy phương pháp đề xuất cho kết quả tương đối tốt. Bảng 6.19 dưới đây là kết quả dự đoán của một số phương pháp phân lớp trên bộ dữ liệu Colon Turmo [13]:
Chương 6: Kết quả thực nghiệm Trang 69
Phương pháp Tỷ lệ dự đoán chính xác Độ lệch chuẩn
GA\SMV 84,7 9,1
Bootstrapped GA\SVM 80
Combined Kernel for SVM 75,33 7,0
DFE-RF 85,5 4,5
RF_CT 88,17 3,82
Bảng 6. 19: So sánh một số kết quả dự đoán sử dụng bộ số liệu Colon Turmo
Ta cũng nhận thấy rằng, mức độ tiêu tốn thời gian của RF_CT so với RF là lớn hơn rất nhiều. Tuy nhiên, cũng cần phải lý giải thêm rằng thời gian thực hiện thuật toán trên được phụ thuộc rất nhiều vào phần cứng máy tính, cũng như việc xác lập các tham số phù hợp trong giải thuật. Trong trường hợp của luận văn, dữ liệu được xử lý bằng máy Laptop với bộ xử lý Intel Core2 2.0 Ghz, RAM 2GB. Tuy nhiên, máy cũng không thường xuyên được sử dụng 100% hiệu suất cho việc giải quyết bài toán nói trên mà đôi khi phải xử lý đồng thời cùng với một số nhiệm vụ khác.
Kết luận Trang 70
KẾT LUẬN
Trong khuôn khổ của luận văn này tôi đã tìm hiểu cơ sở lý thuyết và một số thuật toán áp dụng giải bài toán trích chọn thuộc tính phù hợp bằng cách giảm chiều dữ liệu. Tôi đã chú trọng tìm hiểu kỹ về thuật toán rừng ngẫu nhiên (RF), phương pháp phân lớp RF_DEF. Từ những tìm hiểu này, tôi cũng đề xuất ra một phương pháp phân lớp (RF_CT) được cải tiến từ phương pháp RF_DEF nhằm tăng hiệu quả phân lớp, đặc biệt đối với các lớp mà số lượng các đối tượng giữa các lớp là không cân bằng nhau.
Từ những kết quả thực nghiệm trên hai bộ dữ liệu Madelon và Colon Turmo chúng ta thấy rằng phương pháp RF_CT thể hiện độ chính xác và tính ổn định tốt hơn phương pháp RF, cũng như phương pháp DFE-RF. Tuy nhiên, bên cạnh những ưu điểm này phương pháp cũng tồn tại một số hạn chế sau:
Chi phí thời gian cho phương pháp RF_CT là lớn hơn so với RF và DFE- RF. RF là một phương pháp phân lớp tốt đối với các nhiệm vụ phân lớp thuộc tính với số lượng tính lớn. Tuy nhiên, để chọn lựa giữa RF_CT hay RF hay DFE-RF khi thực hiện một nhiệm vụ phân lớp thuộc tính, chúng ta cũng nên cân nhắc ưu tiên độ chính xác dự đoán của giải thuật hay ưu tiên cho thời gian thực hiện nhiệm vụ.
RF_CT được xây dựng dựa trên phương pháp RF nguyên bản và cải tiến từ phương pháp DFE-RF, nên phương pháp cũng không tránh được các nhược điểm của phương pháp RF nguyên bản: không “nhạy” đối với thuộc tính không liên quan (irrelevant), tốc độ tính toán chậm, sử dụng nhiều bộ nhớ do việc phải lưu trữ các cây, …
Phương pháp chưa được kiểm nghiệm trên các bộ dữ liệu lớn, đa lớp và phức tạp, do đó chúng ta cũng chưa thấy được những hạn chế có thể xuất hiện khi phương pháp được kiểm nghiệm trên những bộ dữ liệu này.
Kết quả dự đoán của giải thuật vẫn chưa thực sự quá ấn tượng.
Để giải quyết những mặt còn hạn chế của phương pháp RF_CT được đề xuất ở trên trong thời gian tới tôi sẽ chú trọng tìm hiểu, cải tiến nhằm tăng tốc độ phân lớp của giải thuật. Đồng thời, tôi cũng tiến hành thử nghiệm phương pháp trên nhiều bộ dữ liệu khác nhau nhằm đánh giá độ “nhạy” của phương pháp đối với từng loại dữ liệu cụ
Kết luận Trang 71
thể. Qua đó, có thể đóng góp thêm một chọn lựa cho các nhà phát triển ứng dụng khi phát triển các ứng dụng liên quan đến phân lớp dữ liệu.
Với những đóng góp trong luận văn này, tôi hi vọng đã góp phần giải quyết một phần nhỏ liên quan đến bài toán khai phá dữ liệu nói chung cũng như bài toán phân lớp dữ liệu nói riêng. Tôi cũng hi vọng từ các đóng góp của mình có thể xây dựng lên các hệ thống đánh giá và dự đoán áp dụng một cách thiết thực vào đời sống xã hội.
Tài liệu tham khảo Trang 72
DANH MỤC TÀI LIỆU THAM KHẢO
Tài liệu Tiếng Việt
[1] Nam, N. H. (2009). "Tối ưu hóa KPCA bằng GA để chọn các thuộc tính đặc
trưng nhằm tăng hiệu quả phân lớp của thuật toán Random Forest." Tạp chí
Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 25(2009): tr 84-93. [2] Tuấn, N. V, Phân tích số liệu và tạo biểu đồ bằng R-Hướng dẫn thực hành,
NXB KHKT, 2007.
Tài liệu Tiếng Anh
[1] L. NikhilR.Pal, Advanced Techniques in Knowledge Discovery and DataMining: Springer, 2005.
[2] X. F. Lipo Wang, Data Mining with Computational Intelligence: Springer,
2005.
[3] H. M. Huan Lui, Feature Selection for Knowledge Discovery and Data mining: Kluwer Acadamic Publishers, 2007.
[4] S. IsabelleGuyon, MasoudNikraveshandLoftiA.Zadeh, Feature Selection:
Springer, 2006.
[5] E. F. Ian H.Witten, Data Mining: Practical Machine Learning Tools and Techniques, Second Edition ed.: Morgan KauFmann Publishers, 2005.
[6] The Top Ten Algorithms in Data Mining: Chapman & Hall/CRC, 2009.
[7] L. Breiman, "Random Forests," Machine Learning Journal Paper, vol. 45, 2001.
[8] A. C. Leo Breiman. Random Forests. Available:
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
[9] H. Liu and H. Motoda, Computational Method of Feature Selection: Chapman
& Hall/CRC, 2008.
[10] P. I.Good, Resampling Methods: A Practical Guide to Data Analysis, Third
Edition ed.: Birkhauser, 2006.
[11] B. Efron, The Jackknife, the Bootstrap and Other Resampling Plans 6ed.: Capital City Press, 1994.
Tài liệu tham khảo Trang 73
[12] M. K. Jiawei Han, Data Mining:Concepts and Techniques, Second Edition ed.: Diane Cerra, 2006.
[13] T.-N. V. Ha-Nam Nguyen1, Syng-Yup Ohn1,Young-Mee Park2, Mi Young Han3, and Chul Woo Kim4. (2006) Feature Elimination Approach Based on Randon Forest for Cancer Diagnosis. MICAI 2006: Advances in Artificial Intelligence. [14] N. J. Marina Sokolova1, and Stan Szpakowicz3, "Beyond Accuracy, F-score and
ROC: a Family of Discriminant Measures for Performance Evaluation,"
Australian Artificial Intelligence, 2006.
[15] (2003, Dataset for Seventeenth Annual Conference on Neural Information Processing Systems. Available: http://www.nipsfsc.ecs.soton.ac.uk/datasets/ [16] L. Rokach. (2008 )Genetic Algorithm-based Feature Set Partitioning for
Classification Problems. Pattern Recognition. 1693-1717 Available:
http://portal.acm.org/citation.cfm?id=1340831
[17] M. W. a. X. C. Heping Zhang*. (2009) Software Willows: a memory efficient tree and forest construction package. BMC Bioinformatics. Available:
http://www.biomedcentral.com/content/pdf/1471-2105-10-130.pdf [18] P. Spector, Data Manipulation with R: Springer, 2008.
[19] M. T. Pascal Poncelet, Florent Masseglia, Data Mining Patterns: New Methods
and Applications: InformatIon science reference, 2008.
[20] T. H. Jerome Friedman, Robert Tibshirani, The Elements of Statistical Learning: Data Mining, Inference and Prediction: Spinger, 2008.
[21] C. V. Giovanni Felici, Mathematical Methods for Knowledge Discovery and Data Mining: Information science reference, 2008.
[22] W. M. a. S. Kally, "An Optimum Random Forest Model for Prediction of Genetic Susceptibility to Complex Diseases," in Advances in Knowledge Discovery and Data Mining. vol. Volume 4426/2007, ed: Springer Berlin /
Heidelberg, 2007, pp. 193-204.
[23] D. Larose, Data mining methods and models: Willey-Interscience 2006.
[24] F. Livingston, "Implementation of Breiman's Random Forest Machine Learning Algorithm " Machine Learning Journal Paper, 2005.
[25] M. G. Dan Steinberg, N. Scott Cardell, A Brief Overview to RandomForests:
Tài liệu tham khảo Trang 74
[26] L. Torgo, Data Mining with R: learning by case studies: LIACC-FEP, 2003. [27] A. Miller, Subset Selection in Regression, 2 ed.: Chapman & Hall/CRC, 2002. [28] L. Breiman. (2002, Manual On Setting Up, Using, And Understanding Random
Forests V3.1. Available:
http://oz.berkeley.edu/users/breiman/Using_random_forests_V3.1.pdf
[29] A. D. Gordon, Classification, 2nd Edition ed.: Chapman & Hall/CRC, 1999. [30] B. Efron, The Jackknife, the Bootstrap and other Resampling Plans: Capital
City Press, 1982.
[31] X. Su. Bagging and Random Forests. Available: