Điều kiện dừng là Generations sẽ được tăng dần trong mỗi trường hợp.
Hình 5.11: So sánh kết quả phân lớp trung bình trong 4 trường hợp kiểm thử và kết quả phân lớp của dữ liệu gốc.
Nhận xét:
o Tỷ lệ phân lớp chính xác đối với bộ dữ liệu huấn luyện với tập thuộc tính mới không thay đổi nhiều khi ta tăng dần giá trị của Generations và tỷ lệ
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
Tỷ lệ đúng của tập huấn luyện Kết quả của tập kiểm tra
Generations=30 Generations=40 Generations=50 Generations=60 Dữ liệu gốc
52
này lớn hơn so với tỷ lệ phân lớp chính xác cho bộ dữ liệu huấn luyện gốc (119 thuộc tính).
o Khi ta tăng dần giá trị của Generations, thì tỷ lệ phân lớp chính xác đối với bộ dữ liệu test không có sự cải thiện rõ ràng, nhưng mô hình huấn luyện lại có tính ổn định hơn.
5.4.2.4. Kết luận
o Sử dụng hàm kernel Poly (kernel tuyến tính) trong thuật toán phân lớp MPM vẫn chưa thực sự hiệu quả với tập dữ liệu phi tuyến chúng ta sử dụng để đánh giá mô hình.
o Số lượng các đặc trưng giữ lại sau khi giảm chiều không làm ảnh hưởng nhiều tới kết quả phân lớp thu được.
o Khi tiến hành giảm chiều tập dữ liệu ban đầu (311x119), rồi sử dụng bộ phân lớp MPM thì rõ ràng tỷ lệ phân lớp chính xác đã tăng lên, đồng thời tỷ lệ chính xác phân lớp trong huấn luyện cũng được cải thiện.
o Khi ta tăng số thế hệ trong thuật toán di truyền nhằm tìm ra chromosome tốt nhất ở thế hệ cuối cùng làm dữ liệu đầu vào cho bộ phân lớp, thì tỷ lệ phân lớp chính xác của MPM cũng tăng lên nhưng độ ổn định của kết quả không thực sự tốt hơn. Tuy nhiện tỷ lệ chính xác trong huấn luyện được cải thiện rõ ràng và ổn định hơn.
53
Chương 6: Tổng kết
Trong khóa luận này, bước đầu tôi đã tìm hiểu cơ sở lý thuyết và thuật toán cho việc giải bài toán trích chọn thuộc tính phù hợp dựa trên các kỹ thuật giảm chiều dữ liệu. Tôi đã trình bày ý tưởng kết hợp thuật toán di truyền (Genetic Algorithm) trong cải tiến hiệu quả phân lớp của thuật toán phân lớp minimax probability machine. Các kết quả thực nghiệm của phương pháp này đã cải thiện hiệu quả phân lớp so với thuật toán nguyên gốc, tuy nhiên ta cũng nhận thấy sự kết hợp này vẫn còn những điểm hạn chế như:
Chưa cải thiện rõ rệt tốc độ xử lý của bộ phân lớp kết hợp so với bộ phân lớp gốc. Số lượng chiều của dữ liệu cần giảm là bao nhiêu để vừa giảm được thuộc tính dư
thừa vừa cải thiện được hiệu quả phân lớp tốt nhất.
Trong quá trình giảm chiều không thể tránh khỏi những mất mát hay sai sót, do đó sự mất mát thông tin quan trọng dẫn đến hiệu quả của giảm chiều đối với phương pháp phân lớp là không ổn định.
Kết quả phân lớp chính xác vẫn chưa thực sự làm hài lòng.
Để giải quyết những vấn đề còn tồn tại trong phương pháp này, tôi sẽ thử nghiệm kết hợp các hàm đánh giá (fitness function) khác nhau trong thuật toán di truyền, nhằm tìm ra kết quả đầu vào tốt hơn cho thuật toán phân lớp và cũng để cải thiện tốc độ tìm kiếm.
Ngoài ra, tôi sẽ thử nghiệm phương pháp tối ưu hàm kernel của thuật toán MPM nhằm thu được kết quả phân lớp chính xác hơn (lớn hơn 95%) và ổn định hơn.
Trong khóa luận này tôi hi vọng thử nghiệm giải quyết bài toán phân lớp với dữ liệu nhiều chiều và tạo ra các hệ thống đánh giá và dự đoán để có thể áp dụng một cách thiết thực vào đời sống.
54
Tài liệu tham khảo
Tài liệu tham khảo tiếng Anh
[1] Fayyad, Piatesky-Shapiro, Smyth (1996) - From Data Mining to Knowledge Discovery: An Overview. In Fayyad, Piatesky-Shapiro, Smyth, Uthurusamy -
Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, MenloPark, CA, 1996, 1-34.
[2] Jiawei Han and Micheline Kamber (2001) - Data Mining: Concepts and Techniques (second edition). Chapter 1.
[3] Boris Kovalerchuk and Evgenii Vityaev (2001) - Data mining in Finance: Advances in Relational and Hybrid Methods, Kluwer Academic Publishers, Boston, Dordrecht – London, 2001.
[4] David Taniar, Monash University, Australia - Research and Trends in Data Mining Techonologies and Application, 2007.
[5] Ralf Herbrich, the MIT Press, Cambridge, Massachussets, London, England -
Learning Kernel Classification and Algorithms.
[6] H. Liu and L.Yu, Department of Computer Science and Engineering, Arizona State University, Tempe - Feature Selection for Data mining.
[7] H. Liu and H.Motoda - Feature Extraction, Construction and Selection: A Data Mining Perspective.
[8] P.A. Devijver and J.Kittler - Pattern Recoginition: A Statistical Approach. [9] Peter Norvig, Palo Alto, California (2006) - Feature Selection Book.
[10] JUN ZHAO(a,b), GUO-YIN WANG(b), HONG TANG(a), HUA LI(a) - The study on technologies for feature selection.
(a)
Department of Computer Science of Chongqing University, Chongqing, 400065, China.
(b)
Inst. of Computer Sci. & Tech. Of Chongqing Univ. of P. & T., Chongqing, 400065, China.
[11] Ricardo Gutierrez-Osuna, Wright State University - Intelligent Sensor Systems (Cross Validation).
[12] M. Pei1, E. D. Goodman1, W. F. Punch2 - Feature Extraction Using Genetic Algorithms.
55
1
Case Center for Computer – Aided Engineering and Manufacturing.
2
Department of Computer Science, Genetic Algorithms Research and Application Group (GARAGe), Michigan State University, 2325 Engineering Building, East Lansing, MI 48824.
[13] Genetic Algorithm and Direct Search Toolbox 2.1.4 – Help Document.
http://www.mathworks.com/access/helpdesk/help/helpdesk.html
[14] Laetitia Jourdan, Clarisse Dhaenens, El-Ghazali Talbi. LIFL, University of Lille, France - A Genetic Algorithm for Feature Selection in Data-Mining for Genetics.
[15] Grefenstette, J. J. (1991) - Strategy acquisition with genetic algorithms, in Handbook of Genetic Algorithms, Davis, L. D. (Ed.), Boston: Van Nostrand Reinhold.
[16] Gert R. G. Lanckriet, Lauren El Ghaoui, Chrianjib Bhattacharyya and Micheal I. Jordan. University of California - Minimax Probability Machine.
http://robotics.eecs.berkeley.edu/~gert/index.htm
[17] Kaizhu Huang, Haiqin Yang, Irwin King, Michael R. Lyu and Laiwan Chan - The Minimum Error Minimax Probability Machine.
[18] Kaizhu Huang, Haiqin Yang, Irwin King, Michael R. Lyu and Laiwan Chan -
Biased Minimax Probability Machine for Medical Diagnosis.
[19] Zhen-Guo Chen and Shu Wang. Department of Computer Science and Technology, North China Institute of Science and Technology, East Yanjiao, Beijing, China -
Minimax Probability Machine with Genetic Feature Optimized for Intrusion Detection.
[20] Genetic Algorithm: http://www.cs.rutgers.edu/~mlittman/courses/ml04/
Tài liệu tham khảo tiếng Việt
[21] Nguyễn Đức Cường, Khoa Công nghệ thông tin, Đại học Bách Khoa, Thành phố Hồ Chí Minh - Tổng quan về khai phá dữ liệu (Reviewing of Data Mining).
[22] Vấn đề tri thức và “xã hội tri thức”
http://www.vninformatics.com/forum/topic/40076/Van-de-tri-thuc-va-xa-hoi-tri- thuc.html;jsessionid=7D49738B61116C5B527B009CC142141F?zone=2
[23] Giáo sư Hà Quang Thụy, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội - Giáo trình giảng dạy môn Khai phá dữ liệu Web (2008).