.Các đóng góp khoa học của luận văn

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng mô hình đa phân lớp dựa trên GA và SVM (Trang 60)

Giới thiệu tổng quát về phân lớp, nội dung thuật SVM, các kĩ thuật đa phân lớp One against all và One against one, giải thuật di truyền.

Kết hợp kĩ thuật đa phân lớp One against all với thuật toán SVM để phân lớp tập dữ liệu k lớp.

Sử dụng GA để tối ưu các tham số của các Kernel cho mô hình, dựa trên các hàm Kernel cơ bản là Gauss (RBF), Poly và ERBF

Ứng dụng mô hình vào việc đa phân lớp một vài tập dữ liệu.

2.Hƣớng phát triển

Trong bài toán đa phân lớp sử dụng các Kernel, việc tìm các Kernel tốt có ảnh hưởng lớn tới sai số đa phân lớp. Trong khuôn khổ luận văn tôi chỉ đưa bài toán về việc áp dụng GA để tìm kiếm giá trị tham số tốt nhất cho các Kernel, dựa trên các hàm Kernel Gaussian và Poly. Kết quả của việc phân lớp không chỉ phụ thuộc vào các hàm Kernel mà còn phụ thuộc vào dữ liệu áp dụng vào mô hình. Trong khuôn khổ luận văn này, chúng tôi chỉ mô phỏng và sử dụng với những tập dữ liệu có số ít lớp với số lượng nhỏ các thuộc tính. Vì vậy hướng phát triển tiếp theo có thể là cải tiến mô hình đáp ứng cho nhiều tập dữ liệu trong cuộc sống cần phải sử lý dữ liệu tốt hơn trước khi áp dụng vào mô hình nhằm thu được kết quả tốt hơn, mang tính thực tiễn cao hơn đối với dữ liệu đa lớp.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Nguyễn Đức Cường, Khoa Công nghệ thông tin, Đại học Bách Khoa, Thành phố Hồ Chí Minh - Tổng quan về khai phá dữ liệu (Reviewing of Data Mining).

[2] Giáo sư Hà Quang Thụy, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội - Giáo trình giảng dạy môn Khai phá dữ liệu Web (2008).

Tiếng Anh

[3] Grefenstette, J. J. (1991) - Strategy acquisition with genetic algorithms, in Handbook of Genetic Algorithms, Davis, L. D. (Ed.), Boston: Van Nostrand Reinhold.

[4] Nello Cristianini,John Shawe-Taylor (2000) An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge University Press

[5] Jiawei Han, Micheline Kamber(2006): Data Mining:Concepts and Techniques (second edition) 285-289 , Morgan Kaufmann Publishers

[6] Yi Liu, Yuan F.Zheng (2007) One- Against –All Multi-Class SVM Classification Using Reliability Measures Department of Electrical and Computer Engineering, The Ohio State University

[7] Xiao-Lei, Kang Li (2007) A new score correlation analysis Multi-class Support Vector Machine for Microarray, Proceedings of International Joint Conference on Neural Networks, Orlande, Florida ,USA, August 12-17, 2007

[8] T. Michell (1997), Machine Learning, Tom Mitchell, McGraw Hill.

[9]. David M.J Tax, Robert P.W Duin (2002) Using two-class classifiers for multiclass classification Pattern Recognition Group, Faculty of Applied Science, Delft University of Technology

[10] Jonathan Milgram, Mohamed Cheriet, Robert Sabourin (2006) “One Against One” or “One Against All” Which One is Better for Handwriting Recognition with SVMs? École de Technologie Supéieure, Montréal, Canada

[11] Jane P.V, Introduction to support vector machines and applications to computational biology, July 17, 2001

Formatted: Font: Bold

Formatted: Vietnamese (Vietnam)

Formatted: Vietnamese (Vietnam)

[12] Bernhard S., Isabelle G., Jason W., Statistical Learning and Kernel Methods in Bioinformatics

[13] Nesterov, Y. And Nemirovsky, A . (1994) Interior Point Polynomial Methods in Convex Programming: Theory and Applications. Philadelphia, PA: SIAM. [14] Ping Zhong, Maosao Fukushima (2005) Regularized nonsmooth Newton

method for multi-class support vector machines, Systems Analysis, Optimization and Data Mining in Biomedicine Pages 225-236

[15] Genetic Algorithm: http://www.cs.rutgers.edu/~mlittman/courses/ml04/

[16] Laetitia Jourdan, Clarisse Dhaenens, El-Ghazali Talbi. LIFL, University of Lille, France - A Genetic Algorithm for Feature Selection in Data-Mining for Genetics

PHỤ LỤC

1.Mô tả dữ liệu sử dụng

Trong luận văn tôi sử dụng hai bộ dữ liệu để kiểm tra và đánh giá mô hình.

Bộ dữ liệu ung thư Stomach với 311 mẫu và có 119 thuộc tính, bộ dữ liệu có 7 lớp, lớp có nhãn là 0 tương ứng với những người không mang bệnh, các nhãn còn lại từ 1,2,3,4,5,6 tương ứng lần lượt những người bị bệnh ung thư với các giai đoạn nặng dần.

Bảng mô tả tập dữ liệu ung thư Stomach

1 2 3 119 Nhãn 1 642.48 835.28 615.65 … 329.66 6 2 587.21 786.04 380.87 … 131.73 1 3 1006 1325.7 330.09 … 252.63 5 4 524.47 646.16 417.86 … 314.33 1 … … … … 310 648.43 1155.9 230.35 … 236.92 0 311 496.06 1413.8 293.8 … 335.01 0 312 1060 1205.4 177.06 … 224.09 0

- Bộ dữ liệu thứ 2 là bộ dữ liệu về men Yeast, có 180 mẫu và 8 thuộc tính.Bộ này có 5 lớp tương ứng như sau nhãn 4 là là ME1(membrane protein, cleaved signal), nhãn 5 là EXC (extracellular), nhãn 6 là ME2( membrance protein, uncleved signal), nhãn 8 là VAC (vacuolar), nhãn 9 là POX( peroxisomal).

Bảng mô tả tập dữ liệu Yeast

1 2 3 8 Nhãn 1 0.8 0.88 0.36 … 0.33 4 2 0.78 0.74 0.42 … 0.22 4 3 0.75 0.7 0.38 … 0.22 4 4 0.73 0.83 0.43 … 0.22 4 … … … … 178 0.57 0.52 0.46 … 0.41 9 179 0.82 0.63 0.47 … 0.22 9 180 0.74 0.75 0.45 … 0.22 9

2. Chi tiết các Module chương trình

+ Hàm CreateDataAppTestReg: Chia tập dữ liệu thành 2 tập Train và Test với tỉ lệ lựa chọn

+ Hàm svmkernel: Thực hiện tính toán các hàm nhân

+ Hàm svmmulticlassoneagainstall : Thực hiện phân lớp với tập dữ liệu N lớp. + Hàm svmmultival: Thực hiện tính toán giá trị lớp của các mẫu

+ Hàm fitnessCall : Thực hiện việc phân lớp và đánh giá lỗi với từng bộ tham số của hàm nhân.

+ Các tham số c, kerneloptions, lambda là các tham số của hàm nhân Gaussian và Poly. Đây cũng là các chromosome của GA cần được tối ưu.

Giao diện của chương trình:

Hình 4.3 Giao diện của chương trình

Hình 4.2 Hàm đánh giá của GA tại mỗi thế hệ

Hình vẽ biểu diễn giá trị của hàm đánh giá (fitness function) tại mỗi thế hệ: trục tung – fitness value (chiều dọc) thể hiện giá trị của hàm đánh giá; trục hoành – Generation (chiều ngang) thể hiện số thế hệ trong thuật toán di truyền.

Chấm màu xanh và chấm màu đen tương ứng thể hiện giá trị tốt nhất và trung bình mà fitness function tính toán được tại mỗi thế hệ.

Best: 10.7692 là giá trị tốt nhất của fitness function tính toán được tại thế hệ cuối cùng (ở ví dụ này thế hệ cuối cùng là 60).

Mean: 11.5385 là giá trị trung bình của fitness function tính toán được tại thế hệ cuối cùng (ở ví dụ này thế hệ cuối cùng là 60).

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng mô hình đa phân lớp dựa trên GA và SVM (Trang 60)

Tải bản đầy đủ (PDF)

(65 trang)