So sánh hiệu quả của các hàm trọng số

Một phần của tài liệu Nghiên cứu ứng dụng kỹ thuật BoostMetric nhằm tăng hiệu quả phân lớp dữ liệu lớn (Trang 54)

Chương 3 Thực nghiệm 3.1 Môi trường và thiết kế thực nghiệm

3.3.3. So sánh hiệu quả của các hàm trọng số

Trong phần này ta sẽ thấy việc lựa chọn dùng hàm trọng số nào cũng ảnh hưởng đáng kể đến kết quả phân lớp, và không có hàm trọng số nào luôn là sự lựa chọn tốt nhất đối với mọi bộ dữ liệu.

Ta xét độ chính xác của bộ phân lớp BoostMetric+WkNN khi sử dụng các hàm trọng số khác nhau với các bộ dữ liệu trong bảng 1.1 được mô tả trong hình 3.5 bên dưới. Số liệu được biểu diễn trong các biểu đồ là giá trị trung bình của 10 lần chạy.

Hình 3.5: So sánh hiệu quả của các hàm trọng số sử dụng với bộ phân lớp BoostMetric+WkNN

lệch là rất nhỏ. Ta chỉ có thể phân biệt rõ hiệu quả hoạt động của các hàm trọng số thông qua việc quan sát các biểu đồ ứng với các bộ dữ liệu Libras Movement, Sonar và Liver Disorders. Với bộ dữ liệu Libras Movement thì BoostMetric+WkNN cho kết quả tốt nhất khi dùng hàm trọng số Triweight với độ chính xác 84.92%. Còn với bộ dữ liệu Liver Disorders, BoostMetric+WkNN lại đạt kết quả tốt nhất nếu dùng hàm trọng số Gauss với độ chính xác 71.4%, trong khi hàm Triweight chỉ cho độ chính xác 68%. Như vậy, hàm trọng số Triweight tỏ ra rất hiệu quả với bộ dữ liệu Libras Movement, nhưng lại cho kết quả kém nhất với bộ dữ liệu Liver Disorders. Thêm nữa, với bộ dữ liệu Libras Movement, việc dùng hàm trọng số Triweight giúp làm tăng độ chính xác lên 5.67% so với khi dùng hàm trọng số Gauss. Tương tự với bộ dữ liệu Liver Disorders, dùng hàm trọng số Gauss cho độ chính xác cao hơn 3.4% so với việc dùng hàm trọng số Triweight. Điều này khẳng định việc lựa chọn dùng hàm trọng số nào cũng ảnh hưởng đáng kể đến kết quả phân lớp một số bộ dữ liệu.

Trong luận văn này, tôi đã tìm hiểu phương pháp đo khoảng cách dữ liệu BoostMetric và ứng dụng vào bài toán cải tiến hiệu quả phân lớp dữ liệu của thuật toán WkNN. Ngoài ra tôi cũng thử áp dụng phương pháp sử dụng hàm nhân (Kernel method) vào thuật toán WkNN và so sánh với BoostMetric+WkNN. Kết quả bước đầu cho thấy bộ phân lớp kết hợp BoostMetric và WkNN có độ chính xác tốt hơn (và vượt trội đối với một số bộ dữ liệu) so với bộ phân lớp WkNN ban đầu và bộ phân lớp Kernel WkNN. Để đánh giá hiệu quả phân lớp của BoostMetric+WkNN, tôi so sánh độ chính xác của nó so với SVM và Random Forest. SVM và Random Forest là hai thuật toán phân lớp mạnh đang được sử dụng phổ biến hiện nay. Khi chạy thực nghiệm, tôi thấy bộ phân lớp BoostMetric+WkNN có độ chính xác cao hơn hai bộ phân lớp SVM và Random Forest với đa số các bộ dữ liệu được sử dụng. Các kết quả thực nghiệm đã minh chứng mô hình kết hợp BoostMetric và WkNN có tiềm năng và có thể được ứng dụng rộng rãi trong các bài toán phân lớp thực tế.

Tiếng Anh

[1] Bernhard Scholkopf, Alexander J.Smola (2002), Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond, MIT Press, Massachusetts.

[2] Chunhua Shen, Junae Kim, Lei Wang, Anton van den Hengel (2009), “Positive Semidefinite Metric Learning with Boosting”, Advances in Neural Information Processing Systems, pp.1651-1659.

[3] Chunhua Shen, Junae Kim, Lei Wang, Anton van den Hengel (2012), “Positive Semidefinite Metric Learning Using Boosting-like Algorithms”, Journal of Machine Learning Research, 13 (1), pp.1007-1036.

[4] Dong-Sheng Cao, Jian-Hua Huang, Jun Yan, Liang-Xiao Zhang, Qian-Nan Hu, Qing-Song Xu, Yi-Zeng Liang (2012), “Kernel k-nearest neighbor algorithm as a flexible SAR modeling tool”, Chemometrics and Intelligent Laboratory Systems, 114, pp.19-23.

[5] Hechenbichler Klaus, Schliep Klaus (2004), Weighted k-Nearest-Neighbor Techniques and Ordinal Classification, Discussion Paper 399, SFB 386, Ludwig- Maximilians University Munich.

[6] Jiawei Han, Micheline Kamber (2006), Data Mining – Concepts and Techniques 2nd Edition, Morgan Kaufmann, San Francisco.

[7] Kai Yu, Liang Ji, Xuegong Zhang (2002), “Kernel Nearest-Neighbor Algorithm”,

Neural Processing Letters, 15 (2), pp.147-156.

[8] Leif E.Peterson (2009), “K-Nearest Neighbor”, Scholarpedia, 4 (2). [9] Rick Wicklin (2012), “What is Mahalanobis distance?”, SAS Blogs.

Một phần của tài liệu Nghiên cứu ứng dụng kỹ thuật BoostMetric nhằm tăng hiệu quả phân lớp dữ liệu lớn (Trang 54)

Tải bản đầy đủ (DOCX)

(58 trang)
w