Nghiên cứu ứng dụng kỹ thuật BoostMetric nhằm tăng hiệu quả phân lớp dữ liệu lớn : Luận văn ThS. Công nghệ thông tin: 60 48 01 04

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THANH TỊNH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT BOOSTMETRIC NHẰM TĂNG HIỆU QUẢ PHÂN LỚP DỮ LIỆU LỚN LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THANH TỊNH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT BOOSTMETRIC NHẰM TĂNG HIỆU QUẢ PHÂN LỚP DỮ LIỆU LỚN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 60480104 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM HÀ NỘI - 2014 Lời cam đoan Tôi xin cam đoan luận văn “Nghiên cứu ứng dụng kỹ thuật BoostMetric nhằm tăng hiệu phân lớp liệu lớn” cơng trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn hồn tồn trung thực Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan Ngoại trừ tài liệu tham khảo này, luận văn hồn tồn cơng việc riêng tơi Luận văn hồn thành thời gian học viên Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Hà Nội, ngày 30 tháng 10 năm 2014 Học viên Nguyễn Thanh Tịnh Lời cảm ơn Lời đầu tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam tận tình hướng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tôi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường Đại học Công Nghệ Tôi xin gửi lời cảm ơn tới bạn lớp cao học K18 ủng hộ, khuyến khích tơi suốt q trình học tập trường Tôi thầm biết ơn tới công lao to lớn gia đình - người ln động viên nuôi dưỡng đời Cám ơn người bạn đồng nghiệp tôi, bên cạnh để chia sẻ kinh nghiệm học tập sống Tôi xin chân thành cảm ơn! Hà Nội, ngày 30 tháng 10 năm 2014 Học viên Nguyễn Thanh Tịnh Mục lục Mở đầu Chương Giới thiệu Khai phá liệu 1.1 Tổng quan Khai phá liệu 1.2 Thuật toán k láng giềng gần (kNN) 1.3 Thuật toán Weighted k-Nearest-Neighbors (WkNN) 1.4 Phương pháp Kernel kNN 1.5 Khoảng cách Mahalanobis 11 1.6 Kỹ thuật Boosting 12 1.7 Kỹ thuật BoostMetric 14 Chương Kết hợp BoostMetric WkNN 26 2.1 Mơ hình tổng quan 26 2.2 Cách thức hoạt động thành phần 28 Chương Thực nghiệm 31 3.1 Môi trường thiết kế thực nghiệm 31 3.2 Dữ liệu sử dụng 32 3.3 Phân tích kết thực nghiệm 33 Kết luận 47 Tài liệu tham khảo 48 Danh mục hình vẽ Hình 1.1: Ví dụ thuật tốn kNN Hình 1.2: Ví dụ thuật tốn WkNN Hình 1.3: Ví dụ độ biến thiên theo chiều khác liệu 11 Hình 1.4: Dạng tổng quát thuật toán Boosting 13 Hình 1.5: Ví dụ thuật toán Boosting 13 Hình 1.6: Tìm tìm kiếm nhị phân 23 Hình 1.7: Huấn luyện ma trận xác định khơng âm dựa theo thuật tốn Boosting 25 Hình 2.1: Mơ hình tổng quan kết hợp BoostMetric WkNN 27 Hình 2.2: Mơ hình chi tiết kết hợp BoostMetric WkNN 28 Hình 2.3: Thuật tốn sinh tập ba dùng để huấn luyện ma trận sở Zj 29 Hình 3.1: So sánh độ xác bốn phân lớp: BoostMetric+WkNN, BoostMetric+kNN, Kernel WkNN WkNN với liệu sử dụng 36 Hình 3.2: So sánh chi tiết 10 lần chạy bốn phân lớp: BoostMetric+WkNN, BoostMetric+kNN, Kernel WkNN WkNN với liệu sử dụng 38 Hình 3.3: So sánh độ xác ba phân lớp: BoostMetric+WkNN, Random Forest SVM với liệu sử dụng 41 Hình 3.4: So sánh chi tiết 10 lần chạy ba phân lớp: BoostMetric+WkNN, Random Forest SVM với liệu sử dụng 43 Hình 3.5: So sánh hiệu hàm trọng số sử dụng với phân lớp BoostMetric+WkNN 45 Danh mục bảng biểu Bảng 1.1: Các hàm trọng số tiêu biểu Bảng 1.2: Một số hàm nhân hay dùng 10 Bảng 3.1: Các liệu dùng thực nghiệm 33 Bảng 3.2: So sánh tỉ lệ lỗi (%) chạy thực nghiệm phân lớp: BoostMetric+5NN, W5NN, Kernel W5NN BoostMetric+W5NN 34 Bảng 3.3: So sánh tỉ lệ lỗi (%) chạy thực nghiệm phân lớp: BoostMetric+7NN, W7NN, Kernel W7NN BoostMetric+W7NN 34 Bảng 3.4: So sánh tỉ lệ lỗi (%) chạy thực nghiệm phân lớp: BoostMetric+WkNN, Random Forest SVM 40 Danh mục viết tắt Thuật ngữ STT Từ viết tắt k-Nearest Neighbors kNN Weighted k-Nearest Neighbors WkNN Support Vector Machine SVM Số thứ tự STT Mở đầu Ngày nay, cách mạng khoa học công nghệ có bước phát triển vượt bậc, đánh dấu mốc son đáng tự hào văn minh giới đương đại Cùng với phát triển này, lượng liệu ngày lớn vô phong phú tạo Lượng liệu lớn, thơng tin chứa ít, nên địi hỏi phải có kỹ thuật để khai thác thông tin, khai phá liệu đời nhằm đáp ứng yêu cầu Phân lớp liệu hướng nghiên cứu khai phá liệu Phân lớp liệu kỹ thuật dựa tập huấn luyện giá trị nhãn lớp thuộc tính phân lớp sử dụng việc phân lớp liệu Thuật toán k láng giềng gần (kNN) kỹ thuật bản, đơn giản trực giác lĩnh vực Phân tích thống kê Bộ phân lớp dựa thuật toán kNN học lười (lazy learner), không cần thực trình học cho mơ hình Nó cần sử dụng tất đối tượng liệu tập tham chiếu để định gán nhãn lớp cho quan sát Mặc dù đơn giản, thuật toán kNN cho kết tốt nhiều ứng dụng thực tế BoostMetric phương pháp đo khoảng cách điểm liệu dựa vào việc huấn luyện ma trận tham số X hàm khoảng cách Mahalanobis Trong luận văn này, chúng tơi đề xuất mơ hình kết hợp sử dụng BoostMetric Weighted kNN, cải tiến thuật toán kNN, nhằm làm tăng hiệu phân lớp liệu Nội dung luận văn chia thành chương sau: Chương 1: Luận văn giới thiệu khái quát Khai phá liệu số kỹ thuật Học máy bản, bao gồm hai thuật toán BoostMetric WkNN Chương 2: Luận văn đề xuất mơ hình kết hợp hai thuật tốn BoostMetric WkNN để làm tăng hiệu phân lớp liệu Chương 3: Thực nghiệm, kết quả, đánh giá Tiến hành thực nghiệm theo mơ hình đề xuất chương Phần kết luận: Tóm lược kết đạt luận văn Chương Giới thiệu Khai phá liệu 1.1 Tổng quan Khai phá liệu Khai phá liệu trình khám phá tri thức tri thức có ích dạng tiềm nguồn liệu có Một số phương pháp Khai phá liệu tiêu biểu:  Phân lớp (Classification): Khai thác hàm huấn luyện trước để phân loại đối tượng liệu vào lớp định nghĩa trước  Hồi qui (Regression): Khai thác hàm huấn luyện trước để ánh xạ đối tượng liệu thành giá trị thực kết dự báo  Phân cụm (Clustering): Giải vấn đề tìm kiếm, phát số lượng hữu hạn cụm mô tả tập hợp liệu ban đầu khơng có nhãn Đó q trình tìm cách nhóm đối tượng cho vào cụm, cho đối tượng cụm tương tự (similar) nhau, đối tượng khác cụm khơng tương tự (dissimilar)  Tổng hợp (Summarization): Quá trình bao gồm phương pháp để tìm mơ tả súc tích cho tập (hoặc tập con) liệu  Mơ hình hóa ràng buộc (Dependency Modeling): Tìm mơ hình cục mơ tả ràng buộc quan trọng biến giá trị đặc trưng tập liệu phần tập liệu  Phát biến đổi độ lệch (Change and Deviation Detection): Khai phá biến đổi quan trọng tập liệu Khai phá liệu có nhiều ứng dụng quan trọng thực tế, lĩnh vực phong phú:  Trong lĩnh vực Bảo hiểm, Tài chính, Thị trường chứng khốn: phân tích tình hình tài cơng ty dựa báo cáo tài Hay dự đốn giá cổ phiếu dựa vào phân tích liệu Thị trường chứng khoán,…  Trong Thống kê, Phân tích liệu Hỗ trợ định  Trong Y học: chẩn đoán bệnh gợi ý phác đồ điều trị dựa vào mối liên hệ triệu chứng bệnh nhân  Quảng cáo, Thương mại điện tử, Phát triển ứng dụng hướng người dùng: phân tích thói quen sử dụng/mua bán sản phẩm người dùng để đưa gợi ý mua sắm cách xếp, cách đầu tư sản phẩm tối ưu Dự đoán hành vi người dùng nhằm nâng cao chất lượng dịch vụ  … 34 Bảng 3.2: So sánh tỉ lệ lỗi (%) chạy thực nghiệm phân lớp: BoostMetric+5NN, W5NN, Kernel W5NN BoostMetric+W5NN STT Bộ liệu BoostMetric +5NN W5NN Kernel W5NN BoostMetric +W5NN Ionosphere 8.95 12.38 13.34 Letters 3.17 4.87 5.05 2.81 Libras Movement 22.25 18.25 18.25 15.08 Liver Disorders 28.9 34.9 33.5 28.6 Sonar 16.35 15.71 17.94 14.29 Vehicle 20.16 30 38.27 19.96 Twin Peaks 0.55 3.35 0.84 0.48 USPS 2.71 4.38 3.33 2.38 Bảng 3.3: So sánh tỉ lệ lỗi (%) chạy thực nghiệm phân lớp: BoostMetric+7NN, W7NN, Kernel W7NN BoostMetric+W7NN STT Bộ liệu BoostMetric +7NN W7NN Kernel W7NN BoostMetric +W7NN Ionosphere 10.29 12.1 13.43 8.67 Letters 3.32 4.77 5.02 2.69 Libras Movement 26.25 18.33 19 16.58 Liver Disorders 28.9 35.2 33.3 28.9 Sonar 15.87 16.03 18.89 14.13 Vehicle 20.04 29.37 38.54 19.88 Twin Peaks 0.84 3.26 0.83 0.71 USPS 2.8 4.37 3.28 2.4 35 Nhìn vào hai bảng 3.2 3.3, ta thấy phân lớp BoostMetric+WkNN cho kết tốt phân lớp lại tất liệu sử dụng Cụ thể, BoostMetric+WkNN có tỉ lệ lỗi nhỏ WkNN Kernel WkNN tất liệu Chỉ BoostMetric+kNN cho kết tương đương BoostMetric+WkNN liệu Liver Disorders với k = 7, song lại có độ xác trường hợp cịn lại Hình 3.1 thể độ xác phân lớp liệu bảng 3.1 bốn phân lớp: BoostMetric+WkNN, BoostMetric+kNN, Kernel WkNN, WkNN Mỗi biểu đồ hình 3.1 tương ứng với liệu sử dụng Đường kẻ thẳng đứng cột biểu đồ biểu diễn độ lệch chuẩn phân lớp với liệu tương ứng Tôi vẽ biểu đồ hình có tỷ lệ giống để tiện so sánh độ xác phân lớp với liệu khác Giá trị mô tả biểu đồ giá trị trung bình 10 lần chạy 36 Tỷ lệ xác (%) 100 USPS 90 80 70 60 50 Libras Movement 90 100 Tỷ lệ xác (%) Tỷ lệ xác (%) 100 80 70 60 50 Liver Disorders 90 80 70 60 80 70 60 50 70 60 Vehicle 90 80 70 60 50 Letters 100 Tỷ lệ xác (%) Tỷ lệ xác (%) 90 80 100 50 100 90 50 Tỷ lệ xác (%) Tỷ lệ xác (%) 100 Sonar Twin Peaks 90 80 70 60 50 Hình 3.1: So sánh độ xác bốn phân lớp: BoostMetric+WkNN, BoostMetric+kNN, Kernel WkNN WkNN với liệu sử dụng 37 Nhìn vào biểu đồ ứng với liệu Libras Movement, ta thấy phân lớp BoostMetric+WkNN có độ xác cao nhất, cao đáng kể so với phân lớp BoostMetric+kNN (84.92% so với 77.75%) Với liệu này, BoostMetric+WkNN phân lớp hoạt động ổn định nhất, có độ lệch chuẩn thấp độ lệch chuẩn ba phân lớp lại (2.31 so với 2.71 WkNN, Kernel WkNN 3.22 BoostMetric+kNN) Với ba liệu có kích thước tương đối lớn Letters, Twin Peaks USPS, phân lớp BoostMetric+WkNN có độ xác tốt Mặc dù nhìn biểu đồ tương ứng ta thấy độ xác phân lớp chênh không nhiều (với liệu Letters, BoostMetric+WkNN cao BoostMetric+kNN 0.48%, cao WkNN 2.08%, cao Kernel WkNN 2.33%), số mẫu kiểm chứng liệu lớn (6000 Letters Twin Peaks, 2790 USPS) nên kết thu đáng quý Thêm nữa, độ lệch chuẩn BoostMetric+WkNN ba liệu thấp độ lệch chuẩn phân lớp lại Với liệu Ionosphere Sonar, phân lớp BoostMetric+WkNN khơng có giá trị độ lệch chuẩn thấp độ lệch chuẩn so với độ lệch chuẩn tốt phân lớp WkNN chênh nhỏ (trên đơn vị), nên ta chọn BoostMetric+WkNN phân lớp tốt hai liệu Kernel WkNN có độ xác cao WkNN ba liệu USPS, Liver Disorders, Twin Peaks, lại với liệu lại Kernel WkNN hoạt động hẳn BoostMetric+WkNN không lần cho độ xác tương đương lớn Đặc biệt với liệu Vehicle Kernel WkNN phân lớp tồi nhất, xác BoostMetric+WkNN tới 18.39% Ta xét chi tiết kết 10 lần chạy bốn phân lớp với liệu mơ tả hình 3.2 sau: 38 100 Ionosphere Tỷ lệ xác (%) Tỷ lệ xác (%) 100 90 80 70 60 50 60 100 Libras Movement 90 80 70 60 50 10 10 10 10 Sonar 90 80 70 60 50 100 10 90 80 70 60 100 Liver Disorders Tỷ lệ xác (%) Tỷ lệ xác (%) 70 10 Tỷ lệ xác (%) Tỷ lệ xác (%) 100 Vehicle 90 80 70 60 50 10 100 Tỷ lệ xác (%) 100 Tỷ lệ xác (%) USPS 80 50 50 90 90 Letters 80 70 60 50 90 Twin Peaks 80 70 60 50 BoostMetric+WkNN 10 BoostMetric+kNN Kernel WkNN WkNN Hình 3.2: So sánh chi tiết 10 lần chạy bốn phân lớp: BoostMetric+WkNN, BoostMetric+kNN, Kernel WkNN WkNN với liệu sử dụng 39 Quan sát hai biểu đồ hình 3.2 ứng với liệu Vehicle Liver Disorders, ta nhận thấy rõ tác dụng việc sử dụng BoostMetric để cải tiến hiệu phân lớp thuật toán WkNN Với hai liệu này, phân lớp BoostMetric+WkNN đạt độ xác cao hẳn phân lớp WkNN Cụ thể, liệu Vehicle, BoostMetric+WkNN ln có độ xác cao WkNN khoảng 10% tất lần chạy Còn liệu Liver Disorders, BoostMetric+WkNN có độ xác cao WkNN dao động từ 3% đến 8% 10 lần chạy (trung bình cao 6.3%) Ngồi ra, trừ trường hợp với liệu Sonar phân lớp có đường biểu diễn lên xuống tương đối phức tạp (xét trung bình BoostMetric+WkNN tốt nhất), lại liệu khác BoostMetric+WkNN ln trì độ xác tốt so với WkNN Kernel WkNN hầu hết lần chạy Kết khẳng định tính đắn việc kết hợp BoostMetric WkNN Bộ phân lớp BoostMetric+WkNN ln đạt độ xác cao ba phân lớp WkNN, BoostMetric+kNN, Kernel WkNN tất liệu sử dụng, tỏ vượt trội số liệu 3.3.2 So sánh độ xác phân lớp: BoostMetric+WkNN, Random Forest SVM Bảng 3.4 so sánh tỉ lệ lỗi phân lớp BoostMetric+WkNN, Random Forest, SVM chạy với liệu mô tả bảng 3.1 Các giá trị ghi bảng giá trị trung bình 10 lần chạy 40 Bảng 3.4: So sánh tỉ lệ lỗi (%) chạy thực nghiệm phân lớp: BoostMetric+WkNN, Random Forest SVM STT Bộ liệu Random Forest SVM BoostMetric+WkNN Ionosphere 7.24 6.48 Letters 3.9 3.53 2.69 Libras Movement 24.33 21.09 15.08 Liver Disorders 26.9 29.1 28.6 Sonar 18.89 17.46 14.13 Vehicle 25.67 20.24 19.88 Twin Peaks 0.22 0.76 0.48 USPS 3.68 2.68 2.38 Theo bảng 3.4 ta thấy phân lớp BoostMetric+WkNN đạt kết tốt với đa số liệu sử dụng thực nghiệm BoostMetric+WkNN SVM chạy với liệu Ionosphere, Random Forest chạy với ba liệu Ionosphere, Liver Disorders, Twin Peaks Tuy nhiên với liệu này, BoostMetric+WkNN thua với khoảng cách chênh lệch nhỏ so với liệu cịn lại Hình 3.3 thể độ xác phân lớp liệu bảng 3.1 ba phân lớp: BoostMetric+WkNN, Random Forest, SVM Mỗi biểu đồ hình 3.3 tương ứng với liệu sử dụng Đường kẻ thẳng đứng cột biểu đồ biểu diễn độ lệch chuẩn phân lớp với liệu tương ứng Giá trị mô tả biểu đồ giá trị trung bình 10 lần chạy 41 Ionosphere 90 100 Tỷ lệ xác (%) Tỷ lệ xác (%) 100 80 70 60 50 Libras Movement 80 70 60 90 100 Tỷ lệ xác (%) Tỷ lệ xác (%) 90 50 100 80 70 60 50 Sonar 90 80 70 60 50 100 Liver Disorders 90 100 Tỷ lệ xác (%) Tỷ lệ xác (%) USPS 80 70 60 50 Vehicle 90 80 70 60 50 100 Letters 100 Tỷ lệ xác (%) Tỷ lệ xác (%) Twin Peaks 90 80 70 60 50 90 80 70 60 50 BoostMetric+WkNN SVM Random Forest Hình 3.3: So sánh độ xác ba phân lớp: BoostMetric+WkNN, Random Forest SVM với liệu sử dụng 42 Nhìn vào hình 3.3 ta thấy với liệu Vehicle, hai phân lớp BoostMetric+WkNN SVM cho độ xác gần tương đương (80.12% BoostMetric+WkNN so với 79.76% SVM) Trong đó, phân lớp Random Forest cho kết nhất, có độ xác nhỏ đáng kể với 74.33% Đáng ý, quan sát hai biểu đồ ứng với hai liệu Libras Movement Sonar, ta thấy độ xác BoostMetric+WkNN so với hai phân lớp cịn lại có chênh lệch rõ rệt Với liệu Libras Movement, BoostMetric+WkNN cho kết tốt 6.01% so với SVM, tốt 9.25% so với Random Forest Còn với liệu Sonar BoostMetric+WkNN xác 3.33% so với SVM, 4.76% so với Random Forest Với hai liệu có kích thước tương đối lớn Letters USPS, BoostMetric+WkNN có độ xác cao SVM Random Forest Tuy % độ xác phân lớp chênh không nhiều hai liệu có kích thước lớn nên số mẫu bị phán đoán sai với BoostMetric+WkNN hẳn SVM Random Forest Ngồi ra, hoạt động với liệu Letters, Liver Disorders, Libras Movement USPS BoostMetric+WkNN có độ lệch chuẩn nhỏ Ta xét chi tiết kết 10 lần chạy ba phân lớp với liệu mô tả hình 3.4 sau: 43 100 Ionosphere Tỷ lệ xác (%) Tỷ lệ xác (%) 100 90 80 70 60 50 60 100 Libras Movement 90 80 70 60 50 10 10 10 10 Sonar 90 80 70 60 50 100 10 90 80 70 60 100 Liver Disorders Tỷ lệ xác (%) Tỷ lệ xác (%) 70 10 Tỷ lệ xác (%) Tỷ lệ xác (%) 100 Vehicle 90 80 70 60 50 10 100 Tỷ lệ xác (%) 100 Tỷ lệ xác (%) USPS 80 50 50 90 90 Letters 80 70 60 50 90 Twin Peaks 80 70 60 50 BoostMetric+WkNN 10 SVM Random Forest Hình 3.4: So sánh chi tiết 10 lần chạy ba phân lớp: BoostMetric+WkNN, Random Forest SVM với liệu sử dụng 44 Quan sát hình 3.4 ta thấy phân lớp BoostMetric+WkNN hoạt động ổn định với liệu Libras Movement, Sonar, Letters, USPS ln có độ xác cao hầu hết lần chạy Ngoài với liệu Twin Peaks, BoostMetric+WkNN tốt SVM 10 lần chạy Cịn với liệu Vehicle, BoostMetric+WkNN ln tốt Random Forest tất lần chạy 3.3.3 So sánh hiệu hàm trọng số Trong phần ta thấy việc lựa chọn dùng hàm trọng số ảnh hưởng đáng kể đến kết phân lớp, khơng có hàm trọng số lựa chọn tốt liệu Ta xét độ xác phân lớp BoostMetric+WkNN sử dụng hàm trọng số khác với liệu bảng 1.1 mơ tả hình 3.5 bên Số liệu biểu diễn biểu đồ giá trị trung bình 10 lần chạy 45 Ionosphere Triweight Triangular Triangular Inversion Inversion Gauss Gauss Epanechnikov Epanechnikov Cosine Cosine Biweight Biweight (%) 50 60 70 80 90 100 Libras Movement Triweight (%) 50 Triangular Inversion Inversion Gauss Gauss Epanechnikov Epanechnikov Cosine Cosine Biweight Biweight 60 70 80 90 100 Liver Disorders Triweight (%) 50 Triangular Inversion Inversion Gauss Gauss Epanechnikov Epanechnikov Cosine Cosine Biweight Biweight 60 70 80 90 100 Letters Triweight (%) 50 Triangular Inversion Inversion Gauss Gauss Epanechnikov Epanechnikov Cosine Cosine Biweight Biweight (%) 50 60 70 60 80 90 100 (%) 50 80 90 100 70 80 90 100 90 100 Vehicle 60 70 80 Twin Peaks Triweight Triangular 70 Sonar Triweight Triangular (%) 50 60 Triweight Triangular (%) 50 USPS Triweight 60 70 80 Hình 3.5: So sánh hiệu hàm trọng số sử dụng với phân lớp BoostMetric+WkNN 90 100 46 Từ hình 3.5, ta thấy với liệu Ionosphere, USPS, Vehicle, Letters Twin Peaks hàm trọng số gần cho kết tương đương nhau, giá trị chênh lệch nhỏ Ta phân biệt rõ hiệu hoạt động hàm trọng số thông qua việc quan sát biểu đồ ứng với liệu Libras Movement, Sonar Liver Disorders Với liệu Libras Movement BoostMetric+WkNN cho kết tốt dùng hàm trọng số Triweight với độ xác 84.92% Cịn với liệu Liver Disorders, BoostMetric+WkNN lại đạt kết tốt dùng hàm trọng số Gauss với độ xác 71.4%, hàm Triweight cho độ xác 68% Như vậy, hàm trọng số Triweight tỏ hiệu với liệu Libras Movement, lại cho kết với liệu Liver Disorders Thêm nữa, với liệu Libras Movement, việc dùng hàm trọng số Triweight giúp làm tăng độ xác lên 5.67% so với dùng hàm trọng số Gauss Tương tự với liệu Liver Disorders, dùng hàm trọng số Gauss cho độ xác cao 3.4% so với việc dùng hàm trọng số Triweight Điều khẳng định việc lựa chọn dùng hàm trọng số ảnh hưởng đáng kể đến kết phân lớp số liệu 47 Kết luận Trong luận văn này, tơi tìm hiểu phương pháp đo khoảng cách liệu BoostMetric ứng dụng vào toán cải tiến hiệu phân lớp liệu thuật tốn WkNN Ngồi tơi thử áp dụng phương pháp sử dụng hàm nhân (Kernel method) vào thuật toán WkNN so sánh với BoostMetric+WkNN Kết bước đầu cho thấy phân lớp kết hợp BoostMetric WkNN có độ xác tốt (và vượt trội số liệu) so với phân lớp WkNN ban đầu phân lớp Kernel WkNN Để đánh giá hiệu phân lớp BoostMetric+WkNN, tơi so sánh độ xác so với SVM Random Forest SVM Random Forest hai thuật toán phân lớp mạnh sử dụng phổ biến Khi chạy thực nghiệm, tơi thấy phân lớp BoostMetric+WkNN có độ xác cao hai phân lớp SVM Random Forest với đa số liệu sử dụng Các kết thực nghiệm minh chứng mơ hình kết hợp BoostMetric WkNN có tiềm ứng dụng rộng rãi toán phân lớp thực tế 48 Tài liệu tham khảo Tiếng Anh [1] Bernhard Scholkopf, Alexander J.Smola (2002), Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond, MIT Press, Massachusetts [2] Chunhua Shen, Junae Kim, Lei Wang, Anton van den Hengel (2009), “Positive Semidefinite Metric Learning with Boosting”, Advances in Neural Information Processing Systems, pp.1651-1659 [3] Chunhua Shen, Junae Kim, Lei Wang, Anton van den Hengel (2012), “Positive Semidefinite Metric Learning Using Boosting-like Algorithms”, Journal of Machine Learning Research, 13 (1), pp.1007-1036 [4] Dong-Sheng Cao, Jian-Hua Huang, Jun Yan, Liang-Xiao Zhang, Qian-Nan Hu, Qing-Song Xu, Yi-Zeng Liang (2012), “Kernel k-nearest neighbor algorithm as a flexible SAR modeling tool”, Chemometrics and Intelligent Laboratory Systems, 114, pp.19-23 [5] Hechenbichler Klaus, Schliep Klaus (2004), Weighted k-Nearest-Neighbor Techniques and Ordinal Classification, Discussion Paper 399, SFB 386, LudwigMaximilians University Munich [6] Jiawei Han, Micheline Kamber (2006), Data Mining – Concepts and Techniques 2nd Edition, Morgan Kaufmann, San Francisco [7] Kai Yu, Liang Ji, Xuegong Zhang (2002), “Kernel Nearest-Neighbor Algorithm”, Neural Processing Letters, 15 (2), pp.147-156 [8] Leif E.Peterson (2009), “K-Nearest Neighbor”, Scholarpedia, (2) [9] Rick Wicklin (2012), “What is Mahalanobis distance?”, SAS Blogs URL: http://blogs.sas.com/content/iml/2012/02/15/what-is-mahalanobis-distance/

Định dạng
Số trang	56
Dung lượng	1,08 MB