Tối ưu hóa trọng số cho thuật toán phân lớp KNN

Một phần của tài liệu Tiểu luận PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU (Trang 26)

Thuật toán KNN (K-Nearest Neighbors):

Dựa vào tập dữ liệu đã được phân lớp (gọi là dữ liệu huấn luyện). Khi có dữ liệu mới sẽ tính khoảng cách tới dữ liệu huấn luyện, lớp của dữ liệu này được xác định dựa vào (K) dữ liệu gần nó nhất.

Độ đo đơn giản thường sử dụng là độ đo Euclidean:

Xia là giá trị thuộc tính thứ i của dữ liệu thứ a.

KNN có trọng số (WKNN):

Các thuộc tính có vai trò khác nhau việc phân lớp dữ liệu. Thêm trọng số cho các thuộc tính.

Dùng GA để ước lượng bộ wa tối ưu.

Cách sử dụng GA tương tự như bài toán GFCM.

Cài đặt và thực nghiệm:

Dataset sử dụng là “Image Segmentation data”.

 19 đặc trưng.

 7 lớp.

 Dữ liệu train: 120 dòng.

 Dữ liệu test: 2100 dòng.

Test: Kết quả: Lớp KNN chính xác (%) GWKNN chính xác (%) Glass 98.33 99.67 Path 93.33 100.00 Window 80.00 83.00

Cement 82.00 82.00

Poliage 71.00 78.67

Sky 100.00 100.00

Brickface 88.33 92.67

Tổng 87.57 90.86

KẾT LUẬN, HƯỚNG PHÁT TRIỂN CỦA ĐỒ ÁN 1. Kết quả đạt được

Tìm hiểu một số kỹ thuật phân cụm dữ liệu: K-mean, K-Medoids, K-Nearest Neighbors (KNN), Fuzzy C-Mean(FCM)

Tối ưu hóa tham số, trọng số cho thuật toán Fuzzy C-Mean(FCM) và K-Nearest Neighbors (KNN).

2. Chưa đạt được:

Tim hiểu sâu tất cả các thuât toán phân cụm dữ liệu nêu ở chương 1.

TÀI LIỆU THAM KHẢO

[1 ] http://www.scribd.com/doc/97389084/14/MO-HINH-FUZZY-C-MEAN-FCM [2] http://www.scribd.com/doc/88732085/46814507-Do-an-Phan-Cum-Du-Lieu

[3] Mohanad Alata, Mohammad Molhim, And Adullah Ramini, Optimizing of Fuzzy C-Means clustering Algorithm using GA.

[4] Alessandro G.Di Nuovo, Vincenzo Catania, Maurizio Palesi, The Hybrid Genetic Fuzzy C-Mean: A Reasoned Implementation.

[5] James D. Kelly Jr., Lawrence Davis, A Hybrid Genetic Algorithm for Classification.

Một phần của tài liệu Tiểu luận PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU (Trang 26)

Tải bản đầy đủ (DOC)

(28 trang)
w