Mơ tả thuật tốn K-NN

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp dữ liệu hoa iris sử dụng thuật toán naive bayes, randomforest và KNN (k NEAREST NEIGHBORS)​ (Trang 42 - 44)

Các mẫu được mơ tả bằng n – chiều thuộc tính số. Mỗi mẫu đại diện cho một điểm trong một chiều khơng gian n – chiều. Theo cách này tất cả các mẫu được lưu trữ trong một mơ hình khơng gian n – chiều.

Các bước thực hiện cảu Thuật tốn K-NN được mơ tả như sau:

- Bước 1: Xác định số láng giềng gần nhất K.

- Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong training data.

- Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với đối tượng cần phân lớp.

- Bước 5: Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho đối tượng cần phân lớp.

Để hiểu K-NN được dùng để phân lớp thế nào ta xem minh họa dưới đây: Trong hình dưới đây, training Data được mơ tả bởi dấu (+) và dấu (-), đối

tượng cần được xác định lớp cho nĩ (Query point) là hình mặt cười đỏ. Nhiệm vụ của chúng ta là ước lượng (hay dự đốn) lớp của Query point dựa vào việc lựa chọn số láng giềng gần nhất với nĩ. Nĩi cách khác chúng ta muốn biết liệu Query Point sẽ được phân vào lớp (+) hay lớp (-)

Hình 2. 9: Minh họa của KNN

Ta thấy rằng:

1- Nearest neighbor : Kết quả là + (Query Point được xếp vào lớp dấu +)

2 - Nearest neighbors : khơng xác định lớp cho Query Point vì số láng giềng gần nhất với nĩ là 2 trong đĩ 1 là lớp + và 1 là lớp – (khơng cĩ lớp nào cĩ số đối tượng nhiều hơn lớp kia).vấn đề này sẽ được nĩi rõ cụ thể ở phần sau

5 - Nearest neighbors : Kết quả là – (Query Point được xếp vào lớp dấu – vì trong 5 láng giềng gần nhất với nĩ thì cĩ 3 đối tượng thuộc lớp – nhiều hơn lớp + chỉ cĩ 2 đối tượng).

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp dữ liệu hoa iris sử dụng thuật toán naive bayes, randomforest và KNN (k NEAREST NEIGHBORS)​ (Trang 42 - 44)

Tải bản đầy đủ (PDF)

(73 trang)