Thuật tốn hỗ trợ cả phân lớp và hồi quy. Nĩ cũng được gọi là kNN cho ngắn gọn. Nĩ hoạt động bằng cách lưu trữ tồn bộ tập dữ liệu huấn luyện và truy vấn nĩ để xác định vị trí của các mẫu đào tạo tương tự nhất khi đưa ra dự đốn. Như vậy, khơng cĩ mơ hình nào ngồi tập dữ liệu huấn luyện thơ và phép tính duy nhất được thực hiện là truy vấn bộ dữ liệu huấn luyện khi yêu cầu dự đốn.
Đây là một thuật tốn đơn giản, nhưng một thuật tốn khơng giả định nhiều về vấn đề khác hơn là khoảng cách giữa các trường hợp dữ liệu cĩ ý nghĩa trong việc đưa ra dự đốn. Như vậy, nĩ thường đạt được hiệu suất rất tốt.
Khi đưa ra dự đốn về các vấn đề phân lớp, kNN sẽ lấy chế độ (lớp phổ biến nhất) của k trường hợp tương tự nhất trong tập dữ liệu huấn luyện.
Chọn thuật tốn k-Nearest Neighbors:
1. Nhấp vào nút “Choose” và chọn “IBk” trong nhĩm “Lazy”. 2. Nhấp vào tên của thuật tốn để xem lại cấu hình thuật tốn.
Ví dụ: Nếu k được đặt thành 1, thì các dự đốn được thực hiện bằng cách sử dụng một trường hợp đào tạo tương tự nhất với một mẫu mới nhất định mà theo đĩ một dự đốn được yêu cầu. Các giá trị phổ biến cho k là 3, 7, 11 và 21, lớn hơn cho kích thước tập dữ liệu lớn hơn. Weka cĩ thể tự động khám phá một giá trị tốt cho k bằng cách sử dụng xác thực chéo bên trong thuật tốn bằng cách đặt tham số crossValidate thành True.
Một thơng số quan trọng khác là thước đo khoảng cách được sử dụng. Điều này được định cấu hình trong Thuật tốn tìm kiếm gần nhất, điều khiển cách thức lưu trữ và tìm kiếm dữ liệu đào tạo.
Mặc định là một Tìm kiếm tuyến tính. Nhấp vào tên của thuật tốn tìm kiếm này sẽ cung cấp một cửa sổ cấu hình khác, nơi bạn cĩ thể chọn tham số distanceFunction. Theo mặc định, khoảng cách Euclide được sử dụng để tính khoảng cách giữa các trường hợp, điều này tốt cho dữ liệu số cĩ cùng tỷ lệ. Khoảng cách Manhattan là tốt để sử dụng nếu thuộc tính của bạn khác nhau về các biện pháp hoặc loại.
Hình 3. 14. Cấu hình weka cho thuật tốn tìm kiếm trong thuật tốn k-Nearest Neighbors
Đĩ là một ý tưởng tốt để thử một bộ các giá trị k và thước đo khoảng cách khác nhau cho vấn đề của bạn và xem cái gì hoạt động tốt nhất.
1. Nhấn vào “Ok” đây để đĩng cấu hình thuật tốn.
Hình 3. 15. Kết quả phân lớp Weka cho thuật tốn k-Nearest Neighbors