Giải thuật dựa vào thể thức (K-nearest neighbor s KNN)

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu ứng dụng kỹ thuật máy học để phân tích hình ảnh và nhận dạng phương tiện về hành vi vi phạm luật giao thông đường bộ (Trang 42 - 43)

4. Các giải thuật về máy học [16-17, 21-23]

4.2. Giải thuật dựa vào thể thức (K-nearest neighbor s KNN)

K-nearest neighbor là một trong những thuật tốn học cĩ giám sát đơn giản nhất (mà hiệu quả trong một vài trường hợp) trong các kỹ thuật học máy. Khi huấn luyện, thuật tốn này khơng học một điều gì từ dữ liệu huấn luyện (đây cũng là lý do thuật tốn này được xếp vào loại lười học), mọi tính tốn được thực hiện khi nĩ cần dự

đốn kết quả của dữ liệu mới. KNN cĩ thể áp dụng được vào cả hai loại của bài tốn học cĩ giám sát là phân loại và hồi quy.

Với KNN, trong bài tốn phân loại, nhãn của một điểm dữ liệu mới được suy ra trực tiếp từ K điểm dữ liệu gần nhất trong tập dữ liệu huấn luyện. Nhãn của một dữ liệu kiểm định cĩ thể được quyết định bằng bầu chọn theo số phiếu giữa các điểm gần nhất, hoặc nĩ cĩ thể được suy ra bằng cách đánh trọng số khác nhau cho mỗi điểm gần nhất đĩ rồi suy ra nhãn. Trong bài tốn hồi quy, kết quả của một điểm dữ liệu sẽ bằng chính kết quả của điểm dữ liệu đã biết gần nhất (trong trường hợp K=1), hoặc là trung bình trọng số của kết quả của những điểm gần nhất, hoặc bằng một mối quan hệ dựa trên khoảng cách tới các điểm gần nhất đĩ.

Một cách ngắn gọn, KNN là thuật tốn đi tìm kết quả của một điểm dữ liệu mới bằng cách chỉ dựa trên thơng tin của K điểm dữ liệu trong tập dữ liệu huấn luyện gần nĩ nhất (K-lân cận), khơng quan tâm đến việc cĩ một vài điểm dữ liệu trong những điểm gần nhất này là nhiễu.

Ví dụ hình 14 là bài tốn phân loại với 3 lớp: Đỏ, Lam, Lục. Mỗi điểm dữ liệu kiểm chứng sẽ được gán nhãn theo màu của điểm mà nĩ thuộc về. Trong hình này, cĩ một vài vùng nhỏ xem lẫn vào các vùng lớn hơn khác màu. Ví dụ cĩ một điểm màu Lục ở gần gĩc 11 giờ nằm giữa hai vùng lớn với nhiều dữ liệu màu Đỏ và Lam. Điểm này rất cĩ thể là nhiễu, dẫn đến nếu dữ liệu kiểm chứng rơi vào vùng này sẽ cĩ nhiều khả năng cho kết quả khơng chính xác. Kiến thức nền tảng này tham khảo từ tài liệu.

Hình 14: Bản đồ 1NN

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu ứng dụng kỹ thuật máy học để phân tích hình ảnh và nhận dạng phương tiện về hành vi vi phạm luật giao thông đường bộ (Trang 42 - 43)