Phân lớp K– Nearest Neighbor

Một phần của tài liệu Áp dụng thuật toán k nearest neighbor để phân loại nhạc theo thể loại (Trang 33)

Phân lớp K – Nearest Neighbor là kiểu mở rộng của phân lớp 1 – Nearst Neighbor dựa trên khoảng cách. Nó lƣu trữ tất cả các mẫu đã huấn luyện trƣớc.

1- Nearest neighbor outcome is a puls

2- Nearest neighbor outcome is unknown

5- Nearest neighbor outcome is a minus

34

Sau đó, nó xác định khoảng cách giữa mẫu cần kiểm tra với tất cả các mẫu đã đƣợc huấn luyện mà chọn ra K mẫu huấn luyện gần với mẫu kiểm tra nhất, gọi là phân lớp K - Nearst Neighbor. Kết quả của việc phân loại là nhãn của mẫu huấn luyện cần xác định nhãn sẽ là nhãn của loại nào xuất hiện nhiều nhất trong K mẫu gần mẫu cần xác định nhãn.

Thuật toán phân lớp nhƣ sau:

 Input: Mẫu x cần xác định nhãn.

 Output: Nhãn của x. 1. Cho mẫu x cần phân lớp.

2. Gọi x1,x2, . . . xk là k mẫu từ trong kho mẫu huấn luyện gần x nhất. 3. Xác định nhãn 𝑓(x) của mẫu x từ nhãn 𝑓(x1), 𝑓(x2), . . . , 𝑓(xk).

Việc học trong thuật toán phân lớp k – NN chỉ đơn giản là lƣu trữ dữ liệu huấn luyện. Khi cần phân loại đối tƣợng mới, một tập các đối tƣợng “gần giống” hay “tƣơng tự” sẽ đƣợc chọn ra từ kho dữ liệu có sẵn và đƣợc sử dụng để phân loại đối tƣợng mới.

Để sử dụng thuật toán K - NN cho việc phân loại đối tƣợng mới, cần xác định các yếu tố sau: Dùng loại khoảng cách nào? Dùng thuộc tính nào có để có đƣợc kết quả tốt nhất, sử dụng hết tất cả các thuộc tính hay chỉ những thuộc tính chính.

35

Hình 2.2 Phƣơng pháp phân loại

Ưu điểm

 Dễ phân tích.

 Thực hiện đơn giản.

 Dễ thực hiện với việc so sánh.

 Hiệu quả khi tập huấn luyện lớn.

Khuyết điểm

 Cần tính khoảng cách giữa tất cả các điểm với điểm truy vấn, do đó việc tính toán nhiều. Chính vì vậy, thuật toán phân lớp K - NN có độ phức tạp còn cao.

 Chi phí cho việc phân loại đối tƣợng mới có thể tốn kém do gần nhƣ toàn bộ chi phí tính toán diễn ra lúc phân loại đối tƣợng mới chứ không diễn ra lúc huấn luyện dữ liệu.

 Nếu đặc trƣng để phân loại đối tƣợng chỉ phụ thuộc vào một số ít trong số nhiều thuộc tính sẵn có của đối tƣợng thì những đối tƣợng thật sự “tƣơng tự” có thể cách nhau rất xa.

36

CHƢƠNG 3. XÂY DỰNG ỨNG DỤNG PHÂN LOẠI NHẠC THEO THỂ LOẠI

Một phần của tài liệu Áp dụng thuật toán k nearest neighbor để phân loại nhạc theo thể loại (Trang 33)

Tải bản đầy đủ (PDF)

(51 trang)