Các classifier k-láng giềng gần nhất

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 53)

Các classifier láng giềng gần nhất dựa trên việc học bằng sự giống nhau. Các mẫu huấn luyện được mơ tả bởi các thuộc tính số n - chiều. Mỗi mẫu đại diện cho một điểm trong một khơng gian n - chiều. Vì vậy tất cả các mẫu huấn luyện được lưu trữ trong khơng gian mẫu n - chiều. Khi cĩ một mẫu chưa biết cho trước thì classifier k-láng giềng gần sẽ tìm kiếm trong khơng gian mẫu k mẫu huấn luyện gần mẫu chưa biết đĩ nhất. k mẫu huấn luyện này là k "láng giềng gần nhất" của mẫu chưa biết. "Độ gần" được định nghĩa dưới dạng khoảng cách Euclidean, tại đĩ khoảng cách Euclidean giữa hai điểm X = (𝑥1, 𝑥2,..., 𝑥𝑛) và Y = (𝑦1, 𝑦2,..., 𝑦𝑛) là:

𝑑(X, Y) = √∑( 𝑛

𝑖=1

𝑥𝑖− 𝑦𝑖)2 (2.25)

Mẫu chưa biết được phân vào lớp phổ biến nhất trong số k láng giềng gần nhất của nĩ. Khi k = 1 thì mẫu chưa biết được ấn định lớp của mẫu huấn luyện gần nhất với nĩ trong khơng gian mẫu.

Các classifier láng giềng gần nhất dựa trên khoảng cách, từ đĩ chúng lưu trữ tất cả các mẫu huấn luyện. Các kỹ thuật đánh chỉ số hiệu quả được dùng khi số lượng các mẫu huấn luyện là rất lớn. Khơng giống như cây quyết định quy nạp và lan truyền ngược, các classifier láng giềng gần nhất ấn định các trọng số bằng nhau cho từng thuộc tính. Điều này cĩ thể là nguyên nhân gây nhập nhằng khi cĩ nhiều thuộc tính khơng thích hợp trong dữ liệu.

Các classifier láng giềng gần nhất cũng được dùng để dự đốn, tức là trả lại một dự đốn giá trị thực cho một mẫu chưa biết cho trước. Lúc này, classifier trả lại giá trị trung bình của các nhãn giá trị thực kết hợp với k-láng giềng gần nhất của mẫu chưa biết đĩ.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 53)

Tải bản đầy đủ (PDF)

(82 trang)