Nguyên tắc chung

Trong các phương pháp học cây quyết định và Bayes đơn giản, thuật toán học dựa trên dữ

liệu huấn luyện để học ra mô hình và tham số cho bộ phân loại. Mô hình phân loại sau đó được sử dụng để dựđoán nhãn cho ví dụ mới. Quá trình học thực chất là quá trình xác định dạng và tham số của hàm đích, là hàm xấp xỉ giá trị nhãn phân loại.

Phần này sẽ trình bày kỹ thuật học máy dựa trên một nguyên tắc khác gọi là học dựa trên ví dụ (instance-based learning). Khác với các phương pháp học ở trên, học dựa trên ví dụ không tạo

ra mô hình hay hàm đích cho dữ liệu, thay vào đó, trong quá trình học thuật toán chỉ lưu lại tất cả

các mẫu huấn luyện được cung cấp. Khi cần phân loại hay ra quyết định cho ví dụ mới, thuật toán tìm những mẫu huấn luyện tương tự và xác định nhãn phân loại hay giá trị của ví dụ dựa trên những mẫu này.

Do thuật toán không làm gì trong quá trình học mà chỉ lưu lại các mẫu huấn luyện, phương pháp học dựa trên ví dụ còn được gọi là học lười (lazy learning) hay học bằng cách nhớ

(memory-based learning). Học dựa trên ví dụ bao gồm một số kỹ thuật học khác nhau như thuật toán k-hàng xóm gần nhất (k-nearest neighbor), suy diễn theo trường hợp (case-based reasoning).

Điểm khác nhau cơ bản giữa nhứng kỹ thuật này là cách biểu diễn và tính độ tương tự giữa các ví dụ. Thuật toán k-hàng xóm gần nhất sử dụng cách biểu diễn ví dụ đơn giản dưới dạng vec tơ

trong không gian Ơclit và sử dụng khoảng cách Ơclit để tính độ tương tự, trong khi suy diễn theo trường hợp dựa trên việc biểu diễn các mẫu (gọi là trường hợp) phức tạp hơn và dùng những kỹ

thuật phức tạp được xây dựng riêng để tính độ tương tự cho các trường hợp.

Ưu điểm. So với phương pháp học dựa trên mô hình, học dựa trên ví dụ có một sốưu điểm. Thứ nhất, do không quy định trước mô hình hay dạng của hàm đích, học dựa trên ví dụ có thể xây dựng những hàm đích rất phức tạp. Thứ hai, thay vì xây dựng hàm đích chung cho toàn bộ dữ

liệu, học dựa trên ví dụ xây dựng hàm đích dựa trên một số mẫu gần với ví dụđang cần dựđoán, do vậy có thể tận dụng được đặc điểm mang tính cục bộ của dữ liệu để mô tả tốt hơn giá trị ví dụ

mới.

Nhược điểm. Nhược điểm thứ nhất của học dựa trên ví dụ là tốc độ chậm trong giai đoạn phân loại. Do thuật toán phải so sánh ví dụ mới với toàn bộ tập mẫu để tìm ra những mẫu tương tự nên thời gian phân loại tỷ lệ thuận với kích thước tập mẫu. Để khắc phục vấn đề tốc độ, cách thông dụng nhất là sử dụng kỹ thuật đánh chỉ số để tìm kiếm nhanh mẫu tương tự. Nhược điểm thứ hai của học dựa trên ví dụ là việc tính độ tương tựđược thực hiện với toàn bộ thuộc tính. Nếu thuộc tính không liên quan tới phân loại của ví dụ thì khi sử dụng sẽ gây nhiễu, khiến những ví dụ cùng nhãn không tương tự với nhau. Vấn đề chọn và sử dụng những thuộc tính tốt, do vậy, có

ảnh hưởng quyết định tới độ chính xác của phương pháp này.

Tìm kiếm tham lam (Greedy Search)

Thuật toán leo đồi (Hill climbing)