Kỹ thuật phân lớp k láng giềng gần nhất

Một phần của tài liệu Ứng dụng nhận dạng motif hỗ trợ phân lớp dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động (Trang 26 - 28)

CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT

2.2. Kỹ thuật phân lớp k láng giềng gần nhất

Kỹ thuật phân lớp k láng giềng gần nhất được mô tả lần đầu tiên vào đầu thập

niên 1950. Đây là kỹ thuật phân lớp cho các đối tượng dữ liệu dựa trên các mẫu huấn luyện gần nó nhất. K láng giềng gần nhất là một loại phương pháp học dựa trên mẫu (instance-based learning), hay phương pháp học lười (lazy learning), trong đó tất cả

các tính toán được trì hoãn đến lúc phân lớp. Tập huấn luyện được mô tả bao gồm n

thuộc tính và nhãn lớp tương ứng của nó. Mỗi đối tượng dữ liệu thể hiện một điểm trong không gian n chiều. Bằng cách này, toàn bộ tập huấn luyện được lưu trữ trong một không gian mẫu n chiều. Khi cho một đối tượng dữ liệu chưa được xác định lớp, giải thuật k láng giềng gần nhất tìm kiếm trong không gian mẫu để có được k mẫu huấn luyện gần với đối tượng đó nhất. k mẫu huấn luyện này là k “mẫu láng giềng gần nhất” của mẫu cần phân lớp. Kết quả phân lớp cho đối tượng mục tiêu là kết quả bầu cử của k mẫu láng giềng gần nhất của nó. Nghĩa là nhãn lớp của đối tượng mục tiêu được xác định là lớp có nhiều mẫu xuất hiện nhất trong k mẫu láng giềng gần nhất của đối tượng mục tiêu đó. Nếu k = 1 thì nhãn lớp của đối tượng mục tiêu chính là nhãn lớp của mẫu gần nó nhất. Trong ví dụ ở Hình 2-6, nếu k=3, mẫu cần phân lớp (mẫu

hình tròn) sẽ được xác định thuộc lớp hình tam giác. Nhưng nếu k=5, mẫu cần phân

lớp sẽ được xác định thuộc lớp hình vuông.

Giải thuật k láng giềng gần nhất không định nghĩa chi tiết độ đo tương tự giữa các đối tượng dữ liệu. Tùy theo đặc điểm của từng loại dữ liệu mà ta có thể dùng các độ đo tương tự khác nhau. Trong trường hợp dữ liệu chuỗi thời gian, độ đo tương tự có thể là khoảng cách Euclid hoặc khoảng cách DTW như được mô tả ở mục 2.1.

Với giải thuật phân lớp k láng giềng gần nhất, giai đoạn huấn luyện chỉ bao gồm việc lưu trữ các đối tượng dữ liệu trong tập huấn luyện cùng với nhãn lớp tương ứng. Việc lưu trữ này có thể bao gồm việc sắp xếp thứ tự cho tập huấn luyện.

Một phần của tài liệu Ứng dụng nhận dạng motif hỗ trợ phân lớp dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động (Trang 26 - 28)

Tải bản đầy đủ (PDF)

(94 trang)