• Bước thứ hai (classification)
Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp dữ
liệu mới. Trước tiên độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng. Holdout là một kỹ thuật đơn giản để ước lượng độ
chính xác đó. Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã
được gán nhãn lớp. Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo. Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã
đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế). Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quá vừa” dữ liệu. Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ
liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đó. Do vậy, cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo. Nếu
độ chính xác của mô hình là chấp nhận được, thì mô hình được sử dụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa biết. T u ô ?i Ng o a ?i n g u C h o ?n Ð T 2 5 Anh O K 3 5 Anh O K 4 0 Anh L o s t 2 7 F ra nc e L o s t 3 2 C hine s e L o s t 3 0 Anh O K 3 2 Anh O K 4 0 F ra nc e L o s t Training data Classification algorithm Classifier (model) if tuổi <= 35 or Ngoại ngữ =Anh then Chọn ĐT = OK a)
Hình 3.3 Quá trình phân lớp dữ liệu - (b1)Ước lượng độ chính xác của mô hình